Une Nouvelle Vague de Start-up Répond à la Crise de Données de l’IA Introduction et Contexte En 2011, Marc Andreessen a écrit que « la tec...
Une Nouvelle Vague de Start-up Répond à la Crise de Données de l’IA
Introduction et Contexte
En 2011, Marc Andreessen a écrit que « la technologie est en train de manger le monde ». Aujourd'hui, cela est particulièrement vrai pour l'industrie de l'intelligence artificielle (IA). Les grands modèles de langage consomment d'énormes quantités de données, mais ces ressources sont limitées. ChatGPT d’OpenAI, par exemple, a été entraîné sur l'ensemble de l'Internet public, incluant environ 300 milliards de mots. À ce rythme, les experts prévoient que l’industrie pourrait « heurter le mur des données » dès 2026.
Création de Données Artificielles : L'Approche de Gretel
Gretel est une start-up qui crée des « données synthétiques » imitant fidèlement les informations factuelles. Ces données artificielles ont été utilisées pour des informations personnelles identifiables, mais Gretel envisage maintenant de les fournir aux entreprises d'IA en manque de données. Ali Golshan, PDG de Gretel, voit cela comme une solution au problème du mur de données : « Les données synthétiques étaient tout à fait adaptées... il était possible d’obtenir des données de haute qualité et de les rendre sûres. »
Limites des Données Synthétiques
Les données synthétiques peuvent toutefois exagérer les biais présents dans les données originales et manquer les valeurs aberrantes. Cela peut aggraver les hallucinations de l'IA et conduire à un « effondrement du modèle ». Pour éviter cela, Gretel demande à ses clients de fournir des données réelles de haute qualité comme base.
Le Rôle des Humains dans la Création de Données
Certaines start-up, comme Scale AI, emploient des milliers de personnes pour nettoyer et étiqueter les données existantes ou en créer de nouvelles. Scale AI, valorisé à 14 milliards de dollars, emploie environ 200 000 travailleurs pour diverses tâches d'annotation de données. Toloka, basé à Amsterdam, utilise neuf millions d'étiqueteurs humains ou « tuteurs d’IA » pour des projets similaires. Ils travaillent avec des experts pour créer des données spécifiques à des domaines.
Défis du Travail Humain
Cependant, travailler avec des humains pose des défis, notamment en termes de rémunération et de gestion de la main-d'œuvre. Olga Megorskaya, PDG de Toloka, souligne que gérer des opérations humaines est complexe et peu apprécié dans l'industrie de l'IA.
Utiliser Moins de Données
Une solution à la pénurie de données pourrait être de développer des modèles d'IA nécessitant moins de données. Nestor Maslej, chercheur à Stanford, soutient que l'efficacité, plutôt que la quantité, est cruciale. Alex Ratner, PDG de Snorkel AI, affirme que la qualité et la spécificité des données sont plus importantes que le volume. Snorkel AI aide les entreprises à maximiser l’utilisation de leurs données existantes en les étiquetant efficacement.
Conclusion
L’industrie de l’IA se prépare à une crise de données imminente. Tandis que certaines start-up créent des données synthétiques, d’autres se concentrent sur l'optimisation des données existantes ou l'utilisation de modèles plus petits et spécifiques. Cette transition vers une utilisation plus efficace et ciblée des données pourrait bien représenter l'avenir de l'IA.


Aucun commentaire