et si l'intelligence artificielle était condamnée à s'effondrer sur elle-même c'est la théorie très sérieuse qui agite en ce moment les grands labos d'A le problème est simple à comprendre pour fonctionner les IA ont besoin d'être entraînés sur des données humaines de qualité principalement issu d'Internet sauf que depuis 2022 le web est progressivement envahi de contenu générés artificiellement des articles des vidéos des images au point que aujourd'hui sur Google imag c'est quasi impossible de retrouver C certaines œuvres originales d'artistes au milieu de torrent de fake générés par m-journée et ça fait seulement 2 ans notre invité
Lubna est experte en construction de dataset Dia et elle va nous aider à répondre aux questions qui fâche est-ce que cet effondrement va vraiment avoir lieu et du coup est-ce que lia aurait déjà atteint son pic vous allez voir que la réponse est loin d'être évidente mais juste avant annonce pour trade République nos partenaires de longue date qui viennent d'annoncer des dingueries si vous avez déjà cherché à placer votre argent vous connaissez la galère il faut un compte courtier séparé c'est souvent une usine à gaz avec des frais pas toujours transparents trè publicu ils ont
changé tout ça avec une appli super simple et plus d'un million de clients en France et ils annoncent de nouveautés énormes un IBAN français parfait pour recevoir son salaire ou les virements des services publics et surtout l'ouverture d'un PEA en France enfin depuis le temps qu'on attend ça s'ajoute au Compte Courant Rémunéré à 2,75 % brut par an une carte avec 1 % de saveback sur tous vos achats bref ça devient l'application ultime pour pour investir son argent si vous n'avez pas encore de compte allez voir la vidéo que j'ai fait avec Mathias le directeur
Europe c'est un guide de 1 heure où il m'apprend à gérer mon argent je vous laisse aller voir ainsi que vous créer un compte dans la description et on reprend pour reprendre du début la question centrale en fait c'est celle de de la qualité des données d'entraînement puisque il paraît donc les modèles qu'on a aujourd'hui qui sont super forts donc les gpt4 les Cloud et cetera en fait ils sont littéralement entraînés sur tout internet c'est ça ouais exactement en fait on veut que ces modèles savent un peu tout et sur Internet on on a tout
donc c'est vraiment la source principale pour entraîner ces modèles on peut aussi avoir des livres des PDF du code mais le web c'est vraiment la source majoritaire la question B mais comment tu donnes genre internet à entraîner ah déjà faut télécharger Internet et tu fait cliquer enregistrer s exactement normalement on peut Craw ça ce qu'on appelle du craolling c'est le fait de télécharger ses pages web donc il y a des par exemple une plateforme qui s'appelle camel craoll en fait tous les mois il soit te en fait des versions du web qu'ils ont craoll c'est
des Don qu'ils ont téléchargé ça va être du html avec ce qu'il y a dans les pages Web dedans et du donc concrètement eux ce qu'ils ont de leur côté c'est les petits robots ouis quient les sites web exactement et ça représente com quelle taille c'est énorme par exemple un mois c'est entre 200 TB et 400 TB de texte en compressé et donc common craoll c'est les seuls qui font ça enfin c'est du coup eux ils le font vraiment à très grande échelle c'est une boîte à but non lucratif sinon par par exemple open a
untropic eux ils font leur propres colline parce qu'ils ont assez de ressources pour faire ça tu disais qu'ils ont peut-être une couverture un peu de 90 % ouais il manque quand même quelques mais pour les plus compétitifs il faut développer son propre système pour essayer de d'être encore meilleur c'est ça c'est ça parce que ils ont quand même des ressources je crois peut-être un peu limitées donc parfois c'est possible qu'il y a des domaines qui sont pas très bien couverts donc si on veut être sûr de vraiment tout couvrir c'est toujours mieux si on fait
notre propre crolline OK et moi il y a un truc qui m'interpelle c'est que si jamais du coup tout le monde a accès à ces données que c'est des organismes non lucratifs et cetera ben on comprend pas trop pourquoi tu as des modèles du coup qui sont meilleurs que d'autres si tout le monde a accès à common Craw h qu ça vient d'où alors en fait accéder aux données sur common Craw c'est que l'étape 1 il reste beaucoup d'étapes pour avoir un bon dataset et c'est ça qui est le plus dur dit tout le monde
c'est pas un dataset du coup non non en fait si tu regardes des donn dans commam cross c'est du HTML dedans il y a du texte et du coup il faut extraire ce texte et il faut après le traité parce qu'en fait imaginons une page web en général il y a pas que du texte il y aura des barres latérales avec des publicités il y aura genre des bannières mais on veut pas forcément ça nous on veut que le texte qui est à l'intérieur et on va entraîner le modèle sur ça et du coup il
faut vraiment traiter ce texte pour récupérer que les choses qui nous intéressent donc ça c'est la première étape c'est l'extraction de texte du coup il faut faire ça sur tous les tabtes de données donc il faut quand même beaucoup de ressources pour faire ça après qu'on a extrait le texte euh on peut faire des traitements qui sont un peu basiques par exemple si on ve entrer train de modè que sur de l'anglais il faut détecter les données qui sont en anglais et filtrer les données qui le sont pas et après j'ai dit qu'il y a
des données tous les mois donc il y aura sûrement beaucoup de doublan par exemple il y a des pages qu' y a des miroirs il y a des trucs qui sont vraiment hyper répétés on n pas besoin d'entraîner les modèles sur ça il y a eu des recherches qui montrent que entraîner sur moins de doublan ça aide et du coup il faut faire ce qu'on appelle de la déduplication donc il faut auss lancer tout ça sur tous ces thab de donné donc il y a très peu de gens qui peuvent faire ça vraiment à cette
échelle prendre 400 t par exemple sur sur le dernier mois et elle essayer de trouver toutes les duplic enfin c'est des monstres c'est exactement et parfois en fait il faut regarder les doublons dans tous les mois en fait entre tous les 400 Teras que tu as donc c'est énorme et après il y a l'étape la plus importante c'est vraiment le traitement pour un peu filtrer les données qui sont de mauvais qualité et du coup pour faire ça on peut essayer de partir de l'intuition et se dire bah dis donc moi je pense que les pages
qui viennent de ce domaine j'ai besoin que de ça le DataSet final par exemple qu'on a obtenu dans fine web c'était je crois 10 peut-être 10 % ou moins de ce qu'on avait au départ commamon craoll donc il y a une très grande partie qui est de très mauvaise qualité il faut pas absolument pas entroller le modèle sur ça ou alors ça fait un for Chan bizarre peut-être même pas peut-être qu'il génère qui va générer du texte qui est pas cohérent ça va être vraiment un gaspiage de ressources comment tu filtres ça on peut commencer
par des filtres un peu basiques chercher par exemple les pages où il y a beaucoup de répétitions par exemple pour détecter les pages où il y a beaucoup de mots clés juste pour un peu manipuler les moteurs de recherche donc on a des filtres pour ça du coup la répétition dans les pages on on peut aussi avoir d'autres filtres par exemple on cherche les pages où il y a les phrases il se terminent pas par un point de ponctuation donc ça par exemple ça peut être un filtre mais après on a on peut avoir beaucoup
d'idées de filtres que pour nous ils ont du sens mon intuition humaine me dit que ça c'est un bon filtre faut pas que j'entraîne mes modèles sur ça mais après c'est pas toujours le cas on a appris ça un peu par l'expérience mais il faut toujours entraîner un modèle sur le DataSet qu'on filtre pour savoir si c'est un bon dataset ou pas et du coup en pratique comment construit les dataset on a des idées de méthodes de traitement on les applique et après on entraîne des petits modèles et on voit si en fait utiliser cette
méthode est mieux que ne pas l'utiliser ah comme ça on est sûr que en fait l'intuition elle se traduit pendant l'entraînement donc par exemple la ton idée de de d'enlever tout ce qui finit pas par un point ouais euh pour par exemple enlever les les postes redit bizares et ben ce que tu fais c'est que tu l'appliques sur ton gigantesque je donné et au lieu d' d'entraîner tout de suite ton gros modèle qui va te coûter des millions tu le mets sur un petit modèle ouais ete et tu peux comparer et c'est c'est un signal
intéressant en fait exactement euh on parlait tout à l'heure avant moi je travaillais sur les modèles de génération de code donc on entraî sur du code qui est sur gitab donc un filtre naturel c'est de utiliser les étoiles des ripos qui sont sur gitab parce que S a un ripo qui a beaucoup d'étoiles bah c'est peut-être de bonne qualité par exemple transformas on a beaucoup d'étoiles mais du coup la qualité pour le code elle est beaucoup plus élevé que d'autres ripos oui ça on dirait que c'est une bonne idée exactement et du coup on a
testé ça c'est pas du tout une bonne c'était le pire modèle qu'on a entraîné c'est très ça onit beaucoup de données que en fait les données que tu as au final ils sont pas du tout diverse et tu arrives pas à entraîner un bon modèle dessus donc c'estd que tous les les projets sur gthub qui sont les plus populaires c'est pas forcément mod exactement juste parce qu'il y a vraiment très peu de ripo qui ont beaucoup d'étoiles je crois nous pour nous le seul c'était 5 étoiles et même avec ça on n pas eu beaucoup
de données au final donc c'était pas du tout un bon filtre ça c'est des exemples dans le code mais un truc parlera à tout le monde c'est quoi des une bonne donnée qui est genre qualitative et un exemple de mauvaise donnée que tu veux pas du coup peut-être exemple de mauvaise données parce qu'il y en a beaucoup l'autre jour j'ai vu dans une présentation àp la semaine dernière ils ont montré un exemple de sur redit il y a un sabre redit qui s'appelle microwave gang du coup il a des gens qui viennent et il postent
la lettre M plusieurs fois pour un peu simuler le son d'un micro-onde tu vois et du coup les gens ils répondent bip pour dire que le micro-onde a fini et il y a beaucoup de de post de ce type et du coup je crois il y avait quelqu'un de Al ils ont trîné un modèle et à certain moment ils génér beaucoup de M ils savaient pas pourquoi et ils ont trouvé que ça vient de ce sa Brice c'est génial donc si ça trouve sur certains modèles tu mets le ça va continue il va continuer avec
vif ça veut dire que tu peux faire un subedit qui va bit des mais oui et il y a beaucoup de trucs comme ça du coup ça c'est pour mauvaise qualité pour bonne qualité du coup c'est dur de dire parce que c'est toujours bien d'avoir des données qui sont vraiment très diverses mais peut-être des trucs truc qui ressemble un peu à des manuels scolaires ou des textbooks genre par exemple une page de Stanford qui explique ce que l'algèbre linéaire ça c'est de très bonne qualité des articles par exemple sur des blog posts comme TS data
science ou des trucs comme ça ça peut être bien et du coup c'est quoi un peu les avec le temps la sauce secrète qui fait que on arrive à bien filtrer des données de qualité je pense la ce secrète c'est vraiment de faire beaucoup d'expérience pour trouver quelle méthode de traitement marche bien donc par exemple pour notre dataset on a vraiment fait je crois qu'on a entraîné 200 modèles petits pour tester les méthodes de traitement et quand on fait ça de façon un peu expérimentale bah on arrive à avoir un dataset qui marche bien après
on peut essayer d'innover un peu et d'avoir des méthodes de traitement par exemple qui utilisent d'autres LLM donc par exemple au lieu de d'utiliser une règle un peu automatique pour filtrer tu vas donner une page à un autre modèle de langage et lui dire donne dis-moi si elle est qualitative ou pas quoi ouais l'intuition c'est que quand on essaie d'enseigner par exemple à l'école ce qu'on montre aux étudiants c'est plutôt des manuels scolair qui sont très bien écrits il y a beaucoup d'informations et c'est correct et du coup on se disait au lieu d'entraîner sur
du web où il y a un peu tout si on créait un dataset qui est vraiment très propre qui est assez diverse et ça ressemble un peu à ses manuels scolaires est-ce que ça peut être intéressant et du coup c'est quelque chose que Microsoft a fait avec leur modelfi je sais pas si vous avez vu ils avaient un paper qui s'appelait textbooks are all you need et du coup en gros ils ont créé des données qui ressemblent à des manuels scolaires synthétique généré par d'autres modèles ils ont entraîné sur ça et du coup nous ce
qu'on a fait pour vraiment scale on a pris des pages Web et on a demandé à un LLM de donner la valeur éducative de ces pages web de 0 à 5 et après on a gardé que les données qui avait un score supérieur à 3 et ça marche super bien ah hyper intéressant parce que du coup le point de départ c'est un papier qui dit que en gros si tu enlèves tout le reste d'Internet et que tu gardes que les trucs qui ressemblent à des manuels scolaires tes Zia continuent de bien marcher quoi ouais du
coup ça c'est plus une analogie parce que ce qu'on garde c'est pas des trucs qui sont des manuels scolaires mais des trucs qui ont quand même une valeur éducative par exemple il parle d'un sujet qui peut être intéressant à l'école ou ils sont bien écrits et du coup tu peux choisir ton seuil de traitement en fonction de ce que tu veux garder par exemple si tues le seuil 5 bah tu auras que des manuels scolaires si tu utilises un se qui est un peu moins élevé tu auras des données qui sont assez diverses il paraît
que il y a pas que le filtrage il y a aussi en fait la la proportion la répartition entre différentes langues par exemple c'est ça ouais qui va jouer du coup entre différentes langues mais aussi entre les sources parce que par exemple comme j'avais dit avait on peut avoir des données du web mais aussi des données du code peut-être des données de math donc il faut savoir un peu quelle proportion donn pour chaque dataset mais oui les proportions c'est aussi important parce que par exemple moi je veux un modèle qui est très bon en anglais
mais aussi bon en code et si j'augmente la proportion de code il va forcément être mieux en code mais je veux pas qu'il soit moins bien en anglais donc il faut vraiment trouver un compromisok donc en fait c'est un peu comme si tu étais en train de construire une classe sur un jeu vidéo et tu tu dois augmenter un peu les capacités mais elles sont toutes liées en fait c'est ça ex ouais exactement est-ce qu'il y a des truc son un peu contreintuitif là-dessus l'exemple que tu donnes c'est tu mets plus d'anglais il est meilleur
en anglais tu mets plus de code il est meilleur en code ouais est-ce que c'est vraiment simple comme ça ou il y a des choses qui sont un peu contreintuitives ouais c'est pas très simple par exemple si on met pas du tout de code comparé si on met par exemple 20 % de code le modèle il sera mieux en anglais et en code si j'ajoute ce 20 % de code apparemment ça aide pour le raisonnement l'existence de données de programmation aide à l'anglais ouais parce parce que pour l'anglais on teste plein de choses on teste
les connaissance on teste le raisonnement et du coup par exemple pour le raisonnement le fait d'avoir du code ça aide même si tu vas jamais programmer quoi ouais même si tu tiles le modèle c'est bien de mettre du code c'est marrant et sur les langues au début on avait des modèles qui parlaient quasiment que anglais derrière on a vu on attendait avec impatience ceux qui parlaient bien français j'imagine que toutes les langues attendent toujours des des améliorations c'est pareil est-ce que du coup mettre plus d'une langue ça détériore les autres c'est la guerre quoi ouais
c'est un peu comme comme le code déjà ça dépend de la taille des modèles les modèles qui sont plus petits en général ils ont moins de capacité donc ça va être un peu dur de fit plusieurs langues mais en général il y a de transfert de connaissance entre les langues donc ça aide d'avoir plusieurs langues le comme ça le modèle il peut voir le même concept en plusieurs langues ça peut aider pour le raisonnement mais il y a quand même une limite des langues que tu peux avoir et en général les gens ils entraînent par
exemple pour avoir un modèle qui est meilleur en anglais la proportion d'anglais elle va être plus élevée que pour les autres langues et après j'imagine que dans les données en fait c'est c'est le cas ENF il déjàor en anglais a pas chix en fa exactement il paraît que il y a un aussi un ingrédient secret c'est d'en fait d'introduire les données de bonne qualité vers la fin de l'entraînement ça pareil ça paraît très étrange ouis ouais ça c'est des quelque chose de très nouveau et ouais c'est très étrange parce que en général quand on entraîn
ces modèles en fait c'est un réseau de neuron et il se déplace un peu dans un espace et vers la fin il se déplace pas beaucoup donc c'est un peu contreintuitif on aurait pensé qu'il faut les introduire au départ mais ouais maintenant en fait on garde les données de meilleure qualité un peu vers la fin et ça donne un peu un boost qui est supérieur à les introduire avant aussi parce qu'en général ces données sont très petits donc si on les introduit au milieu il faut vraiment entraîner le modèle pendant longtemps on va faire beaucoup
de répétitions sur ces données donc parfois c'est mieux de les garder vers la fin et faire un peu de répétition sur ça ok donc on a un peu mieux compris comment se passait cet entraînement mais là maintenant il y a un problème que les gens réalisent pas forcément c'est que il y a une pénuerie en fait il y a plus de données là et il y a le concept de générer des données synthétiques qu'est-ce que c'est que cette histoire ouais alors peut-être les données synthétiques pour expliquer aux gens ce sont les données qui sont générées
par des donc ça peut être par exemple chat GPT ou Jini mais aussi des modèles open comme CEN ou Lama ça peut être du texte ou des images en gros c'est tout ce qui est pas généré par des humains mais par des et maintenant en fait on entraîne les modèles sur ces données là qui sont généré par d'ut r donc ça paraît de base on voit la boucle mais pour commencer par le cas simple moi celui que je connais c'est typiquement entraîner un petit modèle avec l'aide d'un grand ouais ça ça se fait beaucoup ouais
ça se fait beaucoup ça ça appelle de la distillation on essaie de un peu distiller les connaissances d'un modèle qui est plus grand vers un modèle qui est plus petit donc on utilise les génération de ce modèle pour entraîner un modèle qui est plus petit et donc là typiquement quand quand tu dis générer des données pour les entraîner parce que ça pe un peu flou ça ressemble à quoi très concrètement on leur dit écris des trucs intéressants enfin comment ça comment tu fais ouais c'est pas évident c'est beaucoup de ce qu'on appelle pr engineerine essayer
de trouver les bons promt et les bonnes façons de poser les questions aux LLM donc il faut vraiment très bien cibler comment on génère les données synthétiques déjà il faut avoir un use case par exemple se dire moi je veux générer des données de math donc déjà moi je frame un peu mon contexte après il faut trouver de bons Prom de façon comment poser les questions modèle et en général ce qu'on fait c'est que on on demande au modèle de générer quelque chose par exemple un manuel scolaire sur de l'algèbre linéaire ce qu'on fait c'est
que on lui donne un extrait d'une page Web qui parle du même sujet comme référence après il y a des technique pour générer pour avoir plus de diversité par exemple je peux lui dire je veux que ce maniel scolaire soit pour des étudiants lycée ou des étudiants en primaire ou en collège je veux que le style ressemble à un certain écrivain on peut vraiment injecter plusieurs trucs pour avoir une certaine diversité donc ce qui est cool c'est qu'on peut vraiment bien contrôler les à quoi ressemble ce que le model génère donc ça c'est le cas
simple entraîner un petit avec un grand c'est assez intuitif on se dit que le grand est le plus intelligent il peut prendre au petit maintenant le cas un peu plus étrange c'est que j'ai entendu qu'il y avait certains modèles qui pouvaient s'entraîner eux-mêmes pour le coup il par que c'est les plus gros du coup qui peuvent faire ça et là c'est plus dur à saisir ouais du coup la raison pour laquelle ça peut marcher c'est parce que le process pour générer les données il est vraiment très élaboré par exemple ce qu'on peut faire c'est ce
qu'on appelle chain of thoughts c'est essayer de raisonner par plusieurs étapes et du coup on passe vraiment beaucoup de temps sur la partie génération de données même si c'est le modèle qui génère ça en fait il y a quand même beaucoup de d'apport humains pour être sûr que les générations elles vont être correctes par exemple je peux utiliser un modèle pour générer du code et après je vais l'entraîner sur ce code mais avant de l'entraîner sur ce code je vais essayer de vérifier le code si ça tourne ou pas donc je vais quand même essayer
de générer des données mais je vais filtrer ces données je vais vraiment utiliser des promes qui sont diverses pour générer des choses qui sont de très bonne qualité donc c'est pas ce que le modèle génère en première sortie mais c'est des trucs que je filtre très bien comme ça je pourrais utiliser ces modèles pour entraîner donc schématiquement c'est pas comme si le modèle il sortait un truc et qui rentrait c'est ça ça effectivement ça paraît débile quoi il sort un truc etil et il rentre c'est ça et il peut même y avoir des hum truc
qu'il sortent c'est pas évident en fait le Prom il est faut que ça soit un bon prompte on fait beaucoup d'expérimentation pour trouver quelle est la manière dont il faut poser la question pour que ça génère les bonnes choses et cette partie là c'est la c'est clairement la moins intuitive parce que tu donc tu peux te dire là pour le coup que toi tu as juste conçu un prompt et tu génères des données qui sont censé rendre ton modèle plus intelligent alors que c'est lui-même qui a généré ces données ce qui se passe c'est que
en fait les c'est pas parce que les les données elles sont dans le dans le modèle entre guillemets que lui est en mesure d'identifier ce qui est plus qualitatif de ce qui est moins qualitatif du vrai du faux et cetera donc là si si je comprends bien ce que tu fais avec une chaîne de de de pensée ou une chaîne de prompte comme on dit c'est que tu lui par exemple tu lui demandes d'écrire un poème après tu dis ok ce poème réécris-le mais en mieux corrige ce genre de truc et tu peux faire comme
ça plusieurs itérations ce qui fait que à la fin ton poème certes c'est ton nia qui l'a créé mais en fait si tu la réentraînes dessus elle s' améliorer entre tempemps exactement parce que lui il a généré des poèmes mais ils étaient pas tous de bonne qualité au départ c'est grâce à ce process de traitement qu'on a réussi à avoir des données synthétiques qui sont de très Bonn qualité même s'ils viennent de ce modèle c'est ouf et du coup là on on a envie de te dire bah pour ces gros modèles là pourquoi on les
enferme pas tous dans une on les enferme dans un data center et qu'ils apprennent tout seul quoi en fait c'est ce qu'ils font déjà non enfin c'est même c'est je crois même dans le papier de Jamina il disent qu'ils on trînent sur des données synthétiques ça vient sûrement de leur modèle ou peut-être de gpt4 mais oui ils font ça sur le papier ça l'air super séduisant et intéressant pour améliorer le modèle mais il a notamment un papier qui est sorti sur nature et qui semble montrer que à force de s'entraîner sur des données non humaines
justement le modèle devient complètement débile est-ce que tu as vu ce papier est-ce que tu peux nous expliquer un peu c'était quoi leur idée en fait ouais je pense c'est un sujet intéressant à explorer en gros ce qu'ils ont fait c'est que ils ont pris un petit modèle je crois c'était 100 millions de paramètres un truc comme ça et ils ont pris un dataset comme Wikipédia wikitext et au départ ils ont entraîné le modèle que sur ce dataset et après ils ont demandé au modèle de compléter des passages du dataset avec ces générations et après
ils ont réentraîné le modèle sur ce dataset qui est mix entre des données synthétiques qui ont été générées par le modèle et des données du web et ils ont fait ça sur plusieurs itérations et vers la fin ils ont trouvé que quand ils entraînent que sur des génération du modèle après plusieurs rétérations en fait il y a ce qu'ils appellent l'effondrement de modèle modèle collapse bah il commence à générer n'importe quoi le texte l'effondrement ça fait peur mais du coup c'est quand même intéressant parce que normalement on çaattend pas à ce qu'il devienne super fort
après tout toutes ces éération là exactement en plus on vient de dire ça il faut pas entraîner sur les sorties des modèles surtout si c'est un très petit modèle je crois c'est pas étonnant que ça collapse ok toi ça tuas pas trouvé ça contreintuitif alors non pas du tout je pense en pratique les gens ils savent déjà ce problème il y a personne qui fait ça je trouve c'est plutôt un cas très extrême où tu entraînes déjà le modèle que sur ses propres générations sans filtrer sans faire beaucoup d'effort sur les prompt la deuxième erreur
c'est de faire ça de façon itérative itérative ça veut dire que lu et plusieurs fois il boucle sur lui-même et aussi le fait que il y a pas eu des efforts sur les Prom télégénération on a juste demandé au modèle de compléter des bassage de wikitex et aussi c'était le le modèle de la même taille alors que en général on fait ça d'un modèle qui est plus grand vers un modèle qui est plus petit donc ouais je pense dans dans ce use case c'est normal que ça arrive mais dans la pratique c'est pas comme ça
qu'on utiliseit dans les synthétiques ok on a quand même pas fini de répondre à la question parce que ça ça permet de de d'évacuer le l'idée que juste utiliser les LLM quelque part dans la la boucle de l'entraînement c'est pas en soi une mauvaise idée maintenant moi ce qui me pose question quand même c'est le fait que sur Internet même il y a de plus en plus de contenus généré et ces contenus là pour le coup il y a pas le choix on a pas le choix quoi ils sont là c'est on peut pas juste
les retirer du dataset entre guillemets ve dire qu'il y a de plus en plus par exemple de d'articles de presse de de journaux qui sont générés des blogs de merde qui font du SEO avec parfois ils le notent d'ailleurs voilà et il y a un exemple assez frappant qui avait été montré par Monsieur fi donc qui un youtubeur et qui qui parlait d'un type de sujet dans la philo qui est en particulier sur le stoicisme qui est un thème qui peut être un peu utilisé aussi dans les sphères plus entrepreneuriat mal qui est assez marrant
et en fait du coup c'est des c'est des milieux où où beaucoup se sont appropriés les outils de génération dia pour essayer de créer du contenu faire des youtub qui perent et cetera et donc c'est assez fascinant de voir comment un sujet donc le le stoicisme tu pourrais tout dire c'est quand même très spécifique si tu tapes ça aujourd'hui sur Youtube tu vas voir qu'il y a genre 98 % de contenu généré cette stade sort de mon chapeau mais on a vraiment un cas où là aujourd'hui en 2024 on regarde cette partie là d'Internet versus
en 2022 je pense que la qualité du texte la qualité de contenu c'est effondré là c'est c'est assez objectif il y a un autre exemple c'est avec un certains peintres tu tapes leur nom et comme ils sont utilisés dans des styles un peu de dans de mjournée ou des choses comme ça tu tapes ça sur google image et tu vas voir que leurs propres tableaux sont introuvables que tu dois tu dois faire trois pages de Google Image parce qu'avant c'est uniquement des des générations mijournée en fait ou ou d'Ali et donc pareil 2022 très bon
Très bonne donnée d'image pour s'entraîner dessus 2024 horrible je prends des cas super précis qui évidemment sont pas encore représentatifs d'Internet déjà qu'est-ce que tu en penses est-ce que tu as vu des différences actuellement de qualité entre entraîner sur 2024 versus entraîner sur 2021 ou 2020 dans l'ire euh prè chat GPT ouais pour nous en ce qui est en terme de texte et de données sur le web du coup on s'est posé cette question et du coup dans un papier qu'on a fait on a essayé de chercher si on peut mesurer s'il y avait vraiment
plus de données synthétiques aujourd'hui par rapport avant donc c'est vraiment très dur à faire ça mais on peut essayer d'utiliser des proxis par exemple chercher des mots qui sont en général générés par chat GPT comme le mot delve je sais pas si vous avez vu ex del en gros apparemment GPT il utilise le Modot del beaucoup et si tu vois ça quelque part de très fortes Chan que c'est utilisé généré par chat GPT donc c'est un mot en anglais qui veut dire rentrer dans un sujet en gr exactement ouais il y a eu quelqu'un je
crois c'est un labo ils ont un peu mesuré combien d'abstracts sur archive utilisent le model aujourd'hui par rapport à avant chat GBT c'est une courbe qui est très intéressante en fait après chat GBT on est passé à 5 % d'abstract qui utilise le model à 80 %. tout le monde écrit les abstract résumés de dépapiller sur archive génial alors moi j'ai entendu une théorie sur ce mot sur l'origine est-ce que tu tu la connais j'ai vu la théorie je sais pas si c'est vrai mais apparemment les données qui sont générées par pour entraîner chatbt c'était
des données des annotations par des humains et je crois que ils ont fait ses annotations en Nigéria si je me rappelle un pays d'Afrique je sais plus mais ouais apparemment ils ont dit que les gens ils ont plutôt un anglais qui est académique du coup ils utilise beaucoup le Modot delve et du coup les annotations avaient beaucoup ce mot mais j'ai entendu la théorie je l'ai trouvé extrême séduisante parce que ça fait une explication tout fa quoi ouais et du coup ouais pour revenir sur l'étude on a essayé de chercher par exemple combien de page
j' utiliser ce mot mais aussi d'autres expressions comme l'expression as large language model quand on demande modèle des trucs un peu chelou il dit ça certainly je crois qu'on avait ça aussi et du coup on a mesuré ça et on a justement remarqué que les pages après 2022 il y avait plus d'occurrence de ces mots du coup peut-être c'est un indicatif qu' a plus de données synthétiques et comme comme je dis C coll on a les donné tous les mois du coup on peut juste entraîner plusieurs modèles sur les mois et voir si on a
de meilleurs modèles ou de modèles qui sont pire ce qu'on a trouvé c'était vraiment l'opposé les modèles après diabt sont mieux ok ouais en fait c'est une courbe qui augmente mais c'est très intéressant on s'attendait à l'opposé aussi bah c'est dur de dire si c'est à cause des données synthétiques mais au moins on sait que les données synthétiques ils ont pas généré des données qui sont pires tu as des intuitions de pourquoi peut-être du coup moi je je travaille beaucoup avec les données de web et les données synthétiques et je pense que les les générations
la qualité de ce que génère les modèles elle est mieux que ce qu'on a en moyen sur le web il y a vraiment beaucoup de choses de très mauvaise qualité sur le web et avec ces modèles bah la raison pour laquelle les gens l'utilisent c'est parce qu'ils génèent des choses mieux que ce que ils peuvent générer par exemple moi je fais beaucoup de tweet la plupart ils sont réécrit par chat GPT donc c'est mieux que ce qui existait avant c'est intéressant donc ça veut dire que tu compares à une bonne vidéo YouTube ou un bon
papier ou un bon livre effectivement c'est moi je dirais que c'est une logorie mais en fait par rapport à la moyenne de de donné pour l'entraînement c'est pas si mal quoi ouais c'est pas si mal alors du moin je te propose une théorie c'est que du coup à ce stade de la chronologie donc on est en 2024 on est un moment où en terme de proportion j'imagine que il y a encore une une bonne la plupart de d'Internet qui est humain et donc on a un moment où effectivement ces données qui sont pas de mauvaise
qualité CE qu'ell permett de faire c'est de gonfler la la quantité quoi et on a un moment où on a on est loin d'avoir optimisé entre guillemets la quantité par rapport à à la qualité et donc juste plus de quantité même moyenne c'est bien peut-être que dedans il y a des des gptismes mais que leur qualité est encore au-dessus du lot de la moyenne comme tu dis donc on voit un résultat positif sur les modèles est-ce qu'on peut pas s'imaginer on tire un petit peu la courbe sur par exemple dans 5 ans les TER et
les Terra c'est plus 10 % de trucs super quali et et beaucoup de trucs nuls mais à à optimiser pour que quasiment tout soit super bien qualitatif et on se retrouve avec Internet qui est très largement rempli du coup de de données synthétiques qui sont pas forcément super qualitatives et cetera enfin qui commencent à être moins bien que la moyenne du du jeu de données tu vois ce que je veux dire ou pas le stoicisme voilà est-ce que tu vas être en mesure de séparer le bon grain de livret tu vois est-ce que de voir
ce qui est nul et de générer et et et ce qui sort du l'eau est-ce qu'on on sait faire ça c'est techniquement possible première question et deuxième question du coup qu'est-ce que ça veut dire sur le le futur de ouis de des des dataset quoi ouais je pense c'est une très bonne question bah c'est dur de prédire mais je pense en général peut-être qu'on va avoir au futur c'est peut-être des techniques de ce qu'on appelle le watermking c'est en gros des une sorte de signature numérique euh que tu ajoutes aux génération des modèles les humains
ils pourront pas voir cette signature mais il y aura des algorithmes qui pourront détecter si ce modèle a été généré par tat GBT ou pas par exemple le problème de moteur de recherche dont tu parlais je pense que si on a ça ça peut résoudre ça en partie on pourra détecter qu'est-ce qui est généré qu'est-ce qui est'est pas essayer de mettre en avant les contenus qui sont originaux ok parce que tu parlais de technique un peu basique où on cherche un mot clé genre delve qui revient tout le temps là ça veut dire que c'est
plus subtile que ça ouais exactement ils vont jouer sur la fréquence d'apparition de certains mots des choses comme ça qui comme tu dis sont invisibles de de notre point de vue mais en fait sur des gros volumes tu peux dire voilà le E dans la langue anglaise normalement il vient 80 80 % du temps et là en fait on est sur un 76 c'est super bizarre ouais c'est un peu des truc comme ça ça va pas être directement visible sur les mots mais sur ce qu'on appelle les tokens c'est un peu l'équivalent des mots pour
les éè ils vont essayer un peu de jouer sur la distribution donc je pense ça va être quand même des algorithmes qui sont assez avancés et ce les personnes qui ont accès à ces algorithmes pouront les utiliser pour savoir s'il a vraiment du contenu généré ou pas est-ce que tu penses que c'est possible que du coup si on pareil on tire le fil il y a un moment où en fait on arrête le DataSet parce que justement en fait 2028 on a des on a des données qui sont pas trop polluées avant on garde après
on garde on prend plus moi je pense plutôt la même manière dont on filtre les données qui sont du web généré par des humains on va utiliser les mêmes filtres pour les données synthétiqu parce qu'en fait s'il y a des données synthétiques sont de mauvaise qualité bah ils vont pas passer nos filtres et s'ils passent nos filtres bah peut-être qu'ils sont de bonne qualité il faut les garder donc c'est peut-être pas un problème pour moi je considère pas que le web est vraiment pollué par les données synthétiques parfois ça peut être même un enrichissement donc
il faut juste savoir bien filtrer si ça passe tes filtres bah c'est peut-être de l'abandonnée qu'il faut garder mais c'est vrai que c'est un truc intéressant que tu as dit c'est que à partir du moment où tu as un modèle qui est suffisamment euh intelligent entre guillemets pour donner des notes comme tu nous as expliqué sur est-ce qu'un contenu est éducatif ou pas si ça se trouve il va pouvoir aider entre guillemets dans le même dans un futur un peu dystopique ù où Internet est est encore plus pollué je suis à peu près sûr qu'aujourd'hui
on donne un vidéo stoicisme pourri et un et un un vrai bon article Wikipédia des modèles actuels saurait faire la différence ouais exactement c'est ça en fait ça veut dire que les LM sont la chimère et la solution si vous avez pas suivi l'histoire du visuus challenge ou comment un papyus a été décrypté par un étudiant en ni allez voir cette vidéo c'était vraiment passionnant