Le père fondateur du Deep Learning - Yann Le Cun

190.49k views21295 WordsCopy TextShare

Matthieu Stefani

Épisode : "#397 - Yann Le Cun - Chief AI Scientist chez Meta - l'Intelligence Artificielle Générale ...

Video Transcript:

ça y est maintenant on a trouvé le secret de l'intelligence d'ici 10 ans on aura des machines aussi intelligents que les humains Yan Lequin ou de l'autre côté l'Atlantique c'est plutôt Yan LEC découvrir le ministère de l'intelligence et construire des machines intelligentes je pense c'est la seule manière de valider si des idées abstraites en fait fonctionnent en fait le LLM s plié quoi maintenant c'est parti dans une équipe produit c'est plus la recherche j'étais pas prêt à cette elon m il en a oui il avait tayé me recé mais ça pas marché ça me fait

penser à Apple et son casque là pas le chauffer y Lequin Apple essaie de de rattraper leur retard et ils sortent un truc d'abord qui est moins bon et quiess de fois plus cher donc non je suis pas impressionné du tout bientôt ça sera dans les lunettes intelligentes et on aura les sous-titres qui s'affichent si on parle à quelqu'un dans une langue étrangère dès que une prédiction est violée on est obligé d'y prêter attention parce que ça veut dire que notre modèle du monde était faux c'est des réseaux cutifs c'est un peu mon invention qui

date de 35 ans et qui détecte les objets qu'on a besoin de détecter je ne crois pas à l'application du calcul quantique al a et en fait je suis très sceptique sur le calcul quantique tu pe envisager que un LLM comme ça invente une langue et tu lui propose une langue inventée peut-être par un l'autre LLM et qu'il la comprenne ouai absolument donc simplement en observant le monde pendant quelques mois ou même quelques centaines d'heures on a plus d'informations en fait plus de données que la totalité du texte disponible sur Internet il y a des

choses qui te font peur dans [Musique] l'a ben nous y voilà c'est cet épisode tant attendu moi je suis un c'est marrant parce que tu dois tu as peut-être pas des groupis très souvent mais je suis presque un groupis d' Yan Lequin tu vois autant j'ai des gens qui ont l'habitude d'avoir des groupis ici tu vois des Bob saint-cllar des des des artistes des DJ voilà mais j'ai écouté beaucoup de tes épisodes chez enfin les trois épisodes je crois chez l'X Friedman che Freedman euh le dernier était danse pointue en plus je connais pas l'ex

Friedman personnellement mais il a il est très charpe quoi donc vous allez assez loin euh et moi ce que je te propose aujourd'hui Yan c'est d'aller de au moins de reposer les bases si on peut aller loin je suis très content mais déjà aussi de reposer les bases de de liya des LLM de aussi toi ce que tu penses qui m'intéresse c'est que j'ai eu sur génération du tur S et fait des des épisodes très sympas autour de l'ya mais il y en a qui sont plus euh flamboyant ou qui vont faire fantasmer aussi j'ai

reçu euh euh des gens comme Laurent Alexandre que tu connaais peut-être de près de loin des et avec qui je je je m'éclate et que j'aime beaucoup d'ailleurs avec qui on se on s'écharpe aussi dans chaque épisode mais mais voilà et j'aimerais comprendre un peu euh pour toi de l'Intérieur euh de chez fer notamment où est-ce que vous en êtes qu'est-ce que tu vois qu'est-ce que tu comprends qu'est-ce que tu vois à travers tes rbanes méta euh qui me qui me filme en ce moment non qui me filme pas justement euh et puis j'aimerais aussi

comprendre et peut-être pour pour les plus jeunes qui nous écoutent comment on peut en partant de France bah finir un job qui est quand même un peu l'un des plus hutes de de Lia dans le monde quoi tu vois il y a Sam Altman et il y a Lequin quoi tu vois donc et donc voilà donc peut-être se dire que c'est possible et comprendre comment on y arrive en tout cas comment tu y est arrivé comment c cette trajectoire peut des années 80 tu voyais déjà semble-t-il pas mal de choses en tout cas tu commençais

à tripatouiller pas mal de choses voilà ça te va comme programme ça va très bien je te propose avant tout ça si tu veux bien de te présenter Yan d'accord donc Yan Lequin ou de l'autre côté de l'Atlantique c'est plutôt Yan le euh et puis ça s'écrit pas pareil parce que mon nom s'écrit en deux mots mais aux États-Unis euh les gens ne comprennent pas que l' c'est pas mon middle name donc j'ai accollé les deux euh donc je suis chief scientist donc scientifique en chef à MTA euh je'y suis depuis un peu plus de

10 ans et je suis aussi professeur à New York University euh qu'on appelle noyou euh donc une des grandes universités privées de New York euh depuis une vingtaine d'années et puis j'avais commencé avant ça ma ma carrière euh dans l'industrie dans les laboratoires de recherche de la compagnie atnt grosse compagnie téléphone et C qui avait un labo mythique qui s'appelle Bell Labs Bell Laboratories donc une grande partie de la technologie du monde moderne a été inventée en particulier transistor euh voilà intéressant euh je savais pas tu vois que NYU était privé en l'occurrence avec un

nom comme NYU tu t aurais pu te dire c'était public mais alors quel les universités publiques Princeton ou euh Princeton est privé Colombia qui est aussi à New York est aussi privé d'accord euh il y a une université qui s'appelle City University of New York kuni qui est publ qui appartient à la ville ok euh et puis il y a d'autres universités d'État qui appartiennent à l'État de New York l'état de New Jersey rgos University est publique dans New Jersey ok intéressant euh écoute je trouve qu'aujourd'hui en 2024 quand on échange on alors le monde

a a a pris un 33 tonnes dans la gueule il y a 18 mois en gros hein avec la sortie de gpt3 euh j'ai l'impression que toi tu tuas tu as même pas pris une Pich nette et que ça t'a pas complètement bouleversé euh mais c'était un peu la vraie découverte pour pour le pour l'humanité quand même hein de de de la puissance potentielle d'un LLM euh et toi j'ai l'impression qu'aujourd'hui tu enfin tu dis oui c'est bien mais c'est pas non plus tu vois et on on est quand même très loin de tout ce

qui est annoncé par beaucoup est-ce que tu peux m'expliquer un peu me réexpliquer comment fonctionne un LLM et peut-être pourquoi c'est limité d'accord alors la première chose c'est l'apparition de de LLM disons dans le public qui a été révélé un petit peu avec chat GPT à la fin fin 2000 22 euh n'a pas été vraiment du tout une révolution pour des gens qui sont dans la recherche de l'IA parce que ce genre de technique en fait existe depuis assez longtemps et puis on connaît leur possibilités ce qui a choqué un peu tout le monde à

la sortie de chat GPT c'est l'engouement du public pour ce genre de système il y a une histoire assez amusante c'est que 3 semaines avant la la la ils on la l'apparition publicque de chat GPT chez meta on avait sorti un LLM qui s'appelait Galactica et qui é été entraîné de manière très spécifique pour aider les chercheurs à écrire des articles scientifiques donc le ce système avait été entraîné sur la totalité de la littérature scientifique disponible publiquement et c'était fait pour aider les gens surtout qu'il en a plein qui dont l'anglais n'est pas la langue

la langue natale donc c'est un peu compliqué d'écrire en anglais donc ça ça allaitre très utile on était très fier de nous et et quand on a mis la démo rendu la démo disponible elle a été euh assassinée euh arrosée de vitriol par euh Twitter la sphère de Twitter en particulier ou disons sur les réseaux sociaux par des gens euh bien ou mal intentionné mais y compris des des scientifiques eux-même disant ça va détruire le système de publication scientifique n'importe maintenant n'importe quel imbécile peut euh écrire un article euh qui apparaît être authentique et cetera

et donc euh c'est ça va être un gros danger ça va détruire la société voilà donc au bout de 3 jours les les chercheurs de de fer qui avaient construit ce système on ont éteint la démo parce qu'ils sont dit ils pouvaiit pas ils en dorment pas la nuit quoi h et et et donc le résultat de de de cette négativité a été fait que un outil qui aurait pu être très très utile pour la communauté scientifique en fait a été a disparu euh 3 semaines plus tard chpt est sorti et là c'est la deuxè

deuxè descente du Messi de du Paradis c'était vraiment un choc pour nous en fait le le fait que les les gens en fait se s'intéressent t à technologie qui par ailleurs euh avait été vraiment très fortement critiqué et Galactica n'était pas le premier système qu'on avait sorti comme ça il y en a eu plusieurs les années précédentes il y avait eu sur Twitter aussi cet effet chez Microsoft où il y avait eu un alors ça c'est beaucoup plutôt C taille un système qui av été déployé en Chine pour conversation et ils ont quand ils l'ont

déployé aux États-Unis dans dans le reste le truc a été trollé en 24 heur et trans devenu parce que les gens en fait avaient compris que si on tapait des des choses le système en fait utilisait ses phrases et les réutilisit dans les dans les dans les les autres dialogues et donc bon il se fait troller immédiatement ça été une belle leçon pour pour Microsoft et puis des différences culturelles entre la Chine et le et le reste du monde non là mais c'était pas un LLM à l'époque mais il y a eu pas mal de

LM en fait la la révolution un petit peu technologique ça a été le Deep learning déjà qui qui est avec nous depuis une quinzaine d'années euh ensuite tu tu tu peux réexpliquer en une phrase ou deux à chaque fois le Deep learning et le LLM tu veux bien d'accord alors deep learning c'est un ensemble de technique pour entraîner les machines au lieu de d'avoir les programmer directement c'est-à-dire que on peut les entraîner à accomplir une tâche et très souvent ça utilise ce qu'on appelle apprentissage supervisé donc par exemple on peut entraîner une machine à euh

reconnaître euh des objets dans les images on lui montre une image d'un d'un chien d'un chat d'une table d'une chaise euh donc par exemple disons une table on attend la la réponse du système si le système dit table on fait rien et si le système dit chaise ou chien ou chat euh on lui dit non la réponse c'est table et le système change ses paramètres internes c'est des coefficients en fait dans des formules mathématiques très simples qui font des additions des multiplication de manière à ce que la sortie se rapproche de celle qu'on veut ok

donc ça ça marche très bien pour des choses comme la reconnaissance d'image la traduction la reconnaissance de parole des choses comme ça euh ça c'est le supervisé c'est supervisé alors une autre méthode d'apprentissage qui avait dans lequelle les gens avaient mis beaucoup d'espoir il y a une une dizaine d'années sur lequel deep mind qui appartient à Google maintenant c'était entièrement fondé qui s'appelle l'apprentissage par renforcement et alors là on dit pas la machine si quelle est la réponse correcte on dit à la machine si la réponse qu'elle a produite est bonne ou pas bonne h

on lu donne un espèce de score euh et ça c'est très pratique si on veut entraîner une machine par exemple à jouer aux échecs au pock au Go et cetera parce que à la fin automatiquement on peut déterminer c'est si la machine a gagné la partie ou perdu donc savoir si ça la manère all la jouer était bonne ou pas et en jouant des millions de parties le système peut se raffiner et finalement être superhumain de loin j'allais dire de loin on a l'impression qu' il y en a une où on lui apprend à réfléchir

mais ça doit pas être exactement le cas et dans l'autre on lui dit vrai faux mais tout bête mais c'est pas le cas bah il y en a il y en a un où on lui donne la réponse et l'autre on lui dit simplement si c'est vrai ou faux s'il y a beaucoup de réponses possibles en fait c'est très très inefficace parce que le système doit essayer alors c'est ça la bonne réponse ou alors c'est ça ou alors c'est ça et à chaque fois c'est une chaise c'est une pomme c'est un avion c'est d'accord VO

donc s'il y a 10000 possibilités ça risque de prendre du temps et et dans le cas de de d'un jeu de d'échec et cetera c'est pas grave on peut faire faire en sorte que le système joue des milons millions de parties donc ça finit par marcher mais il y avit beaucoup d'espoir que ce type d'apprentissage euh en fait qui se se rapproche un petit peu de l'espèce de conditionnement à la pavelof en fait serait la base de l'apprentissage chez les humains les animaux et çaavère Queen fait non pas du tout c'est complètement c'est tellement inefficace

que il y a absolument aucune chance qu'on puisse utiliser ce genre de méthode pour entraîner des systèmes à par exemple à conduire une voiture ou ouou quoi que ce soit donc cet espoir a a complètement disparu èorienté a complètement abandonné en fait cette plus ou moins cette cette approche donc on a supervisé le deuxième tu m'as dit c'est renforcement renforcement et la troisième c'est autoupervvisé ou non supervisé OK et alors là c'est ce qu'utilise les LLM c'est donc une méthode dont je me suis fait un petit peu le le le défenseur ou le l'avocat depuis

une près d'une dizaine d'années et qui qui est le une technique dans lequelle on entraîne pas le système à faire une tâche part particulière mais on l'entraîne à représenter comprendre la structure de de l'entrée alors dans le cas du du texte donc dans le cas des LLM par exemple on prend un un bout de texte une séquence de quelques centaines ou quelques milliers de mots et on le on le on le corrom on on masque certains mots on les remplace par des des marqueurs blancs ou on substitue certains mots et cetera donc on rend le

le le le le texte ou l'entrée ça peut ça peut marcher avec une image aussi corrompu quoi et ensuite on entraîne un grand réseau de neurone donc système deep learning à prédire les mots qui manquent ou les mots qui étaient faux c'est-à-dire à reconstruire en fait l'entrée complète à partir d'une entrée incomplète donc c'est basé sur une vieille idée qui s'appelle les auto-encodeur de de débruitage c'est ça date des années 80 c'est vraiment vieux mais mais l'application à la compréhension de texte en fait est plus récente ça date de des années 2016 ou 2015 et

et en fait ce faisant en apprenant à à trouvver les mots qui manquent en fait ce système élabore une représentation du du du langage du texte euh qui contient la signification la grammaire la syntaxe enfin tout d'orthographe et et donc ensuite euh on peut entraîner système à prédire des mots qui manquent alors il fait pas une une prédiction exacte parce que on peut pas si je dis le chat chasse le blanc dans la cuisine h blanc ça peut être quoi ça peut être une souris ça peut être un jouet ça peut être le spot de

laser n'importe quoi euh ou une mouche donc on peut pas exactement prédire le mot qui manque mais ce qu'on produit c'est une espèce de un espèce de score pour tous les mots possibles dans le dictionnaire ok euh ou probabilité chose comme ça priori il sera pas la chaise ni la table quoi ch ok voà euh donc il a que que certains mots qui sont possibles à certains endroits et cetera alors ensuite en fonction de l'architecture qu'on donne à ce à ce réseau al déjà ce qui est intéressant c'est qu'on peut l'entraîner avec des text de

de plusieurs langues et système en fait apprend à représenter le le sens de du texte indépendamment de la langue ce qui est assez extraordinaire fou tu vois typiquement ça c'est un des trucs où tu dis mais avant le lancement de che GPT personne j'imagine que vous l'aviez tous ça le chement con ça depuis 2018 oui mais en fait il y avait rien d'ussi efficace que enfin tu vois la le sur le juste la traduction si je prends que ça et j'ole ce truc google trad ou tous ces trucs c'était pas aussi bien que que ce

que fait open non si si en fait c'était mieux les les systèmes de traduction spécialisé sont préentraînés de manière autosupervisée de cette manièrel euh mais ils sont plus efficaces pour la traduction que des systèmes peu génériques comme chat GPT mais ce qu'on constate c'est que plus on entraîne des systèmes avec avec beaucoup de données plus ils deviennent bon pour tout un tas de tâches même des tâches pour lesquell ils sont pas sp is donc il y a un peu cet effet d'émergence mais par exemple chez MTA on a un système qui s'appelle simless qui qui

peut traduire 200 langues dans n'importe quelle direction et qui peut traduire en temps réel c'estàd avec un délai 2 secondes qui peut faire texte à texte texte à voix voix à texte et voix à voix y compris pour des langues qui ne sont pas écrites ce qui ce qui est hallucinant et donc ça c'est pas encore dans les mains de tous les utilisateurs mais bientôt ça sera dans les lunettes intelligentes et on aura les sous-titres qui s'affichent si on parle à quelqu'un dans dans une langue étrangère est-ce que tu j'imagine que non du coup je

te je répond à la question avant de te la poser euh tu peux aais envisager que un LLM comme ça invente une langue euh et ce lui tu lui proposes une langue inventée peut-être par un l'autre LLM et qu'il la comprenne ouais absolument c'est c'est possible en fait ce genre d'expérience a déjà été fait où on met deux agents en relation l'un avec l'autre et puis on essaie les entraîner à résoudre un problème m et on construit la tâche de manière à ce que individuellement les deux agents ne peuvent pas résoudre la tâche ils sont

obligés de collaborer on les entraîne au départ à utiliser l'anglais pour communiquer et en fait ils finissent par inventer une espèce de langue efficace pour communiquer entre eux quoi c'est assz amusant comme expérience mais en fait donc pour le l'apprentissage autosupervisé c'est cette idée que on on fait une corruption d'une entrée puis on entraîne le système à à régénérer le l'entrée ok alors regénérer ça ça veut dire prédire en fait l'entrée et c'est pour ça qu'on parle de modèle génératif parce que on génère l'entrée on regénère l'entrée et en fonction de l'architecture de des systèmes

qu'on entraîn pour faire ça on peut ensuite leur donner un texte et et leur demander de prédire le mot suivant dans le texte et ensuite ce qu'on peut faire c'est prendre le mot que le système a prédit alors il produit une distribution probabilité mais on prend un des mots qui a une grosse grande probabilité et on le on on le met dans l'entrée c'est-à-dire qu'on on décale tous les mots de l'entrée OK et on lui rajoute le mot qu'il a lui-même prédit et ensuite on lui demande de prédire le deuxième mot on fait décaler ça

dans l'entrée le troisème mot et cetera ça s'appelle la prédiction autorégressive ok c'est un vieux concept hein mais qui date des années 40 50 he c'est pas c'est pas récent mais mais mais avec ça on peut faire produire des des textes relativement longs en fait assez assez LLM ce qui explique que tu peux leur demander d'écrire des histoires ou des choses comme ça en disant VO répondre à des questions ou sur la banquise et cetera et puis voilà ou répondre à des questions OK ou de traduire un texte en lui demandant traduis ce texte de

français anglais et cetera en fait tout un tas d'instruction mais la la limitation de ça c'est que ces systèmes ne sont entraînés que sur du texte d'une part et d'autre part ne peuvent pas vraiment réfléchir c'est si on leur pose une question simple et qu'on le dit réponds par oui ou non c'est est-ce que 2 + 2 = 4 répond par oui ou non ils vont répondre oui ou non et le le les ressources qu'il vont dédier à ça c'est simplement euh propager des signaux dans un réseau de neurone qui a 46 couches 92 couches

enfin peu importe et produit le le token le mot oui ou non avec une possibilité que le qui a une erreur en plus dans le oui ou non alors c'est possible qu'il y a une erreur mais enfin bon de plus 2 é= 4 est-ce que c'est vrai bon c'est facile à répondre maintenant si on pose une question beaucoup plus compliqué c'est-à-dire par exemple l'arithmétique avec des des nombres assez importants ou quelle est la racine carrée de machin ou une question complètement insoluble est-ce que par exemple tout nombre pair est la somme de deux nombres premiers

qui s'appelle la conjecture de goldbar en mathématique qui n'est pas prouvé c'est une hypothèse une conjecture en fait qui a l'air d'être vraie mais qui est pas prouvé il y a pas de preuve euh et on dit répond par oui ou non le système ne peut pas réfléchir à ça il va toujours dédié la même quantité de calcul que répondre à 2 + 2 = 4 ok donc donc il y a pas de possibilité vraiment de raisonnement dans ces système là qui leur permet de réfléchir un peu plus à des questions compliquées et un peu

moins des questions moins compliquées donc c'est là on pour en le mot intelligence c'est une intelligence qui est factice alors elle est pas factice parce que ces systèmes sont entraînés avec une quantité donné tellement énormees que en fait ils peuvent régurgiter des solutions qu'ils ont déjà apprises donc 2+ 2 é= 4 c'est dans leur mémoire il y a pas de problème euh pour des des des chiffres des nombres à plusieurs chiffres c'est pas dans la mémoire donc là ils sont obligés de en fait faire appel à une calculatrice et maintenant il y a des systèmes

de ce typeel qui savent le faire ils savent que quand on leur pose un problème d' arithmétique il faut qu'ils appellent une calculatrice comment on fait nous fa d' aller chercher dans le dans les plutôt que de régiter ça le dans leur mémoire euh mais euh il il y a pas vraiment de de de de capacité de de raisonnement d'invention de choses nouvelles c'est plutôt de la régorgitation donc c'est un petit peu comme euh c'est dans une classe quand il y a une classe de de math il y a il y a deux sortes de

d'écoliers ou d'étudiants il y a il y a ceux qui comprennent vraiment ce qui se passe derrière les maths et puis ceux qui apprennent par cœur et puis euh on leur enseigne les éditions multiplication soustraction et cetera et puis on leur pose un problème et puis on on vient de leur enseigner la multiplication ils vont appliquer la multiplication sans savoir si c'est la bonne chose à faire parce que c'est ça qu'ils Vinent d'apprendre euh et donc c'est les LLM aujourd'hui il sont un peu comme ça ils ils apprennent par cœur un peu euh ils savent

bien sûr adapter une réponse mais mais mais pas toujours donc si on leur pose un un comment dire un problème un petit peu classique un puzzle du genre il y a le problème de la la chèvre le chou et le loup qu'on doit transporter d'un côté de l'autre de la rivière avec un bateau qui peut transporter que deux choses à la fois et comment faire en sorte quelle est la séquence pour faire en sorte que le le loup ne ne mange pas la chè ne bouffe pas la ch chef ne mange pas le chou pas

le chou et CETA euh donc peut pas être en même temps tout seul et cetera euh on pose ce problème là à chgbt il répond immédiatement sans problème mais bien sûr il rigurgit ça de sa mémoire parce queéit répondu à des endroits voilà euh par contre on change un petit peu le le le le problème pour que la solution soit différente et il riggite toujours la même la même réponse donc ça veut pas dire ça veut dire qu'il réfléchit pas vraiment en fait et si je change le le le la chèvre par une antilope euh

et puis que je le loue par un tigre ou un lion et puis le choue par par je sais pas quoi est-ce que il va il est capable de le comprendre il est capable de comprendre parce que les les la représentation de de chaque objet en fait la représentation d'une antilope et d'une chè va être similaire dans le à l'intérieur du du du réseau neurone et cetera faire une sorte de traduction finalement de la chè vers l'antilope ou peut-être pas alors c'est on peut peut-être voir ça comme ça mais c'est plutôt que en fait une

une entité enfin quelque chose un objet un mot est représenté par une une séquence de nombr on appelle ça un vecteur et les séquences de nombres qui représente des entités similaires en fait sont sont similaires donc peuvent être substitués l'une l'une par l'autre et Don un prédateur par un prédateur et Cera donc donc je pense que je pense que ça ça ce de chose marche que le chou ne mange personne à priori mais qui risque d'être mangé par plutôt le la chèvre ou l'antilup enfin ex euh et alors ce qu'on dit là c'est que c'est

je reviens sur la question d'intelligence il y a il y a on est plus mémoire versus intelligence quand même dans le LLM finalement c'est voilà c'est plus régrugitation que raisonnement ok euh et et pourtant ça ça ça donne de temps en temps un truc une sensation de d'intelligence qui est assez frappante mais de ce que je comprends aussi vous êtes capable chez MTA et potentiellement ailleurs de la rendre un peu factice notamment potentiellement en orientant vers là tu disais une sorte de calculatrice ou d'autres choses selon les questions de comprendre que ça c'est c'est pas

dans la mémoire mais c'est plus ailleurs qu'il va falloir aller chercher la réponse c'est ça VO il y a beaucoup de de gens qui travaillent en ce moment sur essayer de d'améliorer les performances des LLM en les augmentant avec des outils alors soit évidemment des calculatrices des systèmes de résolution d'équations des choses comme ça qui seraiit appelé à bonion ou une technique qu'on appelle rag donc en anglais ça veut dire retrieval augmented generation et ça veut dire en fait interroger euh une base de connaissance un moteur de recherche pour une question donc si on si

on pose la question l LM quel est le le quel était le PIB de la France en 2015 c'est très probable qu'il a pas ça dans sa mémoire mais par contre il pourrait interroger un moteur de recherche ou aller chercher la réponse au Wikipédia donc des des des systèmes augmentés des LLM augmenté en fait peuvent interroger un un moteur de recherche insérer la réponse en fait dans le dans le Prom c'est-à-dire euh la rajouter à la question qui a tapé l'utilisateur et ensuite transformer ça en une réponse en en texte en texte lible donc les

les les agents les assistants virtuels de de MTA MTA a font ça en utilisant des moteurs de recherche des sources d'information et cetera euh et et ça c'est c'est très utile mais euh mais quand même ça ça lève pas complètement les limitations de ces systèm là au niveau raisonnement et autres euh on a un peu le même problème pour les systèmes qui produisent du code automatiquement dans la mesure où c'est du code un petit peu stéréotypé on peut utiliser un espèce de de patron qu'on peut qu'on peut adapter système marche bien mais pour faire le

design d'un un système logiciel un peu nouveau non il y a plus personne ouais en fait j'imagine que dès que tu es assez spécialiste dans un dans un truc tu vois souvent quand même assez vite la limite ce que je veux dire c'est que moi ce qui me scotch à chaque fois c'est quand je lui dis est-ce que tu peux me je sais pas je vais lui dire expliquer telle problématique à mes enfants de manière très simple ou à la manière de Victor Hugo ou à la manière c'est toujours waouh tu prends vraiment une claque

cependant quand j'écris je sais pas mes newsletter le dimanche j'ai j'ai un raisonnement j'ai une idée j'ai envie de quelque chose c'est pas dingue quoi euh cela dit ce que j'adore c'est la euh c'est la manière de de penser qui est-ce qui m'a dit ça dans un épisode mais de se dire que c'est la la 4è personne dans un ou la 5e personne dans un brainstorm tu vois c'est et quand tu demandes des idées tu as toujours un ou deux trucs qui peuvent vraiment changer la donne quoi absolument ou ça c'est dans de la mémoire

en fait c'est et c'est ça en fait que les les gens dans les techniques de di génératif que ce soit pour le texte l'image la vidéo le son et cetera c'est une bonne manière de d'avoir un interlocuteur avec qui on peut qu'on peut écouter qui peut suggérer des idées ou inspirer en fait donc ça c'est très utile effectivement on est un petit peu comment dire hypnotisé par le fait que ce systèmes manipulent la langue de manière très très claire on s'imagine que manipuler la langue nécessairement ça nécessite de l'intelligence mais en fait c'est c'est faux

c'est-à-dire que finalement manipuler la langue c'est simple et la raison pour laquelle c'est simple c'est que la langue est composée de d'entités discrètes des mots il y a qu'un nom fini de mots dans le dictionnaire en plus dans les LLM on réduit ça à ce qu'on appelle des tokens qui sont des des des des sous-mots en fait il y en a typiquement dans un LLM 30000 possibles ou quelque chose comme ça 100000 possibles euh c'est utile pour des des langues comme l'allemand où on peut construire des mots on a on a collant des mots les

uns aux autres hein donc il faut pouvoir les décomposer le j'imagine les tous les synonymes sur en français aussi que tu as en fait c'est il y a des ouais mais ça si se fait ça automatiquement parce qu'il sa que les sysyonymes apparaî dans des apparaissent ont des contacts similaires donc il va automatiquement pouvoir faire ça euh mais on est euh hypnotisé par le fait que à cause du fait que ce système manipule la langue et que la les seules entités avec lesquelles on est habitué qui peuvent manipuler la langue sont d'autres humains intelligents euh

on a l'impression qu'ils sont intelligents mais il faut pas se leurer c'est c'est c'est faux donc en fait tu dis que toutes ces personnes qui euh qui paraissaiit très intelligent en utilisant des grands mots étaient en fait potentiellement des des idiots quoi euh c'est il y a il y a ça aussi c'est pas exclu des des gens qui sont habitués à à faire des arguments plutôt grandilquant grandiloquant en utilisant la rhtorique et des mots savants plutôt que en fait en en discutant sur la sur la substance euh oui c'est c'est peut-être une une division qu'on

c'est un peu un cliché mais entre les entre les les scientifiques des des sciences dures qui essaent de pas trop s'embarrasser de de rhtorique et puis disciter la substance et puis les gens dont le métier et de et d'argumenter h donc si je lis merci pour ces explications Yan déjà c'est très clair et j'avais pas exactement tout tout tout j'avais compris un certain nombre de choses là-dedans mais euh pas tout notamment le régressif euh autorégressif et et puis aussi le pardon le supervisé non supervisé ou autosupvisé ça c'est c'est c'est aussi intéressant euh quand je

t'écoute donc je comprends ce que tu peux dire par moment ailleurs c'est que euh j'aimerais bien te t'entendre le redire par tes mots mais euh il y a tu prends deux exemples sur un enfant de 0 à 6 mois ou un exemple sur la le permis de conduire qui sont je trouve assez passionnant euh c'est dire qu'en fait euh il manque des choses pour réussir à dans le dans le la structure même l'architecture même du LLM on peut pas faire plein de choses donc on est encore très loin en tout cas au moins làdessus de

l'intelligence artificielle général qui est qui est prédite par beaucoup pour demain dans 3 ans on ne sait pas en tout cas là c'est c'est pas du tout la la bonne voie ça veut pas dire que c'est une mauvaise voix ça sert à d'autres choses c'est pas la bonne voiose c'est utile mais c'est sur l'autoroute qui nous mène à l'intelligence de de niveau humain j'aime pas beaucoup la phrase intelligence générale parce que l'intelligence humaine est très spécialisé en fait euh mais disons sur sur sur la voie qui va nous mener à ça le l' LM c'est

un peu une une bretelle de sortie c'est-à-dire que c'est très utile il faut développer ces technologies ça sert à plein de choses mais euh c'est pas le secret final l'ingrédient qui nous manquait pour pour atteindre l'intelligence humaine et la la raison de ça euh est multiples mais on peut se poser la question pourquoi on a des systèmes comme ça qui puissent produire du texte dans dans le style Victor Hugo ou même passer l'examen du barreau mais pourquoi on n pas de de voiturees autonome qui se conduisent tout seul niveau 5 sans intervention humaine pourquoi on

n pas de de robot domestique qui puisse faire tous les travaux ménager débarrasser la table remplir la vaisselle et cetera la cuisine faire la cuisine et il s'avère que composé avec le monde physique comprendre le monde physique est beaucoup beaucoup beaucoup plus compliqué que comprendre la langue alors ça c'est très surprenant pour les humains parce qu'on a l'impression que la manipulation de la langue c'est ça qui requiert l'intelligence de niveau humain mais en fait non la langue c'est facile c'est simple à modéliser avec les LLM comprendre le monde physique c'est beaucoup plus compliqué et c'est

pour ça qu'on peut se poser la question de savoir enfin le défi de de la décennie qui vient dans la recherche en Y a c'est des systèmes qui puissent comprendre le monde physique qui a une mémoire persistante c'estàdire peu comme les humains on a une un truc spécial dans le cerveau qui s'appelle hippocampe qui qui sert la mémoire à court terme et et à long terme mémoire factuel et cetera mémoire épisodique mémoire de travail euh si on n' pas d'hyppocampe on peut pas se rappeler de choses pendant plus de à peu près 90 secondes h

il y a des gens comme ça qui ont eu des accidents vasculaires cérébraux des choses ou des des des problèmes de hypocampe il se rappellent pas de de choses d' d'une minute à l'autre ou d'une d'une heure à l'autre euh et et des systèmes qui sont capables de raisonner euh donc de penser en passant du temps et l'énergie à un problème particulier et des système capable de planifier alors on a l'impression que c'est ces quatre capacités comppréension du monde moire persistante raisonnement et planification sont quand même des composants essentiels de l'intelligence les LLM en sont

essentiellement incapables aujourd'hui donc on est on n'est pas du tout prêt à reproduire non seulement l'intelligence humaine mais même l'intelligence des animaux c'est-à-dire un chat de gouttière et très très capable de comprendre le monde physique a une mémoire persistante peut certainement planifier et dans une certaine mesure raisonner aussi donc euh donc comment faire pas lire a pas lire mais finalement parce que c'est pas utile pour savoir lire c'est donc l'évolution a pas construit cette capacité chez eux ni de manipuler la langue parce que c'était pas très utile pour eux et tout ça n'est pas inné

en plus on peut le dire il y a peut-être certaines choses qui sont innées dans tout ça un peu de mais mais c'est quelque chose qui l'apprend par le regard fait par le regard l'audition ENF l'observation du monde physique voilà alors on peut se dire al c'est c'est un peu comment dire troublant parce que les les systèmes l LLM qu'on entraîne on les entraîne avec essentiellement la totalité du texte disponible publiquement sur Internet euh la quantité de données est typiquement de euh 10000 milliards de de mots de token donc c'est un 1 avec 130 derrière

un token c'est typiquement représenté par de octailes ou trois octailes quelque chose comme ça donc ça fait une quantité d'information qui est l'ordre de de 1 2 avec 13 0 derrière de d'cté pour entraîner ça ça nous prendrait environ 100000 ans à lire tout ça à raison de 12h par jour donc donc c'est incroyable quoi comme quantité d'information on se dit si on entraîne un système avec ce ce genre de données ça va être il va être vraiment intelligent mais en fait non parce que la connaissance qui est représentée par le texte en fait est

extrêmement parcellaire et très restreinte aux choses qui sont intéressant pour les humains mais il a il y a très très peu de de connaissance de base sur le monde en fait qui sont représenté par le texte et la mante on peut se se convaincre de ça c'est que les psychologues nous disent que un enfant de 4 ans et dans sa vie a été éveillé un total d'environ 16000 he dans les premiers les qu premières années de la vie et si on essaie de mettre un chiffre sur la quantité d'information qui arrivéit au au cerveau par

exemple au contex visuel ou par le le toucher c'est de l'ordre de 10 à la puissance 15 oct donc c'est un 1 avec 150 c'est-à-dire 50 fois plus que la totalité du du texte disponible public publiquement avec lesquel on entraî les laalem donc simplement en observant le monde pendant quelques mois ou même quelques centaines d'heures on a plus d'information en fait plus de données que la totalité du texte disponible sur internet donc ce que ça veut dire c'est qu'on a arriverait jamais en fait à l'intelligence de niveau humain en entraînant simplement des machines sur du

texte il va falloir les entraîner sur la vidéo sur de l'image de manière autosupvisée et c'est là que le baabess on sait pas comment faire enfin maintenant on commence à avoir des idées mais c'est beaucoup plus compliqué que le texte ouais je comprends donc ce que tu dis finalement à un moment on peut se dire on aura des robots qui se baladeront qui resseniront les choses on aura des lunettes qui vont enregistrer le monde pour comprendre des choses après il reste le toucher l'odorat Louis des tas de choses enfin des sensations et finalement j'enregistrai avec

quelqu'un qui s'appelle Professeur Gérard saillant je sais pas si tu vois de l'Institut de la moelle et du cerveau disait qu'il y a aussi une il excluait pas c'est assez intéressant qu' a potentiellement une forme de télépathie c'est quand même quelqu'un de très sérieux mais il dit en fait le cerveau aimit des ondes et on ne sait pas il m'a pas dit que c'était le cas attention je prends je vaisêtre je suis pas scientifique et vous l'êtes lui et et toi mais il disent en fait c'est pas exclu enfin on n pas c'est pas exactement

tout ce qu'on ressent et jusqu'où ça va et et comment c'est pas c'est pas posé mais la question que je te pose avant de rentrer justement sur peut-être j'ai pas et d'autres types de choses que vous travaillez c'est est-ce qu'on pourrait pas envisager de tricher et de dire ben à la machine de lui rentrer textuellement euh tout ça lui dire en fait quand je touche il se passe ça je ressens c'est très compliqué mais quand je vois et dans les six premiers se mettre à la place d'un bébé dire ben est-ce que c'est ça peut

être pas pas être une option de lui dire bah plutôt que de lui faire ressentir ça va être compliqué puis on va pas y arriver je vais je vais tricher je vais lui envoyer comme sur les les calculettes dont tu parlais tout à l'heure ben c'est un peu c'est un peu ce que les gens font en ce moment c'est-à-dire euh il a une phase de après le pré-entraînement sur les données publiques de des LLM on les on les ajuste on les affine en leur posant des questions et puis ensuite on on leur faisant produire plusieurs

réponses et ensuite en engageant des des des personnes à à donner un score à chacun des réponses possibles ou peut-être à proposer une meilleure réponse à la question la réponse en question ou simplement à donner euh à à euh à faire en sorte que on puisse affiner la la machine pour certains types de certains types de de questions et si on engage suffisamment de milliers de personnes euh qu'on dépense des centaines de millions là-dessus ça coûte très très cher en fait de faire ça mais ces opérations qui sont euh qui sont déployées par par Google

Microsoft et donc et donc open a on arrive finalement à couvrir une bonne partie des une grande partie des questions que les gens puissent peuvent poser et donc à peu près à couvrir un petit peu tous [Musique] les mais mais mais c'est quand même insuffisant il y a toujours des questions qui vont sortir un petit peu des ornières et pour lequell le système va pas être entraîné va répondre n'importe quoi euh parce qu'il a pas les capacités de raisonnement vraiment pour pour produire ses réponses ses réponses lui-même ou puis comme comme je je dis j'ai

utilisé le mot tricher mais en fait donc on ne raisonne pas quoi en fait on triche on lui on lui donne des des des shortcuts quoi des raccourcis ou des alors il y a évidemment des des systèmes aujourd'hui qui sont déjà déployé euh dans lequel on on prend un euh al il y a de deux options je j'aiécris la première la première consiste à euh ce qu'on appelle early fusion en anglais donc c'est ça consiste à à prendre des images ou des vidéos est découpé en petit bloc un petit carré et traiter ces carrés en

fait comme des mots dans un dans un texte et donc quand on on entraîne le système on lui donne non seulement la la séquence de mots de la question mais aussi euh la séquence de de de patch d'imagees ou de vidéo ou d'audio euh tokenisé comme si c'était des mots et et on entraîne le système euh donc à répondre à la question et du coup le système a une une espèce de vision de de de ce qui se passe alors ça ça marche pas très bien il y a des systèmes qui ont été produits comme

ça à méta qui marche pas très bien aussi open autres et puis à deepm ça marche pas très très bien c'est pas vraiment satisfaisant je précise une chose vous êtes 500 chez fer c'est ça donc à faire de la recherche sur ce genre de chos donc il y a des équipes qui font qui sont là-dessus il y en a d'autres qui sont sur du LLM il y en a d'autres qui sont sur d'autres choses alors LLM on en fait plus trop parce que maintenant c'est dans les mains un groupe de produits qui s'appelle geni ok

donc qui produit les l la recherche c'est c'est c'est moins de la recherche c'est la c'est du développement avancé la recherche appliquée on peut dire mais ça fait partie d'un groupe de produits qui produit MTA a qui est le le système d'IA et puis aussi les images systèmes de génération pour se rendre compte du nombre de personnes dit on arrête on en fait plus VO un peu qui fait quoi et comment c'est pas juste 12 personnes non non donc il y a il y a il y a à peu près un an un peu plus

d'un an un an et demi l'organisation G a été créée début 2023 et le le le noyau dur de de Red engineering de Ji en fait c'était une soixantaine de gens de fer qui ont été déplacés dans cette organisation pour un peu amorcer la pompe et puis ensuite j accru donc maintenant c'est une très grosse organisation avec plus 1000 personnes on peut se dire qu'il y a quand même une petite réaction à la au succès de d'Open si on est en janvier 2023 alors la surprise n'a pas été technique c'est-à-dire qu'on n pas été surpris

par trop par les performances du système parce qu'on avait des systèmes untit peu similaires mais par contre ce qui a surpris tout le monde c'est l'enthousiasme et l'engouement du public pour pour ça et le fait que il pourrait y avoir un marché enfin quelque chose à déployer qui serait utile aux gens des assistant et on on prenait notre temps un petit peu parce que justement à cause de l'histoire de Galactica où on s'était fait arroser de vitriole on s'est dit bon faut peut-être faire un petit peu attention Google était un petit peu dans la même

situation on avait pas vraiment besoin de ça pour justifier la recherche on y a parce que Facebook est financé par la pub et cetera donc il y a pas une grosse pression pour dériver des des générer des revenus à partir de ça alors que open il y avait une grosse motivation pour le faire parce que c'est leur seul moyen de deargent gag donc c'est pour ça qu'ils ont été les premiers c'est pas vraiment une avance technologique ils en avaient peut-être une petite mais qui était pas enfin personne est en avance de qui que ce soit

depuis 3 mois c'est ok il y a pas de il y a pas vraiment de secret et puis tous les gens qui travaillent là se connaissent tous euh la moitié des dirigeants deepm sont des anciens étudiants à moi j'ai pas mal d'ancien postdoc et de collègues open enfin tout ça ça circule hein donc il y a pas vraiment de de de de de de recettees secrète que personne ne connaît ça dure jamais très longtemps hein ok euh mais euh mais donc ce qui a surpris c'était effectivement l'engouement du public et le fait qu'il y a

peut-être un un marché à à déployer donc ça ça a suscité effectivement la création de l'Organisation géini chez chez Google Ji chez ma mais en fait le le résultat de ça c'est que maintenant que Ji peut se concentrer sur le développement de produits à base de LLM générative faire c'est focaliser en fait sur la recherche à long terme quelle est la la prochaine génération de système d'IA capable de comprendre le monde raisonner planifier et cetera c'est intéressant ce que tu dis parce que ça veut dire que pour faire en fait je caricature évidemment mais en

fait le LM s plié quoi maintenant c'est parti dans une équipe produit c'est plus la recherche et maintenant nous on va se concentrer sur autre chose quoi voilà donc ce que je dis au j'étais pas prêt à c ce que je dis aux étudiants maintenant quand il posent la question qui veulent je sais pas démarrer un doctorat ou s'intéresse à l'a et de faire la recherche en IA j' dis ne travaillez pas sur les LLM c'est c'est c'est le passé c'est le passé d'une part et d'autre part c'est c'est c'est c'est complètement dominé par l'industrie

si vous avez pas accès à 10000 GPU vous allez jamais pouvoir soit euh si vous voulez rivaliser avec ça même dans une start-up il va falloir vous lever comme Mistral 500 millions ou un milliard parce que vous allez dépenser tout votre budget en en en calcul de calcul on ach chez Nvidia voilà ou en ou en location et et vous allez vous allez faire face à à ma qui a 300000 GPU à Microsoft qu'on a acheté une quantité similaire et puis à Google qui a ses propres son propre hardware le TPU donc ça va être

difficileut vraiment vous soyez vraiment sûr que vous êtes supérieur au niveau intellectuel pour pour rivaliser là-dedans c'est un peu compliqué mais donc essayer de travailler plutôt sur des nouveaux concepts essay d'inventer l'architecture qui de de nouveaux systèmes d'IA qui vont dépasser les limitations actuelle donc là en fait on a on a repris le la feuille blanche quasiment en fait on a le le LL il existe il nous impressionne toujours il va faire des trucs bien je pense qu'il y a un des ce qui est intéressant ce qu'on a appris avec Open Air il et le

grand public c'est peut-être des nouveaux cas d'usage qu'on avait peut-être pas prédit ou des je veux dire qu'une fois qu'on donne ça à tout le monde en fait on on découvre que des gens l'utilisent d'une manière donc ça je pensais que moi je trouve ça assez cool et assez intéressant et c'est vrai queou ça devient quand même un outil pour moi pour beaucoup j'tais j'étais avec Annabelle brourant là ce weekend je la voyais faisais ses recherches où c'est sur sur euh enfin sur Chat GPT 4 O enfin voilà en fait ça devient un outil où

beaucoup l'utilisent comme Google comme les mails comme plein de choses quoi donc ça c'est intéressant euh avant d'ouvrir de revenir sur cette page blanche c'est c'est plus chez toi j'ai compris c'est plus chez fer mais c'est donc comment s'appelle cette équipe j j euh c'est quelque chose que vous avez choisi de pas ouvrir complètement au grand public comme j'ai mini ou ou open a si si c'est complètement disponible c'est même c'est même beaucoup plus ouvert alors il y a deux choses il y a Lama qui est un un système Open Source donc un LLM Open

Source donc là en fait Lama a complètement euh démarrer tout un tout un écosystème autour de l'IA ok qui permett à des petites et grosses entreprises ou même des associations de de d'affiner des LLM de les utiliser pour leur pour leurs besoins leur application verticale leur clients et cetera OK et ça c'est c'est rendu possible par les PL open source c'est-à-dire que vous pouvez télécharger Lama donc c'est Lama 3 qui est le dernier euh euh mais le le le le le déclencheur de tout ça a été la la distribution de Lama 2 qui s'est euh

qui s'est déroulé l'été dernier l'été 2003 ok euh qui a qui a permis en fait de d'essémer complètement le l'écosystème de l'IA qu'on voit par exemple à Paris où il y a énormément de start-up qui qui ont démarré dans l'IA une grande partie utilise Lama comme la comme comme base ou mistral qui est aussi open source ou quelques autres euh et et ce que ce que permettent les les outils open source comme ça donc on peut télécharger Lama ou Mistral et le l'affiner l'ajuster avec ses propres données à avec ses propres données qui peuvent être

privé ou pas avec ses fonds linguistiqu culturel et cetera donc ça permet par exemple à des pays comme l'Inde de dire on va affiner laama 2 pour qu'il parle les 22 langues officielles de l'Inde euh ce que les les systèmes de base entraîné en Californie ne font pas ou entraîné à Paris en l'occurrence pour Lama euh et euh où ce qui permet à des gens euh donc par exemple un ancien euh collègue de de fer qui s'appelle mstapha sissé qui est euh qui était chercheur à faer il a quelques années reparti en Afrique et depuis

depuis un an a créé une entreprise qui s'appelle ka health et qui fait des qui utilise des LLM Open Source ajusté pour parler euh pas seulement français mais aussi le wallof euh qui est des langues euh dominante au Sénégal et euh qui permet l'accès à de l'information médicale c'est c'est très difficile d'avoir un rendez-vous avec un docteur au Sénégal parce qu'il y a que 5 docteurs pour 100000 habitants ok euh et puis ils sont tous dans les grandes villes donc si on est dans un village dans un village on n pas accès euh mais par

contre on aait bien parler à un docteur avoir l'information sur des symptômes et cetera donc on peut parler à euh un LLM comme ça qui a été euh réentraîner pour parler le wallof et donner l'information médicale sachant que là-dessus souvent les grands américains évitent de faire ce genre de chos par qu'ils ont peur des de des responsabilités que prend qu'prend légal sur ou là là je veux pas te faire un diagnostic parce que sinon exactement mais donc c'est pas quelque chose que MTA ferait mais par contre si tu le fais toi-même c'est c'est ton problème

entre voilà avoir ses moteur open source disponible en fait permet à tous ces gens de d'être très inventif sur les les utilisations des LLM même chose en France il y a tout un tas de d'entreprisees qu'utilise c'est c'est llève Open Source donc donc ça c'est très différent par bi d' payer là-dessus on n'est pas forcément sur quelque chose enfin qu'on utilise Lama comme open non alors Lama c'est pour des gens qui sont dans le développ d'application les développeurs les chercheurs et cetera au-dessus de ça il y a un produit développé par par J donc qui

s'appelle MTA a ok et qui est donc un agent intelligent avec qui on peut dialoguer à travers WhatsApp Messenger ou Facebook ou même Instagram d'accord et c'est disponible si on va sur sur WhatsApp je peux l'ajouter et puis parler avec lui comme sur sur sur chpt par exemple OK et sur Facebook c'est même plus amusant il y a des des personnalités différentes en fait de ce de ce LLM donc par exemple il y a un Dungeon Master si on veut jouer à Dungeon et dragon qui est personnifié par Snoop Dog pourquoi Snoop Dog je ne

sais pas mais donc c'est un LM quit cool ça suffit en fait qui est basé sur la 2 qui a été affiné pour être expert en DJ les Dragon extra et donc tout un tas de choses comme ça et puis ce ce système est ai est disponible à travers les lunettes les lunettes connectées intelligentes de de méta donc les rban méta ok que que je porte en ce moment sur le nez c'est mes mes lunettes normales en fait de correction correctiv voilà et qui fonent au soleil qui ont des caméras et et donc il sont

conc LLM on peut lui parler lui poser n'importe quelle question et puis on peut même lui lui demander de regarder la scène qu'on est en train de regarder et nous dire n donner des commentaires c'estàdire je sais pas on regarde un menu en japonais on peut lui demander et là il va te parler tuas des petits écouteurs des petits écouteurs par conduction par le squelette en fait c'est pas entendre de l'extérieur pe jouer de la musique et cetera trop bien et et à terme d'ici d'ici un an ou deux il y aura des des lunettes

de ce type avec un afficheur dans les lunettes qui permettra par exemple en temps réel de produire des sous-titres si on parle avec si quelqu'un nous parle dans une langue qu'on comprend pas on aura les sous-titres automatiquement avec un dél de 2 secondes ou quelque chose comme ça donc on connait des gens à la comme de Facebook on va voir si on on peut on peut s'en s'en procurer voilà mais c'est pas pour tout de suite ça il y a la technologie est encore et puis on pourra interagir aussi avec ces systèmes là avec des

des bracelets ce qu'on appelle de des bracelets électromiographiques donc ce ça veut dire c'est que c'est des bracelets comportte sur les sur les poignets comme normau qui ont des des capteurs électriques qui qui capturent les courents électriques produits par les par les nerfs pour commander les muscles les muscles de la main sont pas dans la main ils sont dans le bras OK et donc avec ça on peut euh inférer la position de la main et donc on peut en bougeant le le pouce sur l'index bouger un pointeur par exemple comme une souris et puis cliquer

et même on peut taper au clavier avec les mains dans les poches donc ça permettra un nouveau type d'interaction en fait avec avec des avec les systèmes et à terme toutes les interactions de tout un chacun avec le monde numérique se feront par l'intermédiaire d'un agent intelligent c'est ce que fait non je du coup ça me fait penser à Apple et son casque là quand tu cliques ou que tu fais ces choses là c'est assez impressionnant quand tu l'essayes tu l' essayé non ou je sais pas non mais ça a chassé MTA depuis 2 ans

c'est M 3 Apple pas le chauffer y le Apple essa de essaie de grignoter de rattraper leur retard et ils sortent un truc d'abord qui est moins bon et qui fois plus cher donc non je suis pas impressionné du tout pas du tout comment il s'appelle le évidemment vous faites ça depuis assez longtemps sur le Quest 3 c'est le dernier et puis il a eu le Quest pro avant et puis le Quest 2 bien sûr mais Quest 3 est vraiment impressionnant ENF au niveau réalité virtuelle réalité mix et effectivement interaction on n pas besoin de

manette on peut simplement avoir les mains le système à faire la position des mains extra on trouve pas encore son marché là-dessus mais ça se trouve il y a un open a qui va débarquer qui va trouver votre marché avant vous mais bon tout le monde en profite derrière finalement est disponible he c'est ça coûte 400 € je sais pas quoi on va essayer les lunettes intelligent c'est 300 € alors le le la connexion avec le avec MTA ai le système le LLM intelligent n n'est pas encore disponible en en France ou en Europe pour

l'instant c'est étit déployé je crois aux États-Unis dans quelques pays anglophones mais il y a des des questions de régulation en fait pour le déploi on est obligé de s'assurer qu'on qu'on respecte la législation en vigueur en eurou chose de les vies privées en fait c'est vrai que quoi qu'il arrive tu te dis quand j'ai un bracelet des lunettes et quelque chose avec un géant américain je je va pas te faire rentrer là-dedans mais c'est tu peux avoir une petite angoisse et te dire on a ça avec les téléphones portablebles déjà les smartphones sont connectés

on a beaucoup de gens ont déjà ses angoisses d'ailleurs mais Google ou Apple savent à chaque seconde exactement où on est par GPS enfin bon c'est c'est pas nouveau hein c'est vrai euh et d'ailleurs beaucoup des services pas que Google et Apple les gens qui ont des applis si tu as autorisé tu ple dedans eu avant de revenir sur cette fe blanche j'ai une question sur pour un un dev qui est pas un chercheur qui fait du dev je sais pas moi sur du front du bac qui voudrait en fait se mettre à fond mais

déjà un peu pour utiliser l ma 2 Lama 3 et et faire des tas de trucs de ouf euh qu'est-ce qu'on lui recommande de faire comment il apprend est-ce qu'il faut faire un mou NYU est-ce que est-ce que il y a des ressources chez vous comment est-ce que ça ça prend tout seul sur Youtube qu'est-ce qu'il faut faire si on veut apprendre vraiment les base du Deep learning par exemple ouais euh on il y a il y a tout un tas de de cours disponibles gratuitement en ligne y compris mon cours de Deep learning à

NYU il y a la version 2020 2021 la version 2020 je crois été traduite en 13 donc c'est même disponible en français avec c'est pas périmé c'est pas périmé enfin bon il y a peut-être un peu moins sur les les Transformers et les LLM que les les dernières versions mais mais bon sinon il y a des des des blogs ou des des publications séparées qui expliquent vraiment bien ce que c'est très accessible sur comment fonctionne les les le Deep learning la rétpropagation gradient les les les transform les LLM et cetera donc beaucoup de choses qui

sont disponibles ensuite il il y a des des bibliothèques logiciels qu'on peut utiliser qui sont relativement faciles à à utiliser don on pas vraiment besoin de comprendre tous les détails pour arriver à les utiliser sous P Torch donc P Torch c'est un outil de développement de de Deep learning qui a été produit par par ma qui est maintenant qui qui n'appartient plus à meta meta a transféré en fait la propriété à la Fondation Linux donc c'est vraiment un projet communautaire et c'est universellement utilisé excepté excepté par quelqu quelques personnes à Google qui utilisent leur truc

mais mais c'est c'est vraiment universellement utilisé dans dans l'industrie et dans la recherche surtout et et alors si on veut appliquer simplement LLM pr entraîner comme Lama on peut télécharger Lama 3 ou laama 2 ou Mistral ou un autre et beaucoup de de gens en fait on ont développé des des des moyens de de déployer C ces LLM sur des ordinateurs qui n'ont pas une de GPU de haute puissance qui coûte une fortune mais en fait de les faire tourner même sur des des ordinateurs portables ou sur des ordinateurs de disons de raisonnable ou avec

un GPU de gamer ok en utilisant des techniques de de compression en fait de de ces réseaux là donc on peut les les rendre plus efficaces après entraînement il y a plein de trucs comme ça donc il y a un programme qui s'appelle lama.cpp qui permet de faire ça de faire tourner faire tourner laama sur les ordinateur raisonnable sinon si on veut pas rentrer dans ces détails on peut utiliser Lama et autres euh à travers une une API ou à travers un un site qui qui qui sert de de de serveur donc on le fait

pas tourner chez nous on fait tourner chez un service cloud le plus simple c'est probblement passer par hugging face ou qui est une clément que j'ai reçu ici qui est une entreprise franco-américaine qui qui qui qui qui offre ce genre de de de service donc les tous les modèles ouverts en fait sont disponibles sur hugingf et puis ils offrent un service qui est basé sur Amazon ou Google pour pour les faire tourner en remote ou on peut aussi s'adresser directement à Amazon à Azure chez Microsoft ouou même à GCP chez Google pour faire tourner la

main sur leur cloud c'est déjà installé on n pas besoin de de se de se prendre la tête ou on peut aussi utiliser à travers une épill donc Amazon par exemple offre Lama et tous les autres systèmes en fait à travers une EPI pareil pour Azure donc c'est relativement simple en fait et puis on peut construire des applications de manière relativement simple autour de ça puis si on veut quelque chose de vraiment customisé on est une entreprise on voudrait un un LLM qui connaisse toutes nos tous nos documents internes qui puissent répondre à n'importe quelle

question à nos employés à ce moment-là on peut employer les services d'une d'une start-up donc c'est la spécialité de d'affiner un LLM pour l'application verticale on a reçu là-dessus notre ami il y a quelques mois tu vas m'aider euh qui est pas un ancien qui fait qui aide les entreprises à qui est venu avec nous à Monaco je vois que tu m'aides pas euh on va je vais y revenir et un super épisode aussi dans lequel on est merci en tout cas de de de ces précisions donc je reviens sur cette page blanche là on

se dit finalement le LLM c'est un produit commercial moi je fais de la recherche je je je j'ai compris que euh le texte enfin le langage était pas suffisant si je comprends bien une des pistes il y en a peut-être plusieurs mais que vous travailler avec j'aip notamment j'ai pas il y a y a une lettre à coller j'ai pas pas qui est de dire en fait plutôt que de masquer des mots on va masquer des images dans des vidéos pour comprendre le monde c'est ça un peu oui alors c'est une vieille idée en fait

donc l'idée d'utiliser l'apprentissage autosupviser pour permettre aux machines de comprendre comment fonctionne le monde euh c'est un petit peu le même idée que pour entraîner les LLM où on prend un texte et on masque certains mots et puis ensuite on entraîne un système à prédire les mots qui manqu on pour faire la même chose avec la vidéo ou les images don on peut prendre les images masquer certaines parties de l'image entraîner un gros rés neurone à reconstruire l'image complète à partir de d'une image partiel c'est Stan pollu de Dust tu dois le connaître Stan oui

évidemment Stan tu m'excuses on t'embrasse on t'adore en plus mais j'ai eu un gros bug à moi-même tu vois ma mémoire de LM voilàamp en anglais on appelle ça senior moment c'est senior moment senior senior moment quon est trop vieux le l'hippocramp là se se durcit un peu t'insulte pas mais j'en pense pas moins euh donc on pourrait imaginer ça pour les images euh on pourrait imaginez ça pour la vidéo et en fait sur la vidéo donc on montre par exemple une une vidéo un un système et puis on arrête la vidéo et on lui

demande de prédire ce qui va se passer après alors évidemment si euh par exemple la vidéo c'est quelqu'un qui euh euh qui prend un stylo euh le stylo est tenu au-dessus de la table et la personne ouvre les doigts le stylo va tomber h on peut prédire que le stylo va tomber pr il va pas s'envoler il va pas s'envoler il va pas flotter dans l'air il va tomber on peut pas exactement prédire exactement comment comment il va rebondir et cetera est-ce qu'il va se casser la mine et autre mais on peut prédire qu'il va

tomber sur la table euh alors donc l'idée c'est peut-être on pourrait faire la même chose qu'avec le texte c'està-dire entraîner une machine à prédire ce qui va se passer dans dans une vidéo et ce faisant peut-être ils vont réussir à comprendre que le monde est tridimensionnel qui est composé d'objets que les objets obéissent à la physique euh il y a des objets animés inanimés et cetera et un petit peu comprendre comment fonctionne le monde à la manière des enfants et des des des bébés animaux euh des des chiens des chats des rats et cetera des

oiseaux et ça marche pas et ça fait 10 ans qu'on essaye et ça marche pas du tout ça marche très bien pour le texte et ça marche pas pour l'image ni la vidéo euh ça marche un peu quoi ça marchote on a des papiers là-dessus qui remontent à 2014 donc ça fait 10 ans c'est pas une nouvelle idée et puis c'est un concept qui est assez répandu dans les neurosciences qui s'appelle préditive coding donc codage par prédiction dans lequel effectivement le le le cerveau peut-être représente le monde en essayant de faire de la prédiction et

puis en en encodant les erreurs de prédiction c'estàd ce qui est ce qui n'est pas prédit est surprenant et ce qui est surprenant est intéressant donc c'est une bonne manière de de de con le monde en fait euh donc ces concepts sont sont très anciens mais euh on sait pas on n pas réussi à les faire marcher et et on ne peut pas les faire marcher avec des architectures génératives c'est-à-dire que ce qu'on fait pour le texte c'estd prédire un le le le prochain mot dans dans un texte ou les prochains mots dans un texte

on peut le faire parce que le texte c'est simple et parce que c'est discret et parce que y a qu'un nombre fini de possibilités d'un mot que la phrase que j'utilisais précédemment le chat euh chat euh pour chasse le blanc dans la cuisine y a il y a que quelques mots qui sont possibles là-dedans et on peut produire un vecteur de probabilité qui dit probablement une souris un spot laser un jouet et cetera euh et mais on peut pas faire ça avec les images c'est si je montre une vidéo et je demande un système prédis

ce qui va se passer dans une seconde donne-moi une image qui représente ce qui s'est passé une seconde c'est pas vraiment possible on a pas une manière de représenter une une distribution de probabilité sur toutes les images possibles c'est impossible à faire c'est un problème complètement intractable mathématiquement sur lequel les mathématiciens les physiciens et les informaticiens statisticiens se cassent la tête depuis un siècle donc c'est c'est pas c'est pas possible on sait pas le faire parce qu'il y a trop de possibilités trop de possibilités exactement et et on peut pas se permettre de représenter une

possibilité c'est-à-dire que d'entraîner le système à faire une seule prédiction parce que ce qu'il va faire c'est qu'il va il va prédire une espèce de moyenne de toutes les choses qui sont possibles et donc si c'est le l'exemple du du crayon qu'on laisse tomber sur la table le crayon peut à la fin être dans tout un tas de positions et il va prédire une espèce de de de de truc flou qui est une moyenne de tous les crayons dans toutes les positions possibles sur la table donc ça marche pas du tout donc on a essayé

de résoudre ce problème là avec des tas de de système D quoi mais qui marche pas et puis il y a 4 ans environ euh j'ai complètement changé d'avis sur la question avec certains de mes collègues et ce qu'on a réalisé c'est que ce qui marche dans l'image et donc ce qui commence à marcher dans la vidéo ce sont des des architecture non générative c'est que le problème on c'est on ne peut pas produire dans tous les détails tous les pixels qui représentent la position du du du stylo du crayon sur la table mais par

contre on peut dire le crayon va tomber et il va être à place sur la table HM mais ça c'est une représentation abstraite de la réalité donc on peut pas prédire tous les pixels dans la vidéo mais on peut peut-être prédire une représentation abstraite de du contenu de de la vidéo donc l'idée de jpass jpass ça s'écrit j PAA et ça veut dire joint embedding predictive architecture comment on pourrait traduire ça en français architecture prédictive à enchassement joint P ce serait le donc euh ap e j enchassement voulant dire enchassement embedding embedding OK ou ok

très bien je comprends bien en anglais pour le coup mais voilà donc ça veut dire en bedding ça veut dire représenter une entrée que ce soit un texte une image et cetera en une une liste de nombres qu'on peut voir comme un un point dans un espace de dimension si on connaît un peu le la G linéaire les espace vectoriel donc la notion de bedding en mathématique ou d'enchassement c'est comment représenter des des des objets quels qu'il soi par des points dans dans des espaces de de haute dimension alors qu'est-ce que ça veut dire le

jointeding ça veut dire que si on prend une entrée disons une une image et on on lui fait subir une transformation ou une corruption on va appeler l'image y on va l'appeler l'image corrompue ou transformé x euh une architecture générative voudrait reproduire y à partir de X c'est faire une prédiction de y de tous les détails tous les pixels à partir de X ça marche pour le texte pas pour l'image ce qui marche pour l'image c'est qu'on prend y et on le passe par un encodeur donc un système qui va calculer justement un enchassement un

embeding qui une représentation abstraite de l'image qui va éliminer plein de détail sur l'image mais qui va garder la substance substantifique moil de du contenimage c'est le crayon qui tombe mais tout ce qui est derrière qui est pas important ou tout ce qui voilà c'est il tombe sur une table en bois et la texture du bois de la table a rien à voir avec le problème donc on va pas représenter tout ça tous les détails et puis dans le fond euh il y a je sais pas la télé qui joue un programme on va pas

prédire tous les pixels du programme de télé qui est en train de en train de jouer donc on va éliminer tout un tas de détails qu'on veut pas prédire et et en fait ne représenter que les choses qu'on peut prédire et on fait ça tout le temps on s'en rend pas compte mais en tant que humain et tous les animaux on fait ça tout le temps on ignore euh toutes les choses qu'on peut pas prédire et on ne se représente en fait que les choses qu'on peut vraiment qu'on peut peutpr c'est toi que j'ai entendu

mais on parle quand tu conduis s'il y a du vent tu ignores les arbres qui bougent au fond enfin c'est pas un truc qui te tu es en train de conduire tu fais pas gaffe à ça quoi ex voilà alors que si on avait un modèle génératif dans la tête ouais il faudrait prédire le mouvement de chaque chaque feuille chaque goutte qui tombe sur le pare-brise chaque gout qui tombe sur le pare-brise les euh les petites vagues sur le la a la 38e goutte là je l'ai pas je l'ai pas tu vois pas prévu oh

my god on donc donc l'idée c'est euh élever en fait trouver une représentation abstraite du du monde dans lequel les les détails imprédictibles sont éliminés de manière à ce que le système puisse faire la la prédiction mais que des des des choses importantes il y a un peu l'analogie dans la science dans la physique par exemple qui aurait pu penser au 17e siècle que pour prédire la trajectoire des des planètes euh la seule chose qui suffit de savoir c'est les les trois coordonnées de position de la planète et et trois valeurs de de de de

vitesse de vélocité euh avec ces six ces six quantités en fait on peut complètement prédire la trajectoire de la planète c'est-à-dire la taille la forme la masse la couleur la densité de la planète tous les détails sur la planète s'il y a des êtres vivants ou pas tout ça n'a aucune importance la seule chose qu' suffit de savoir c'est ces six paramètres donc ça en fait c'est cette idée de comment élaborer une représentation abstraite du du monde qui nous permet de faire des prédictions et savoir ce qui est utile et inutile ça c'est vertigineux parce

que en fait tu vois tout à l'heure on comprend pas forcément tout quand tu parles d'un bébé ou d'un en fait le bébé je pense que les premières fois qu'il reçoit des gouttes sur la tête enfin tu vois il va dire ah une goutte de tiens et puis la deuxième fois et puis à la fin il dire attends un ballon c'est mieux tu vois j'exagère mais tu vois il y a le truc qui est au centre de son attention et tout le reste est péphérique quoi et ça ça vient petit à petit et on est

on est biaisé enfin la nature humaine et puis pour les animaux c'est pareil on est on est notre cerveau est construit pour prêter attention à certaines choses et pas d'autres c'estàd qu'on est les bébés humains prêtent attention beaucoup à ce qui bouge parce qu'en général il y a des choses plus intéressantes dans ce qui bouge il prêtent attention aux choses qui sont surprenantes c'est-à-dire qu' le le le cerveau prédit constamment ce qui va se passer et dès que une prédiction est violée on on est obligé d'y prêter attention parce que ça veut dire que notre

modèle du monde était faux et donc il faut l'ajuster et en fait c'est comme ça qu'on on sait que les bébés ont intégré certains certaines caractéristiques du du monde euh si on montre un bébé de 6 mois euh un jouet une petite voiture sur une plateforme euh donc il se repose sur une plateforme bon si moi vois un jouet bien coloré moi on regarde un petit peu mais pas trop on pousse le jouet de la plateforme et le jouet semble flotter dans l'air c'est ne tombe pas un bébé de 6 mois bon va regarder mais

sans vraiment être intéressé parce qu'un bébé 6 mois n'a pas encore compris que les objets tombent à cause de la gravité ça prend 9 mois donc si on monte le même scénario un bébé de 10 mois il va écarquiller les yeux et se concentrer sur le sur le sur l'objet et se demander ce qui se passe en disant pourquoi l'objet flotte quoi pourquoi l'objet flotte Bébé 9 mois parle pas mais ils ont très très bien compris tout un tas de de détails de la physique intuitive et c'est ce genre d'apprentissage on voudrait pouvoir reproduire avec

les machines en les entraînant sur des vidéos en le entraînant à essayer de prédire ce qui va se passer dans une vidéo mais à ne pas essayer de leur faire prédire tous les détails de l'image mais de de construire une représentation abstraite dans lequelle ils peuvent faire ses prédictions donc ça c'est des modèles donc c'est c'est jepa c'est Jing pr architecture sont non génératifs et ça c'est un peu difficile à faire passer quand tout le monde quand la la la la mode technologique c'est de c'est les modèles génératifs gérative ai même l'organisation chez ma s'appelle

gen ai Gini s'appelle Gini parce que c'est génératif et cetera tout le monde parle de d'IA générative et je dis aux gens non si on veut faire des programs ena il faut abandonner l'idée de modèle génératif ça peut pas marcher pour les vidéos si on veut que les les modèles comprennent le monde il faut utiliser C jepa et il faut arriver les faire marcher quoi donc pour l'instant c'est làdus qu'on travaille les faire marcher sur la vidéo et aut d'autres choses et dans le àarté je viens de comprendre pourquoi je faisais marrer les enfants les

bébés et pas les adultes quoi c'est parce que il suffit de faire et puis puis il se Marr si les surprend alors que ça marche pas B oui tout est surprenant pour les bébés non mais par exemple on peut jouer en anglais on appelle ça Picabou on met ses mains devant devant son visage et pu on fait Bou en enlevant les mains et ça fait rigoler les les bébés en fait j'essae chez mes potes il est con lui mais pour les bébés ça marche bien parce que même la notion de permanence des objets ouais et

n'est pas euh n'existe pas probablement la naissance c'est des choses qu'on apprend très vite he dans les trois premiers mois mais mais le le fait qu'un objet existe toujours même s'il est caché n'est pas évident h c'est appris dans les TR premiers mois de la vie euh apparemment chez les chez les poussins c'est c'est iné plus ou moins mais mais chez les humains probablement probablement c'est appris et et donc euh donc c'est c'est ce qui qui fait que pikabou c'est drôle mais c'est en fait ça paraît un peu anecdotique tout ce qu'on dit là mais

c'est c'est quand je dis que c'est vertigineux c'est que enfin en tout cas moi dans cet épisode dans cet échange avec toi Yan je comprends très bien le enfin le la profondeur de ce que de ce que l'ELM ne comprend pas en fait et et et ce qui est intéressant aussi dans ce qu'on dit là c'est que il est peut-être pas exclu pour toi que j'ai pas dans de tu l'abandonnes parce que vous disiez en fait ça marchera pas c'est pas la bonne voie c'est ça la recherche c'est possible en fait le l'histoire de la

est est jonchée de de de cadavres d'idées de ce type là où les gens sont dit bon c'est comme ça qu'il faut faire on va poursuivre cette approche et puis ils sont aperçus au bout de quelques années que en fait ça menait espèce de mur de pierre qu'on pouvait pas franchir une histoire intéressante dans dans l'histoire de liia donc dans les les premières années de Lia dans les années 50 deux chercheurs qui sont des pionnier de [Musique] Lia Newell et Simon Herard Simon et Alan World qui était à l'université car gimelon euh ont proposé une

une méthode qu's appelait en toute modestie le general problem solver donc le le le solutionneur de problème général et ils ont dit c'est très simple n'importe quel problème de raisonnement en fait peut être formulé comme un problème de recherche d'une solution euh du problème donc sinon une bonne manière par programme de caractériser si un problème est était résolu ou pas est-ce que vous avez gagné aux échecs est-ce que est-ce que vous avez trouvé le plus court chemin d'une ville à une autre et cetera euh tout ça ça peut se réduire à un problème de recherche

d'une solution dans un espace de solution et à partir du moment où il a une caractérisation de la solution il suffit de rechercher la configuration qui satisfacee à l'objectif et donc on peut dans la mesure où on peut formuler n'importe quel problème de ce type là on peut juste écrire un programme qui va utiliser des uristiques différentes pour pour résoudre des problèmes différents euh mais mais mais à la fin c'est c'est tous des des variations de la même chose donc ils ont écrit ce programme puis ils sont dit avec ça on va résoudre tous les

problèmes ce qu'ils avaient pas encore compris c'est que d'abord formuler un problème de cette manière-là c'est pas toujours très simple et que deuxièmement euh certains problèmes nécessite justement une quantité de connaissance a priori qui est assez importante et qui est très difficile à à à formuler troisièmement que la plupart des problèm en fait nécessité des des horuristiques de de recherche de solution euh spécifiqu pour chaque problème et donc c'était pas du tout général et puis surtout le gros gros gros problème c'est que la plupart des problèmes intéressants euh sont exponentielles c'est-à-dire la complexité de calcul

qu'on doit passer croit exponentiellement avec la complexité du problème et et donc ça veut dire que la plupart des problèmes intéressant sont complètement insolubles et intractaable et ça a donné lieu en fait à l'apparition de la théorie de la complexité en calcul et cetera qui qui sont les bases de de l'informatique théorique euh donc voilà donc ils sont hortés un mur et donc bon c'est ça c'est un petit petit peu arrêté et puis simultanément il y avait des gens qui travaillaient sur justement des des magchines CAPAES d'apprentissage qu'on appelle percepttron à l'époque et puis d'autres

et puis ils sont aperçus aussi au milieu des années 60 que c'était très limité on pouvait pas faire des choses vraiment intéressantes avec parce queon pouvait pas entraîner des des réseaux neuros plusieurs couches ça c'est venu que dans le milieu des années 80 c'est ce qu'on appelle le Deep learning maintenant ok euh et puis d'autres vagues d'intérêt dans les années 80 les gens ont construit ce qu'on appel les systèm expert donc donc des des systèmes capables de de raisonnement logique euh mais le problème de ça c'est qu'il faut spécifier toutes les connaissance à priori pour

que le système soit capable de de faire ce raisonnement les règles de raisonnement et cetera mais il y a eu une grande mode un gros engouement au début des années 80 là-dessus le Japon a démarré un gros programme qui s'appelait ordinateur 5e génération on allait construire des ordinateurs spécialisés qui va qui allait pouvoir faire tourner des systèmes experts et cetera et cetera échec total h il y a une industrie qui s'est construit autour de ça qui a construit des des outils qui sont utilisés un peu partout maintenant mais on a plus la prétenion de construire

des machines intelligentes avec ce genre de modèle et puis ensuite simultanément aussi une vague d'intérêt pour les réseaux de neuron multicouche parce qu'on avait trouvé une méthode qui s'appelle la rétropropagation gradient pour entraîner des systèmes multicouches ce qu'on savait pas faire les années 60 et donc ça a ouvert euh toute une communauté qui a commencé à travailler là-dessus et puis au bout de 10 ans dans le milieu des années 90 un peu tombé en désétudes parce que ces systèmes là étaient difficile à faire marcher les ordinateurs étaient pas puissants on avavait pas beaucoup de source

de données et cetera c'était avant l'Internet et ces techniques là sont réapparu c'est ce qu'on appelle le Deep learning maintenant mais ça a prit 15 ans euh et et donc ce sont des vagues après vagues après vagues après vagues toi tu en tu en as sur fait quelquesunes finalement VO bah oui finalement et et donc des vagues où on se dit ça y est maintenant on a trouvé le secret de l'intelligence d'ici 10 ans on aura des machines aussi intelligentses que les humains et puis on s'aperçoit que finalement ces techniques sont limitées donc les LLM

font partie de ça aussi c'est il il y a une vague il y a une vague d'intérêt maintenant donc qui va retomber on va s'apercevoir leur limitation on s'en est aperçu déjà et puis la question c'est on travaille sur la prochaine vague est-ce que ce que tu me dis là c'est pas débattu c'est-à-dire que sur le LLM notamment quand on voit les millions investis un peu partout les milliards pardon investi euh diz milards dizaines de milliards euh alors il y a probablement je le disais du fait que beaucoup de gens l'utilisent réfléchi autour des cas

d'usage qui vont être intéressants par le LM mais le fait que l'intelligence artificielle général je crois que tu aimes pas trop ce terme mais peu importe ou de de voilà arriveord par le LLM tout le monde est d'accord c'est pas ce sera pas le cas alors non tout le monde n'est pas d'accord il y a des questions un petit peu philosophiques derrière donc des des philosophes qui travaillent sur philosophie de la connaissance et cetera l'épistémologie et autres les questions de la conscience qui qui disent peut-être qu'on peut construire un système intelligent entraîné purement sur le

texte on n pas peut-être pas besoin de d'entrée sensoriel ils ont comme la vision euh pour construire un système intelligent mais c'est c'est une question conceptuelle même philosophique assez intéressante dans le domaine tous les gens qui viennent de de l'IA par l'intermédiaire de la vision recnaissance de la parole sont tous absolument convaincus que les LM sont insuffisants et et on on pourra pas arriver à l'intelligence humaine sans avoir une une sorte de de de de de perception sensorielle disons euh par contre les gens qui viennent de du traitement de la langue ou des luist eux

donnent beaucoup d'importance à la langue et pensent peut-être que c'est tout ce dont on a besoin h certaines personnes disent oui mais en fait on peut traiter les images comme le comme la langue ça marchera et cetera bon il y a eu des expériences là-dessus qui on pas très bien marché moi j'y crois pas du tout on a même des des projets à faire qu'on a arrêté en fait parce que c'était un petit peu dans cette direction là et on pense que ça marche pas on a des projets aussi justement d'entraînement de système d'autosupervision paronstruction

en utilisant des modèles génératifs donc dans lequel on prend une image on fait une corruption une transformation de l'image ou une vidéo et on on entraîne le le système à à reconstruire ce qui manque dans l'image et on a arrêter aussi parce que ça marche pas bien pour se focaliser justement sur ces architectures de J beding les JEP parce qu'on a beaucoup de données expérimentales qui montrent que l'apprentissage autosupvisé avec des du joint beding ça marche ça marche bien on peut apprendre des belles représentations il y a un projet d'ailleurs qui sort de de faire

Paris qui s'appelle Dino qui est utilisé par beaucoup de gens qui permet en fait de de d'encoder des images euh quelle que soit l'utilisation qu'on veut en faire si on veut faire la reconnaissanceobjet l'analyse image médical euh on avait un projet même euh en collaboration avec des gens en externe dansquel on prenait des euh donc c'était dirigé par Camille coupri à fer Paris on prend des des des images euh satellitaires euh du monde entier et ce qu'on voudrait c'est pouvoir estimer la hauteur de la canopée des des arbres HM euh parce que ça permettrait de

d'estimer la quantité de carbone qui est capturé en fait dans la végétation et pour certaines régions du monde on a l'information de la hauteur de la canopée parce que des avions sont passés avec des radars et cetera donc on a l'information donc on entraîne un système de de vision artificielle après dire la hauteur de la canopée euh on n pas assez de données pour entraîner un système complet donc euh on fait passer les les images à travers ce système d'extraction de caractéristiques qui s'appelle Dino et ensuite on entraîne un petit réseau deurone dessus à prédire

à la hauteur de la canopé à partir de ces euh de ces représentations et ensuite on peut l'appliquer à la terre entière et avoir une estimation de la totalité du carbone capturé dans la végétation dans le monde entier et donc voilà c'est une exemple un exemple d'utilisation de Lia pour pour le l'étude du climat et le le LLM alors ce ce qui est intéressant c'est que je comprends bien moi tu vois maintenant potentiellement la limite je sais pas sur quoi bosse d'ailleurs Tesla mais le tu vois te dire si en effet euh le capteur du

d'une voiture automatique capte tellement d'informations non nécessaires et puis savoir laquelle est nécessaire en fait voir alors c'est vrai qu'on a vu des choses impressionnantes quand on voit sur trois voitures de vent euh un frein mais ça ça semble ass potentiellement assez simple enfin la lumière rouge mais si elle est pas rouge et si c'est un autre et voilà mais être capable de de de de de comprendre et de de d'avoir du discernement pour se dire ça c'est une information intéressante ça çaen a pas une en fait c'est c'est c'est c'est infini oui mais donc

cas de de Tesla WeMo et autres donc les systèmes de conduite autonome et puis il y en a chez DAMB qui sont faits par NVIDIA un des un des des des acteurs dominants dans le domaine est une entreprise israélienne qui s'appelle mobile c'est eux qui font les grande partie des systèmes de freinage automatique de conduite automatique sur l'autoroute et cetera euh ces systèmes là trichent un petit peu c'està-dire que ils sont entraînés de manière supervisée en grande partie euh c'est qu'on les entraîne à détecter des voitures plein d'images sur avec des dash cam et puis

on a des des gens qui disent là il y a une voiture là il y a un piéton là il y a un vélo et cetera ils sont à telle distance on peut aussi collecter des des images venant de de lidar donc c'est un espèce de radar laser qui la distance ou avec la stéréo c'estàd avec deux caméras on peut par par triangulation estimer la la distance et et ensuite on entraîne un réseau neurone en fait à faire cette ces prédictions en fait en général c'est des réseaux conutifs c'est un peu mon invention qui date

de 35 ans euh et et qui qui détecte les objets qu'on a besoin de détecter donc donc là la tâche de savoir ce qui est intéressant ou pas en fait a été faite par les les les les humains qui ont décidé de de détictter certains objets c'est il y a pas de langage là-dedans donc il y a pas de langage du tout euh ensuite il y a une fois qu'on est détecté où sont les obstacles qu'il faut on peut aussi détecter essayer de faire une carte de des des espaces qui sont traversables par et et

ensuite on peut essayer de planifier une trajectoire qui fait que on va pas se cogner dans un un autre obstacle qui tir partie de la dynamique de la voiture angle du volant confort des passagers et cetera et euh c'est comme ça qu'on fait des voitures autonomes mais c'est on a besoin d'équipe de centaines d'ingénieurs en fait pour tirer parti tous les les cas particuliers donc on a par exemple un truc qui détecte détecte un vélo bon c'est très bien si on a un vélo qui est euh de profil euh bien sûr et qu'on a une

voiture on s'en rapproche on va se cogner dans le vélo donc il faut freiner maintenant il y a des gens qui mettent leur vélo sur le haillon de leur voiture qui le suspendent parce qu'il transportent leur vélo que doit faire un système de pilotage automatique dans ce caslà il va il va avoir peur et dire oh my god je vais renverser ce vélo je dois freiner c'est la fameuse image de qui était juste même mourir de rire mais de ce type qui je crois que c'était un mec qui réveille sa femme il est derrière un

camion qui transporte lui-même des camions et le camion est à l'envers et puis tout d'un coup il se met à hurler et puis la femme elle l'ouvre ah et en effet tu dis ben oui si tuas tu vois un camion qui t'arrive dessus enfin ouais ça pose en effet c'est pas facile non puis il y a des cas de des tas de trucs comme ça donc Tesla se posait la question est-ce que pour améliorer la fiabilité en plus des caméras on pourrait utiliser des radars donc dans les premières Tesla avec des radars ouais et ce

qui permet d'estimer la distance des des choses devant mais les radars c'est pas parfait parce que euh les radars on est obligé en fait d'enlever tous les échos du radar qui viennent d'objets qui sont fixes donc les radars ne peuvent détecter que des voitures qui bougent et il y a eu un accident très célèbre de Tesla où un camion euh bien blanc était en travers de la route euh et donc pas détectable au radar parce que le radar enlève les objets fixes qui ne qui ne bougent pas par rapport au fond euh et la caméra

était un peu hypnotisée par le le euh par le camion blanc et donc a pas vu le camion et la Tesla est passé sous le camion et décapité la voiture quoi et le conducteur donc bon donc ça c'est des cas rare et qu'il faut il faut des des équipes de centaines d'ingénieurs qui collectent des milliers d'heures de données des dizaines de milliers centaines de milliers d'heures de données pour essayer d'avoir des événements rares comme ça et de les traiter séparément et donc comment se fait-il que un adolescent peut apprendre à conduire en 20h h on

n pas les techniques de pour pour ça he c'est clairement il nous manque quelque chose hein donc la compréhension du du du monde une espèce de physique intuitive un certain sens commun qui permet au non seulement au aux adolescents de 17 ans d'apprendre à conduire mais même un en routant un en routant peut apprendre à conduire on a plus beaucoup de temps alors je vais pas tropenir mais moi je trouve ça passionnant je pourrais y passer des heures encore euh il y a des choses qui te font peur dans l'a euh oui il y a

une chose qui me fait peur c'est euh c'est pas trop l'IA elle-même c'est plutôt la la direction que pourrait emprunter le le le marché de l'IA c'estd qu'il y a un futur dont j'ai parlé précédemment dans lequel toutes nos interactions avec le monde numérique se feront par l'intermédiaire de d'assistants il a qui résideront dans nos smartphones nos lunettes intelligentes tous nos instruments portable et on va pu s'adresser à un moteur de recherche on va juste poser les questions à not assistant euh à un certain moment dans le futur ces assistants auront l'intelligence de niveau humain

peut-être pour certaines tâches supérieur à l'humain alors il faut pas en avoir peur parce que travailler avec des gens plus intelligents que soi c'est bien euh j'en suis le j'en ai jamais fait l'expérience malheureusement bah ben moi en fait j'ai fais que ça je fais que qu'ember des gens qui sont plus intelligents que moi aussi non mais bon on peut se représenter bien sûr si on est euh je sais pas euh leader directeur euh bien sûr non académique dans l'industrie ou politique certainement en politique on travaille avec un staff qui est en général composé des

gens qui sont plus intelligents que nous he ou qui ont une expertise différente de la nôtre et qui peuvent nous nous conseiller sur des points importants donc il faut pas se sentir menacé par euh avoir à notre service des des des des agents intelligents plus intelligents que nous au contraire ça va amplifier notre notre intelligence j'ai j'aime bien essayer de dire de manière un peu optimiste avec des étoiles dans les yeux que ça pourrait mener à une espèce de de nouvelle renaissance un petit peu ce qui s'est passé avec l'invention de l'imprimerie au au 15e

siècle où ça a suscité l' inérêt pour les gens de d'apprendre à lire et puis ça disséminer les idées de la philosophie du rationalisme la démocratie la science et cetera et puis am mener la révolution française américaine le le la destruction du système féodal et cetera bon c'est vraiment des révolutions importantes hein ouaiis euh et il est possible que lia grâce au fait qu'il va augmenter l'intelligence humaine va apporter une espèce de nouvelle renaissance aussi un renouveau en fait de euh de de un nouveau siècle des Lumières amplifié donc ça c'est la la vision hyper

optimiste euh et c'est en partie grâce au pas forcément lia générative aux assistants mais au fait que l'a peut aider à faire progresser la science et la médecine beaucoup plus rapidement que ça a été possible jusqu'à présent y compris les LLM alors les LLM peuvent aider bien sûr mais c'est pas des systèmes par exemple qui prédisent la la le repliement des protéines pour essayer de de faire la conception de nouveaux médicaments des choses comme ça ou de comprendre un peu les mécanismes de la vie ne sont pas des des LLM mais par contre les architectures

qu'ils utilisent sont très similaires à celles ok transform ils sont aussi entraînés de manière autosupervisée en fait on a à faire on a fait des certains pionniers dans ce domaine donc traiter une séquence de d'acid aminé comme une séquence deomo c'est la même chose quoi OK et mais ces systèmes sont quand même spécialisés c'estàdire que ils sont faits pour spécifiquement calculer la conformation d'une protéin savoir si une une protéine peut se coller à une autre euh aider à la conception de nouvell protéines qui se collerai à certains sites pour traiter certaines certain certaines maladies et

cetera donc donc beaucoup tu dis là c'est ce sont des choses qui sont orientées ce que je veux dire peut-être que je vais prédire un peu la suite ou pas d'ailleurs je on va voir si je suis non mais tu peux l'orienter dans tes recherches sur plein d'univers donc peut-être des armes peut-être de la euh de la gestion des populations de la manipulation de plein de choses en fait non oui alors les choses dont on on pourrait avoir peur euh arriveront ou n'arriveront pas en fonction de la force de nos institutions démocratiques c'est-à-dire que par

exemple on pourrait aujourd'hui la la technologie existe mettre des caméras partout dans Paris et reconnaître les visages de tout le monde dans les lieux publics et ça existe dans certains pays et fliquer les gens ça existe dans certains pays autoritaires euh en France bien sûr ça serait une violation complète des des des lois sur la vie privée dans le ai Act de l'Union européenne il y a une loi spécifique qui contre ça on pourrait utiliser l'IA aussi pour des scores sociaux qui est un petit peu en Chine pour tout un tas de systèmes d'invasion en

fait de la des des libertés individuel mais on a des institutions démocratiques assez fortes qui qui vont empêcher ça ensuite pour la question des utilisations pour la pour la défense et l'armement certains de mes collègues un petit peu pacifistes dit il faut absolument interdire les armes à base a ça peut être dangereux et cetera et en fait ce dont s'aperçoit c'est qu'aujourd'hui il a commence à utilisé massivement pour la défense de la démocratie en Ukraine h les Ukrainiens se défendent grâce à des drones qui sont pilotés euh par des par des gens par radio quoi

et par vidéo mais la contreemesure que les Russes emploient contre ça c'est de brouiller les communications vidéo audio donc on peut plus piloter les drones il faut que les drones soient autonomes en fait pour aller faire sauter un tank ou un ou un canon et donc il travaille massivement sur ce genre de technologie ça utilise des technologies d'intelligence artificielle de reconnaissance des formes de des réseaux convolutif très probablement je suis pas dans le secrets et beaucoup de gens en fait certains de un de mes collègues Antoine bord en fait a quitter son son poste àire

pour rejoindre une entreprise franco-allemande qui s'appelle Helsing et qui travaille sur l'intelligence artificielle pour la défense ok euh et qui est un petit peu critique euh pour la défense européenne en fait il y a des des entreprises similaires aux États-Unis euh donc donc bon c'est pas forcément mauvais hein d'utiliser ce genre de technologie pour la pour la défense ça peut être ça peut aider à la défense de la démocratie et du monde libre euh contre le contre les le le les les régimes autoritaires d'e certaine manière euh mais euh ce qui est important c'est que

dans la mesure où dans le futur on va on va tous interagir avec le monde numérique à travers des agents intelligents on ne peut pas se permettre juste pour la défense de la démocratie que ces agents intelligents soient produits par deux ou trois entreprises sur la côte ouest des États-Unis il va falloir accès avoir accès à une très large diversité d'agents intelligents euh et la diversité serait pour le fait que ce système puissent parler une grande quantité de langues différentes y compris dialect euh et euh accès ou comprennent la culture locale euh les systèmes de

valeurs les biaiss politiques et cetera il est impossible de construire un système d'IA qui n'est pas biaisé h de même qu'il est impossible de faire un journal ou un magazine qui n'est pas biaisé au niveau politique ou opinion philosophique et cetera ou système de valeur et la solution qu'on connaît à ça c'est on va pas prendre ces nouvelles avec un seul journal ou un seul magazine on va avoir une diversité de de de journaux et de magazines qui nous va permettre de de de de choisir en fait un petit peu les billets peser de peser

et cetera d'avoir une diversité de sources d'information il va falloir que la même chose arrive pour les systèmes d'IA c'est-à-dire que les assistants virtuels devront être de de sources très très diverses et ça ça ne peut exister que si on a des plateformes Open Source euh parce que on ne peut pas spécialiser on peut pas enseigner un système propriétaire de parler wallof ou une des des 500 langues vu aujourd'hui ou voilà en en ou ailleurs euh il faut que les systèmes so open source pour que les gens dans les communautés locales les gouvernements les associations

les les petites boîtes puissent en fait affiner ces systèmes et offrir une très grande diversité de de systèmes spécialisés donc meta a a été résolument pris la décision en fait de de d'OP sourcer ces ces modèles d' en partie pour cette raison je pense que pour moi c'est la la raison principale mais aussi pour la raison que ça fait progresser le domaine plus rapidement si on open source ça rend des systèmes euh plus euh sécurisé d'une part on trouve les bugs plus plus plus facilement s'il y a plus de gens qui regardent euh ça essè

une industrie complète qui n'existerait pas sans les sans les systèmes open source il y a 600 start-up de Dia aujourd'hui à Paris elles utilisent presque t des modèles des modèles Open Source donc donc c'est vraiment important et donc le danger c'est que à cause de lobbying de peut-être de réglementation peut-être de de dynamique du marché qu'en fait le marché soit capturé par deux ou trois entreprises et qu'on ait pas accès à une grande diversité de d'assistants d' je pense que c'est ça le plus gros danger à court terme puis a des dangers plus petits mais

qui sont plus anciens est-ce qu'on peut utiliser l'IA pour disséminer la désinformation des fake news et cetera mais ça en fait c'est pas des nouveaux problèmes on sait déjà un petit peu les les contrôler ah ouais Facebook et j'imagine vous vous êtes vous êtes au cœur de plutôt oui de de ces chosesl en effet c'est intéressant de voir ça aussi avec la masse de données euh et ça utilise l' massivement j'imagine bah oui j'imagine parce qu'on a vu en effet tous ces reportages sur notamment la en fait le contrôle de des choses qui sont postées

C les données sont tellement énormes que en fait il y a un chiffre qui est vraiment important fin 2017 on a fait une statistique on a essayé de voir quel donc de détecter toutes les tous les les les contenus de de discours de haine sur Facebook et on a des systèmes automatique d'intelligence artificielle mais assez primitive fin 2017 qui supprime automatiquement le discours de haine avant que qui qui que ce soit ne les voit et la proportion de discours de haine supprimé automatiquement était d'environ 23 % si je me rappelle bien h euh dans C

dernier trimestre 2017 ça veut dire que les autres euh le reste là les les 77 % étaaient en fait euh publié sur Facebook et puis ensuite allé par des utilisateurs et ensuite examiné par des modérateurs humains qui décidaient de les de les supprimer en étant discours de haine ces discours de haine sont illégaux en Europe certains on peut pas faire la propagande néonazie et cetera c'est pas illégau aux États-Unis mais on applique un peu les mêmes règles partout et ce pourcentage fin 2022 donc 5 ans plus tard est passé à 96 % incroyable et la

différence c'est les Transformers avec apprentissage autosupervisé c'estàdire exactement la même technologie qui est utilisée dans les LLM a été en fait a amélioré ce genre de de score d'une manière absolument incroyable depuis donc 2017 les Transformers ça date de 2017-28 apprentisage aut supervisé généralisé à peu près la même époque et en fait ça a permis d'entraîner comment par exemple détecter que des gens s'échange des arguments pour s'entretuer dans une région où il y a une guerre civile qui parle un dialect local qu'on parle pas que aucun des modérateurs humains ne parle parce qu'ils sont dans

un pays où on peut pas s'installer parce que le gouvernement nous aime pas enfin bon donc c'est c'est vraiment compliqué de faire ce genre de modération contenu mais grâce au au au transformer avec apprentissage autos supervisé maintenant on peut entraîner ces systèmes là à comprendre à peu près n'importe quelle langue dans le monde et donc faire en sorte que les gens s'entretuent moins on peut pas malheureusement avec les réseaux sociaux empêcher que les gens s'entretuent on voudrait bien mais on n pas cette super puissance et et puis protéger le processus électoral les élections la démocratie

et cetera on avance d'une d'une élection il faut un peu essayer de calmer le jeu quoi que les gens se s'aiment pas les zanis et cetera j'ai deux questions avant de te laisser partir une très rapide je alors tu as un livre qui vient de sortir qui s'appelle quand la machine apprend si tu avais toi un livre à me recommander ce serait lequel alors en fait ce livre é écrit il y a presque 5 ans maintenantok mais j'ai vu que tu le signais hier à vivateek alors je me suis dit bon je Tu pe-être un

autre livre plus récent de ta part déjà alors alors donc ce livre ce livre est sorti en 2019 ok en français je l'ai écrit en français j'ai eu de l'aide édité chez audil Jacob et et l'année dernière enfin il y a quelques quelques mois on a sorti une version poche ok c'é relativement récente très bien et effectivement j'ai fait une une séance de de dédicace de dédicace casse à vivateek on a dû couper la la queue enfin il y a 1 heure et demi queue enfin bon euh il y a il y a beaucoup trop

de gens qui étaient donc j'ai un fan club je suis pas président et on les invite on les on les salue sis sont là enc salue je je les salue je les remercie j'ai entendu plein d'histoires très émouvantes de gens qui qui m'ont dit j'ai lu votre bouquin et ça a changé ma vie j'ai complètement changé ma carrière je me suis mis à apprendre lia tout ça j'aiécris une star j'ai repris des études donc c'est c'est très émouvant elon m euh il en a I il avait été me recruter mais ça pas marché ça fait

longtemps euh et donc donc c'est c'est c'est émouvant enfin c'est de de savoir quel impact on peut avoir alors c'est un petit peu compliqué pour moi viv parce que je pouvais pas faire 5 M S les gens me demandent de faire des selfies avec eux mais c'est pareil je trouve ça charmant voilà euh mais [Musique] euh j'ai perdu le fil un livre que tu aurais à me recommander ça peut être peu importe Jez que tu es dans plein d'autres choses tu fais de la musique j'ai vu que tu faisais du modélisme tu as un site

de modélisme avec on voit ton fils Kevin c'est ça bon c'est un site un peu ancien ouais ouais c'est ça à mourir de rire mais mais je me demande comment tu as le temps de faire tout ça toutes ces passions dont tu me parlais tu es arrivé tu me parles de mes caméras tu me dis je sais pas comment tu fais tout ça j'aurais pu rentrer là-dedans mais on a plus le temps mais donc un livre qui t'a marqué si tu avais l'opportunité d'offrir un livre à tout le monde serait lequel euh ça peut-être te

surprendre mais c'est un petit livre écrit par Richard Feman ok qui s'appelle QED ok qid en anglais je sais pas si une traduction française de ce livre je pense que doit y en avoir une donc ID ça veut dire quantum electrodynamics donc électrodynamique quantique et feem a ce don d'expliquer en terme très simple des concepts extrêmement compliqués de physique quantique et ceera et d'expliquer en fait des phénomènes qu'on observe tous les jours donc pourquoi par exemple quand on met un film d'huile sur sur de l'eau ou sur une surface plate on voit des des hidesence

coloré tu es en train de m'ouvrir le le truc de la physique quantique et de Lia mais je je vais pas aller là-dedans parce que je vais me faire je vais me faire gronder après Paron ok je vais dire deux mots je ne crois pas à l'application du calcul quantique alia et en fait je suis très sceptique sur le calcul quantique ok très bien euh on on en fera un débat avec avec nos amis de Pascal al voilà exactement je il y a quelques jours dans un prochain épisode euh c'est intéressant cette question que je

pose à chaque fois quand même à mes invités mais je pense que chez toi elle pourra avoir une autre portée euh parce que parce que Ben en effet tu as appris plein de choses depuis si tu avais l'occasion tu es passé par ton doctorat tu l'as fait où Pierre Mercury ça s'appelait pi pierre Mercury à l'époque maintenant ça fait partie de Sorbonne Sorbonne si tu avais l'occasion je sais pas moi au moment de croiser Yann Lequin au moment de l'obtention de ton doctorat et te dire quelque chose tu pouvais glisser un mot derrière Laurel qu'est-ce

que que tu te dirais à ce momentlà je me dirais si tu vis aux États-Unis tu vas apprendre que tu devrais pas avoir de complexe complè infériorité euh parce que tu es pas allé dans une des deux ou trois écoles stford ou même en France normal Sud Polytechnique central j'ai fait une école s'appelleess qui qui est une bonne école mais qui est pas dans les dans les super top dans la l'espèce de hiérarchie auquel on croit ou pas mais dans lequel j'ai appris plein de choses en fait donc qui a été très bien pour pour

moi et et d'ailleurs je suis dans leur conseil scientifique maintenant je président du conseil scientifique de laessier c'est une bonne école mais donc g n'est pas complexe j'ai ça quelques années plus tard à à Bell laabs où je me suis aperçu en fait que aux États-Unis on on enseignait au aux jeunes et aux étudiants de ne pas avoir de complex infériorité de pas hésiter à poser des questions stupides de pas hésiter à à se lancer dans des domaines dans lequel on on a pas de diplôme on n'est pas nécessairement spécialiste et cetera donc je me

suis un petit peu essayé la physique par exemple dans les premières années où j'étais à Bell laabs parce que une grande partie du du labo dans lequel j'étais étit constitué de physicien et donc j'ai écrit deux ou trois articles publiés dans dans des journaux de physique sur des physique un petit peu fondamental et et et en fait faut il faut être ambitieux avoir l'ambition c'està-dire se se fixer un but à à très long terme qui pour moi a toujours été découvrir le mystère de l'intelligence et en tant qu'ingénieur aussi construire des machines intelligentes parce que

je pense c'est la seule manière de valider si des idées abstraites en fait fonctionne décrypter un peu comment les l'intelligence a émergé chez les humains chez les animaux et part en le reproduisantit dans les machines et et et ensuite essayer de voir quel quel chemin je peux prendre quel quel pas je peux faire en avant vers ce but à long terme et évidemment remplir ce but à long terme peut prendre 10 20 30 40 ans mais euh on peut faire des progrès qui à la fin auront en fait un impact à relativement court terme donc

par exemple comment construire des machines intelligentes construire des machines intelligentes on peut soit les concevoir qui-même soit faire en sorte que ces machines se conçoivent par apprentissage ce qui est un peu l'idée donc très rapidement je me suis dit je suis pas assez intelligent pour construire des machine intelligente par contre peut-être si elles peuvent apprendre ce qui est le cas de tous les êtres vivants peut-être elles peuvent par autoorganisation en fait devenir intelligent donc l'apprentissage et machine c'est vraiment le truc qu'il faut qu'il faut essayer d'attaquer euh donc j'ai regardé la littérature qui s'arrêtait dans

les années 60 parce qu'il y a eu des des des échecs sur les limitations et je me suis dit mais mais quand même ça a l'air intéressant comme conseil faut essayer de pousser donc comment entraîner comment résoudre le problème qui avait pas été résoulu à l'époque d'entraîner des des réseaux neurones à plusieurs couches puis j'ai trouvé une idée qui était très similaire à ce qu'on appelle maintenant la r rétropréaration gradient puis je me suis aperçu qu'il y avait deux trois autres personnes dans le monde qui s'intéresse aux mêmes choses donc dont Jeffrey Hinton et quelques

autres et puis bon quand j'ai fini mon doctorat là-dessus je suis allé travailler avec lui pendant un an et puis j'ai développé euh euh donc les réseaux convolutifs qui sont des architecture de réseau neuron qui sont un peu inspirés de la la biologie de l'architecture du du cortexte visuel parce que je me suis dit la première chose qu'on peut faire avec ces trucs là c'est essayer de faire la reconnaissance d'images reconnaissance des formes h et à l'époque les seules images pour lequell on avait des bases de données pour lesquell on peut utiliser l'apprentissage c'était euh

des des chiffres ou des lettres euh scanné d'accord en informatique tu ve dire qu'on qu' avait été numérisé il y avait pas toutes C il y avait pas de photoos il pas de vidéo il y avait pas de caméra USB il y avait capturer des images dans les ordinateurs c'était vraiment compliqué il fallait acheter des gros trucs très chers et mais bon il y avait des projet un peu comme ça parce que ça intéressait la Poste d'automatiser le le le la reconnaissance VO des codes postaux et puis ça intéressait les banques de reconnaître les chiffres

sur les sur les chècs et cetera euh donc finalement il y avit un petit peu de données on s on s'est attaché à essayer de voir la performance de ces systèmes mesurer la performance de ces systèmes pour ce genre de tâche de reconna connaissance de de chiffres et ça ça marchait extrêmement bien euh et donc c'était un petit pas et puis là immédiatement etnt donc l'entreprise qui chapautit Bell Labs on a créé un projet pour commercialiser ça donc faire un système de lecture de chèque de lecture de formulaire d'inscription il y avait pas l'Internet hein

c'était on parle de 89 90 et et donc il y a eu des applications à court terme qui ont qui ont eu un impact mais le but était pas de faire la cononnaissance de caractère le but c'était construire des machines intelligentes euh et et puis bon on a développé ça puis finalement l'intérêt de la communauté pour ça a un petit peu diminué dans les années 90 don j'ai fait autre chose entre 96 et 2002 je me suis remis à peu près en 2002 et et puis et puis là avec Jeff Hinton et Yoshua Benjo on

s'est dit il faut absolument ravivier l'intérêt de la communauté pour sa méthode parce qu'on sait qu'elle marche et les raisons pour lesquell la communauté pense qu'elle marche pas en fait sont fauses donc on s'est attaché à à l'idée de de montrer qu'elle marchait quoi et puis de trouver nouvelle méthode et c'est ça qui a qui a causé la réapparition du des réseaux neurones et du Deep learning euh et en partie grâce à la disponibilité d'ordinateur beaucoup plus puissant qu'on avait à l'époque et puis de base de données j'aiin pH voilà texte grâce à l'Internet et

qui n'existait pas dans les années 90 bien sûr et grâce aux réseaux sociaux ensuite et grâce au réseaux sociaux ensuite bon je crois qu'il est temps que je te laisse filer euh euh merci y c'est tu sais c'est pour c'est pour ce genre d'échange que je fais ce podcast euh parce que parce que j'ai envie de comprendre où est-ce qu'on est où est-ce qu'on en est euh sans jugement sur est-ce que c'est bien ce que c'est pas bien tu vois là aujourd'hui j'ai j'ai quand même vraiment l'impression de comprendre plus de choses beaucoup plus de

choses donc je te remercie j'espère que comme l'exprman j'aurai l'occasion d'en avoir plus de Yan Lequin peut-être une ou deux fois plus tard on viendra à New York s'il le faut en tout cas je serai ravi et puis euh et puis écoute ben je suis impatient de voir la suite et puis de pouvoir tester un peu tous ces euh toutes ces applications que j'avais pas j'ai pas encore testé chez chez ma en tout cas d'accord et puis euh peut-être si on fait effectivement des progrès tels que je les ai décrits là dans dans l'année qui

vient on pourra avoir une autre une autre session j'espère que ça va être utile à tes auditeurs je suis sûr que ça sera utile je pense que ça créera des vocations aussi chez des dev et chez des personne et puis ça va permettre de comprendre je pense beaucoup de choses parce que beaucoup de personnes parlent pas l'anglais je pense que le l'audio est un un moment important dans dans ces compréhensions tu vois d'avoir la durée là qu'on a eu c'est enfin vraiment quelque chose de de très important donc merci beaucoup on suis sur Linkedin où

est-ce que tu publies un peu euh je publie un peu partout sur sur linkinkedin sur alors pas beaucoup sur insta plutôt sur threads qui est en fait insta ok fait euh mais j'aime bien j'aime bien le texte insta ça c'est un peu trop un peu trop centré sur la photo euh donc sur sur threads enfin Instagram threads sur sur X sur LinkedIn et sur Facebook et sur Facebook en fait les discussions sont plus intellectuelles que sur les autres plateforme intéressant don x c'est plus enfin x Twitter c'est plus news rapide et puis des gens qui

qui qui sentre qui s'entretue mais euh Facebook c'est plus intellectuel euh et puis linkeding c'est un peu plus professionnel mais j'ai beaucoup de j'ai sur X et linkeding je crois j'ai 700000 followers sur chacune des deux et puis STR c'est une nouvelle plateforme c'est un peu intéressant intéressant j'y suis pas assez en effet mais tu vas tu vas peut-être pas quand même réussir à me faire revenir sur Facebook on sait pas on sait pas peut-être si tu me dis que c'est plus intellectuel mais c'est possible en fait j'y suis toujours mais j'y vais assez peu

parce que j'ai peu d'usage merci Yan le cas on de su partout euh merci aussi à violen Gressier qui nous a aidé à faire ça merci Anne Sophie de nous avoir permis de faire tout ça aussi et puis à Julien codornew qu'on embrasse qui est tellement important pour génération du tursel qui n qui nous aide à avoircoup d'invités qui écoutent et qui fait ses retours qui m'aide à progresser donc on t'embrasse Julien aussi violen tout le monde merci Yan salut à plus et si vous êtes nouveau sur Génération tur self je demande à chaque fois

mais il y en a plein qui l'ont pas fait appuyez sur follow appuyeer sur like et partager cet épisode à deux personnes euh qui seront intéressé et j'espère qu'il est assez compréhensible pour tout le monde en tout cas il a été pour moi et comme j'ai bossé contrairement à ce que j'ai dit avec beaucoup de personnes je crois que je ne bosse qu'avec des gens plus intelligent que moi je me pose des questions d'ailleurs et bien euh et bien vous devriez le comprendre aussi à plus salut merci beaucoup [Musique] [Applaudissements]