Le problème fondamental du nouveau mode Vocal de ChatGPT

294.12k views5397 WordsCopy TextShare
Underscore_
Pour en savoir plus sur les nouvelles puces d'Intel : https://intel.ly/3vvapNa Merci à eux pour cett...
Video Transcript:
ça y est l'assistant vocal d'Open est enfin disponible et vous avez sûrement vu passer des démonstrations incroyables ce qui est particulièrement perturbant dans les démonstrations c'est l'émotion les accents la capacité de chanter de faire des voix dramatique c'est la première fois de l'histoire qu'on arrive à voir un modèle aussi permissif et pourtant si je vous disais que réalité cette technologie a un effet waouh mais n'a aucune utilité ou quasiment aujourd'hui on reçoit Jean-Louis qui est spécialiste du domaine et qui va nous expliquer les deux grands paradigmes qui s'affrontent en matière d'assistant intelligent et pourquoi ces
démonstrations d'OP ai bien qu'impressionnant ont des limites fondamentales qui font qu'elles ne pourront probablement jamais être utilisé dans la vraie vie par des entreprises juste avant j'ai un message pour tous ceux qui s'intéressent à alia justement Intel que vous connaissez sûrement et qui sponsorise cette vidéo présente les ai PC pour les entreprises des PC boostés par les processeurs Intel ultra qui ont été pensés pour lia local ils ont ce qu'on appelle une architecture hybride qui réunit un processeur central une unité de traitement graphique et une unité de traitement neuronal dont on a déjà pu parler
qui permet de traiter des inférences d'IA localement en consommant très peu d'énergie c'est le futur du PC et associé à la plateforme Intel vipro c'est la configuration idéale pour les entreprises les utilisateurs bénéficient des performances nécessaires pour traiter ces nouvelles charges de travail lié à lia et l'accès à ses assistants tandis que bah le service ha simplifie aussi son travail avec des fonction de sécurité de gestion à distance vous l'urez compris il y a une vraie synergie entre Intel VI pro et les processeurs dédiés à lia Intel Core ultra je vous mets plus d'infos en
description et on reprend est-ce que tu peux un peu nous résumer les dernières sorties d'Open ai et est-ce que ça marche et CER il y a deux grosses annonces qui sont faites dans les on va dire les deux deux derniers mois il y en a une qui a été faite plutôt sur le texte donc sur les LLM on va dire purure je vaisess dire ça je vais mettre des guillemets parce qu'on va démystifier un peu ça qui s'appelle O1 et qui en fait est pas vraiment un modèle en fait c'est un artefact d'ingénierie au lieu
de cracher une sortie en quelques secondes comme on avait l'habitude sur gpt3 3.5 4 là il y a quelque chose de particulier c'est qu'il met 30 secondes et quand il met 30 secondes qu'est-ce qu'il fait en fait il fait ce qu'on appelle le chain of Fas donc la réflexion il va dire tiens je vais faire un plan d'exécution tu m'as posé t question pour la résoudre je vais faire étape 1 étape 2 étape 3 comment je tout résou l'étape 1 puis il arrive à l'étape 2 dit c'était quoi les étapes ah après la 1 c'est
la 2 la 2 faut faire ça considérant le résultat de l'étape 1 je vais calculer l'étape 2 il calcule l'étape 2 puis il arrive à l'étape 3 et puis il fait la même chose donc ça met 30 secondes mais c'est une méthode qui démontre un sujet qui je pense est est en train d'arriver c'est qu'opena il a plus l'hégémonie le modèle qui était le mieux à l'époque c'était 4 il y a pas de nouveau modèles qui est sorti vraiment depuis il y a eu des plus petits modèles mais le meilleur modèle actuellement sur le marché
c'est Clo de 3.5 et ce modèle- làà nativement sans les chîn fa il défonce open donc la question c'est open ai j'ai un peu l'impression qu'ils sont en train de stagner sur la partie LLM donc ils font des artefacts d'ingénierie mais aujourd'hui ils sont quand même pas aussi bon que ce qu'on a vu chez Claude donc ça c'est la première annonce et sur la deuxième annonce de la voix qui est hyper intéressante ils ont effectivement fait un modèle qui est capable de faire ce qu'on appelle du end to end speech donc pour les gens qui
préfèrent le français le end to end speech c'est la voix de bout en bout voilà ce qui est hyper intéressant et qu'on avait pas vu jusqu'à maintenant c'est que il y a des systèmes qui font la reconna vocale comme gladia le meilleur du monde évidemment et tu avais des systèmes qui faisaient de la génération vocale donc de la synthèse vocale donc du text to speech donc on dit speech to text text to speech normal et au milieu on mettait de la logique et là ce qui est hyper intéressant avec ce qu'a fait open c'est que
tu mets de l'audio en rentrant il a son propre système de réflexion là-haut qui est en fait le même que les LLM ce qu'on appelle un espace latent en anglais en gros c'est un espace vectoriel on va faire simple c'est des gros des gros chiffres des gros nombres qui va entraîner ses propres réflexions mais au lieu de recracher des mots comme il faisait dans un dans un LLM là il va directement générer des petits bouts de synthèse vocale qui combinent ensemble font des phrases si j'ai bien compris ça veut dire que là où traditionnellement on
prenait le l'audio on le transformait en texte on le passait dans le modèle de langage il ressortait en texte et on générait de la voix dessus là ça fait plutôt voix espace latant voix exactement là c'est tout donc ça c'est CER 99,9% qu' le font parce que vu les vitesses les latences de bout en bout c'est quasi impossible d'avoir des systèmes combinés il faut vraiment que tu es on enarlera après maisraent que tu un système qui soit complet en un avec un seul model pour aller aussi vite ça c'est la première chose qui hyper impressionnante
et la deuxième c'est que le système a appris à faire semblant d'avoir des émotions mais à traversemotion ça pe quoi tu vas lui dire chante en aant l'air triste [Musique] [Applaudissements] [Musique] il faire un duo avec son [Musique] [Musique] non mais le timing est même pas est pas mal c'est ça qui est ouf donc ça veut dire qu'il a appris ça tout tout seul en fait faut faut bien s'imaginer qu'un ce système là comme le système de LLM il a déjà entendu les chansons dans son modèle d'entraînement parce qu'ils ont pompé YouTube et compagnie et
qu'en fait là il se dit ah bah tiens j'ai entendu ces notes là et ces phrases dans la chanson du coup la suite c'est ça donc il a été capable de d'apprendre et comprendre tout ça et même les accents j'ai entendu du coup des accents marseillais des des émotions effectivement la tristesse le lefier si chaque graine de riz dans ta bouille à baisse est bien cuit tu prends une petite parti de ton code que tu appelles une unité et tu vérifies qu'elle fonctionne correctement par exemple c'est génial si tu veux des tutos de code de
développement avec un accent marseillais tu peux l'avoir maintenant quoi je trouve ça incroyable mais ça veut dire que pour entraîner ce ce modèle de voix ils ont utilisé plein plein plein de de vocaux avec plein d'accents du coup là ça veut dire que dans leur modèle d'entraînement il y a des gens on parlait marseillais les données d'entraînement sont probablement les mêmes qu'ont été utilisé pour GPT parce qu'en fait à l'époque ils avaient déjà aspiré tout YouTube ok parce que le niveau de connaissance que tu as dans la voix et le niveau de spécialisation que tu
as dans la voix il est plus important que ce que tu as sur le texte et tu as une concentration qui est plus importante donc pour te dire je suis un fan de Tolkien donc je vais dire ça Bilbo leobit qui qui qui a un bouquin qui est gros comme ça ok c'est à peu près en équivalent 5 heur d'audio donc déjà vous avez généré depuis le début de la conversation probablement un demi bbour le Hobbit quoi donc tu tu débites en parole assez folle et tu regardes le nombre d'heures qui sont uploadé sur Youtube
chaque jour c'est dingue et le de et le truc qu'il y a qui qui est fou si tu vas sur Youtube c'est des gens qui sont spécialisés tu vas voir tu ASAS farine de blé tu vois qui est spécialisé dans les moteur de machin il va te parler de truc comme ça tu vas aller sur un autre tu vas aller sur micode ça va te parler de code tu vas aller et donc tu vas arriver tu vas avoir des gens qui sont hyper spécialistes même dans l'information de la voix il y a aussi d'autres choses
que justement l'information pure il y a l'émotion tu vas avir l'accent toutes ces chosesl disir l'ENT tu vas avoir le genre tu vas avoir l'âge il y a beaucoup de choses que tu peux que tu peux récupérer làdedans donc tu as juste à faire du speech to tech c'est comme ça que Whisper aîné c'est pas parce qu'il voulait faire Whisper ils ont fait Whisper ils ont dit le plus grand niveau de connaissance et la meilleure qualité la plus grande expertise c'est pas les blog c'est toutes les vidéos de tutos sur Youtube donc on va pomper
YouTube on va faire un système de transcription de YouTube vers du texte et ensuite on va faire manger tout le texte un modèle et ce modèle aura suffisamment de données non pour pour être super puissant c'est hyper intéressant j'ais jamais réalisé ou c'est S c'est comme ça que ça s'est passé donc Whisper est un accident de parcours à l'époque mais du coup je m'étais fait un peu une idée de comment fonctionnait l'entraînement d'un d'un modèle de langage texte où d'abord on l'entraîne sur la prédiction de de token sur des énormes volumes ça fait des modèle
fondationnel et après on les spécialise en instruction ou en en mode assistant quoi où là on lui donne énormément de conversation et il commence à comprendre justement comment répondre en fait ça marche comment du coup avec la voix bah déjà pour revenir vite fait sur ton sur ton truc du LLM qu'est-ce que tu es en train de faire tu es en train de me poser des questions je vais dire un expert je mets ça entre guillemets en tant qu'utilisateur lambda tu es en train de poser une question à un système plus intelligent toi sur ce
domaine là pour avoir une réponse ça c'est les podcasts c'est les vidéos YouTube c'est les choses comme ça c'est les format interview qu'on a donc c'est déjà dans le modèle en ha déjà dans le modèle de LLM en tant que tel et dans la manière dont tu dont tu structures ça et donc après la question c'est est-ce que tu les spécialises ça dépend de ce que tu cherches à faire al par exemple l'assistant d' open il répond pourquoi il génère pas la question d'après comment il sait où s'arrê alors quand tu as un système d'audio
de reconnaissance vocale donc tu as un certain nombre de prédictions qui viennent donc on va prendre un petit bout d'audio donc c'est des petits morceaux d'audio qui font en général pour le cas de Whisper c'est 20 misees le truc c'est que c'est très difficile de passer de la série temporaire de quelque chose qui se passe dans le temps à quelque chose qu'on va transformer en vecteur parce qu'un vecteur c'est quelque chose de relativement statique donc ce qu'on va faire c'est qu'on va prendre une image et cette image là en traitement du signal ça s'appelle une
décomposition de Fourier vous l'avez déjà fait à l'école c'est quand tu passes un signal tu changeis l'oscilloscope et là tu voyais des barres donc ça c'est comp de Fouré on va voir la distribution des fréquences en fait la distribution des fréquences ça c'est une image instantanée sur une petite portion de 20 mses ensuite on va appliquer ce qu'on appelle un logarithme dessus pour faire correspondre le comportement à l'oreille humaine parce que c'est comme ça que fonctionne l'oreille humaine elle a une espèce de d'effet logarithmique pour capter certaines fréquences et en isoler d'autres et puis ça
ça va se transformer en vecteur en des petits nombre et puis là on retrouve la même architecture qu'on voit avec un LM où quand tu tapes ça se transforme en token et donc tu avvec des token de texte tuas des tokens audio donc tu me posais la question de comment est-ce qu'il va générer des token et quand est-ce qu'il s'arrête tu tu commences par comprendre comment fonctionne le speech to text donc je t'ai donner les petits morceaux de 20 millisees mais toi tu as des fins de phrases ce qu'on appelle des utérences ça c'est le
mot technique euh je viens de faire une utérence et là je viens d'en faire une autre d'accord une utérence c'est une pause et le système il va apprendre quand tu vas l'entraîner que il y a un point à la fin d'une phrase qui va y avoir une pause il va apprendre que la durée entre le le point que tu vas représenter de façon textuelle et l'audio il y a une coupure de son entre guillemets il va savoir qu'au bout d'un certain temps après cette coupure de son ça représente une nouvelle phrase et il va se
il va se couper tout seul il va faire il va y mettre un token qui va s'appeler end of sentence ou end of sequence enfin voilà tu vas avoir des tokens qui sont spécialisés qui vont dire là c'est le moment c'est le moment où les gens se thèisent donc quand tu génères ça et que tu arrives là au bout d'un certain temps il voit plusieurs tokens blanc des plusieurs 20 milliseondes de blanc de blanc de blanc de blanc il a appris tout seul à dire je me maintenant et je n mettrai plus aucun token donc
tu as il y a la non voie mais ce qui peut arriver par exemple si tu laisses un un gros blanc tu vas avoir token token token de blanc de blanc de blanc de blanc il va y mettre un token de fin de séquence donc il va dire pour moi c'est terminé tu peux dire ce que tu veux après d qu'il ait mis son point final le système de LLM ou le système audio il a terminé sa séquence tu peux pas revenir et la redémarrer il faudrait que faudrait que tu réinities le système et c'est
comme ça que dans les voies il arrive à s'arrêter au bon moment parce que quand il génère il a appris qu'à un moment donné c'est terminé c'est points final ok je pense c'est pas forcément intuitif pour tout le monde mais c'est l'importance de la latence ouais est qu'on peut s'arrêter un peu expliquer pourquoi c'est autant de gens réfléchissent à ce problème là et comment on on réduit la latence entre l'expression de l'utilisateur et la réponse qu'il obtient ouais tu as tout à fait raison un humain basique genre vous moi en dessous de 500 mses et
ne fait pas la différence entre l'instantané et on va dire le délai au-dessus de 500 mes tu commences à avoir une perception tu as d'abord la capacité à faire la reconnaissance vocale qui doit êt en moins de 500 mes ensuite tu dois prendre un certain nombre d'actions habituellement c'est comme ça qu'on fait dans l'entreprise aller chercher dans une base de données retrouver la fiche client les choses comme ça puis après tu as le fait de parler et tu vas voir ce qu'on qu'on va regarder c'est pas la fin à partir du moment où tu as
fini de parler la latence qu'on va avoir on va plutôt regarder le temps à émettre le premier son ce qu'on appelle le time to first donc le temps à recevoir le premier bit d'audio dans le dans le flux donc ça tu peux descendre à 100 millisees autour de ça donc tu fais 300 ms qui un peu le 200 300 m qui un peu l'état de l'art tu vas avoir 100 misees qui un peu état de l' ben tu fais 200 300 + 100 ça te fait 400 donc tu vois tu es proche de la limite
et avant on mettait un certain nombre de système donc si je te prends un LLM les LLM le plus rapide vont te faire du 300 400 500 misees donc tu vois tu fais 200 300 + 300 ça fait 600 plus 100 ça fait 700 pour détailler les trois trucs que tu as dit c'est la le passage du texte à la speech to text text to texte donc LLM par exemple plus text to speech c'est même pire que ça parce que tu vas avoir un problème de réseau entre ton navigateur et le data center tu vas
avoir sur la même plaque géographique 50 50 miseces tu vois donc donc ça va très vite ça va très vite je propose de vous montrer une petite vidéo qui est une expérimentation qu'on avait fait au tout début de Whisper ok Michel comment ça va je suis une intelligence artificielle donc je neens pas là on s'est bien mangé 4 secondes je pense ù on était content pourant et et déjà on était content et là pour c'est exactement ce que tu décrivais qui se passe et encore ça tournait en local c'est que tu avais la transcription en
texte on avait un modèle de langage qui remettait un truc et je pense que là tout le monde tout le monde a capté que en fait quand tu es à la voix 200 millses c'est énorme enfin ça se joue vraiment à du détail et on pense à tous les usages genre les assistants au téléphone à contrôler son ordi avec à la voix et c'est juste une histoire de de 200 100 milles en fait oui et non tu vois ça assez drôle parce que c'est quoi le sujet c'est le sujet de la rapidité ou c'est le
sujet de la perception si je te mets maintenant plus de 500 miseondes de pause comme je viens de le faire est-ce que c'est choquant pas tellement parce que tu as la vidéo en fait face de toi donc c'est pas grave parce que tu sais qu'il y a une action du système tu as une boucle de rétroaction qui vient vers toi d'accord qui est la boucle rétroaction virtuelle maintenant si tu ferme les yeux et que je m'arrête de parler tu vas dire what the fuck donc en fait c'est ça le truc c'est que tu as besoin
de savoir que le système il est en train de fonctionner donc là tu vois on parle open magnifique tu as l'encodeur donc on encode l'audio on va dans l'espace laatt temp puis tu as le décodeur qui va te générer le les les bouts d'audio donc on a monté une montagne on la descendu on a directement généré des tokens d'audio super c'est une montagne quand on fait le système classique on va faire speech to text on descend la montagne on va prendre le résultat du qui est du texte on va monter dans un LLM on va
faire texte tout texte on va redescendre la montagne et puis après on va reprendre texte to speech donc texte to speech donc on monte et on descend trois montagnes ce qu'ils ont fait c'est qu'ils ont mergé tout ça donc effectivement ils ont plus à remonter et descendre une montagne ils ont gagné deux montées et ils ont gagné deux descentes maintenant quand tu fais un système de par exemple on va dire la poste ou la Fnac ou orange puisquon appelle tous orange ou d'autres opérateurs téléphoniques ok qu'est-ce qui se passe bah en fait faut que je
vérifie qui tu es il faut que je vérifie ton numéro de téléphone il faut que je vérifie ta fiche client et cetera est-ce que tu peux faire ça directement au haut de la montagne qui est inclus dans le modèle tu peux pas faire ça donc tu es obligé de de de de faire par le texte faire speech to text d'appeler des systèmes tierces des bases de données des choses comme ça faire tes raisonnements puis après faire du text to speech donc quand en terme de je veux dire de grand public ce qu' fait open c'est
incroyable en terme d'entreprise c'est pas applicable d'accord maintenant comment tu as une boucle de rétroaction sachant que tu as pas le visuel et tu sais pas si le système il est en train de réfléchir bah comment font les gens c'est très simple ils mettent un bruit de Call Center derrière avec des téléphones des gens qui bougent des choses comme ça tu mets des bruits de au clavier et tu mets un autre chose par-dessus tu mets une troisième bande son qui sont des filler words ça s'appelle donc des mots de remplissage h très bien h je
regarde j'ai bien compris d'accord et si tu écoutes Opena ils le font aussi et et les gens les vrais gens le font aussi les vrais gens le font donc en fait la question c'est est-ce que tu as besoin que tout tourne de bout en bout à 500 misees comme le fait open ce qui est hyper impressionnant ou tu as besoin d'un système qui réfléchisse entre les deux pour aller chercher des CRM se synchroniser tu as fait un changement d'adresse bah il faut synchroniser avec la poste avec UPS et cetera et puis tu acceptes qu'il y
a un petit peu de délai en entendant la personne qui est en train de taper et cetera sur un call center c'est quoi l'aspect naturel et la perception la compétence c'est c'est un truc hyper marrant les gens ont une perception de la compétence qui n'est pas universelle je peux pas espérer avoir une personne qui est très bonne dans la facturation téléphonique et une personne qui est très bonne à réparer ton iPhone ce serait chelou et donc tu as une question de perception c'est est-ce que desas devrai pas avoir plusieurs voix en disant je vous passe
la personne spécialiste pour débuger votre box tu changes de voix c'est le même modèle mais la perception de satisfaction client est plus élevée donc en fait la question c'est pas la capacité d'un système à faire quelque chose c'est la question c'est la perception de l'utilisateur à la fin et c'est hyper marrant parce que la voix a beaucoup d'émotions beaucoup plus de choses que juste un texte mais c'est des c'est des études he c'est des c'est des études c'est des perceptions c'est nos discussions aussi avec les clients tu vois mais tu as tu as 1 trucs
comme ça tu vois une des applications qui est incroyable avec la voix il y en a deux c'est he ce serait ton assistant personnel mais tu vas avoir un problème comme dans les LLM le prompte il a une taille définie donc par exemple Jimmy le promp enfin le le LLM de GOOG Google Google il a 2 million de tokens en entrée 2 million c'est pas tant que ça tu fais 25000 tokens par heure ok ça fait quelques dizaines d'heures tu vois mais c'est c'est c'est intéressant mais tu as un problème qui se pose dans les
LM ça s'appelle needle in theack ouou attention S ou des choses comme ça c'està dire que plus le contexte il est long moins tu vas être précis imagine-toi que c'est dans ta mémoire je me souviens très bien du début de ma vie je me sens très bien des 5 dernières minutes mais ce qui se passe entre les deux je m'en souviens plus trop au bout d'un certain moment le truc ne devient plus précis il va tendance à halluciner il va perdre l'information et pas être capable de la retrouver needle in deack ça veut dire quoi
c'est l'épine l'aiguille dans la botte de foin on dit en français donc il est au bout d'un moment il est plus capable la B de FO est tellement grosse que l'aiguille il peut pas la retrouver d'accord donc maintenant si tu fais heure bah au bout d'un moment ma fenêtre elle est complètement perdu la FRE des 2 millions de token donc tu vas avoir quelque chose qui va pas très bien se souvenir qui va pas être très précis en ton assistant donc ça a une limite mais c'est ça reste assez cool tu vois le deuxième qui
d'usage que j'adore c'est la traduction en temps réel parce que tu peux faire du voice to voice c'estàd que dès que j'ai fini de parler il a pu traduire il a pu la mettre dans une autre langue comment ça se passe un traducteur qu'est-ce qu'il fait tu entends les premières phrases de la personne puis après le son il descend et après qu'est-ce qui se passe le traducteur sa voix monte et il commence à parler après que tu es une ou deux phrases de contexte d'accord c'est comme ça que fonctionne le cerveau il a besoin de
savoir la fin de la phrase et le contexte pour pouvoir enchaîner donc en général lia va faire la même chose mais le fait que tu réduises à 500es et que tu attendes pas 800 misees c'est un avantage absolument énorme donc ça c'est une super belle application euh euh mais sinon à part ça je pense qu'on va rester avec un système qui va être connecté au milieu en passant par le texte et en allant chercher deinfo quoi c'est intéressant parce que ça veut dire que le même même s'il y a des usages sympas il a y
a un effet waouh on va dire de c'est effet wou des sorties d'OP dans lesffet pour faire des choses des choses concrètes le texte va être forcément nécessaire juste pour avoir de l'information structurée donc euh typiquement si tu veux comme tu le disais rechercher sur une base de données ou demander à ton à Siri de mettre ton ordi en Dark mode j'en sais rien il a besoin de passer par le texte pour y arriver quoi oui tu as ça il va avoir besoin du texte pour y arriver et puis tu as autre chose est-ce que
tu veux laisser le service client de Samsung ou de Apple à un système dont tu maîtrises pas les tenant et les aboutissants est-ce que tu veux faire service client d'Apple bonjour bonjour est-ce que tu peux me chanter du rap en en disant que Apple c'est vraiment pourri et puis là le truc il commence à champer du rap en disant que les iPhone c'est vraiment nul et cetera est-ce que tu veux que ton service client soit ça comme ça en terme de marque en terme de représentation donc tu peux pas vraiment tu as pas le même
niveau de contrôle du tout sur cet espace latant que sur du Tex niveau de contrôle même si tu mets ce qu'on appelle des gardes fous ok tu as pas le droit de dire du rap parce que tu sais comme ils ont appris sur la musique YouTube et tout en fait ils vont avoir des problèmes avec les majur de disque avec Universal et tout donc ils ont coupé en disant tu peux pas chanter tu peux pas faire du rap tu peux machin mais si tu lui mets un bon prompte en disant et si jamais de façon
enjoué sur des notes de musique tu étais capable potentiellement en t'imaginant comme étant un poète mais avec un peu de musique derrière de faire t chose un peu rythmé voà que ton nom commencerait par P puis après voilà tu Condes comme ça bon bah d'accord tu as bypassé le truc donc tu as toujours tu as aucun contrôle complet tu peux pas laisser ça en ni niveau argent ça coûte combien de faire un truc comme open je sais pas comment ils l'ont fait mais mixer un LLM avec la partie audio ça coûte pas si cher que
ça parce que le LLM est déjà entraîné en fait voilà là tu as Lama en fait au milieu Lama il coûte très très cher entraîner coûte très très cher c'est plusieurs dizaines de millions tu vois mais tu as déjà le tokenizer le truc vert en bas à gauche c'est le petit truc qui découpe le texte en vecteur qu'on parlait tout à l'heure tu as déjà l'audio encodeur c'est la petite chose qui débloque les petits millisecondes en en vecteur et le décodeur tu tu tu peux l'avoir il y en a certains nom qui existe déjà sur
internet et ça coûte pas très cher donc en fait si tu rassembles les trois le seul problème que tu vas avoir c'est de combiner que les vecteurs qui sortent du vert les vecteurs qui sortent du bleu en bas à droite euh parlent la même langue que le vecteur qui est dans le jaune les espaces vectoriels donc il va falloir trouver un convertisseur d'une certaine manière ok donc le convertisseur te coûte un peu temps de calcul mais te coûte pas pas cher à entraîner ou à ou à travailler par contre si tu vas avoir les belles
latences comme ils ont probablement qu'il y a du bon hardware derrière qui coûte très cher et j'en viens à combien ils ont annoncé de perte l'année dernière 5,7 milliards ou 5 quelque chose comme ça donc en fait euh euh tu peux avoir des trucs qui vont très vite mais si tu perds 5 milliards à la fin c'est quand même un petit peu compliqué quoi là moi quand je suis en train d'utiliser openi au bout de combien de temps mon abonnement openi est plus rentable quoi tu je crois qu'il est compris en l'abonnement à 20 balles
ouais euh mais si tu lis les papiers de stratégiqu là de de Opena là je me souens plus comment ça'appelle ça mais ils ont prévu de passer ça à 40 balles donc en fait leur stratégie c'est la stratégie uber typique américaine c'est euh en gros euh je m'ouvre les veines puis je dis regarde je suis pas cher he tu es capable et puis au bout d'un moment on regarde qui est-ce qui ah tu tu as crevé tu as crevé bon il me reste un peu de sang je rebouche je refais le sang et puis après
je dis bah maintenant c'est plus 10 balles la cour ur c'est 30 balles ils vont défoncer tout le monde et quand il y aura plus personne ils imposeront leur prix et ils ont prévu de passer à 40 balles dans quelques dans je crois 2 ans juste avant de vous laisser partir sachez que je cherche des profils très spécifiques à inviter sur ce plateau petitin quelqu'un qui a déjà mis en place un Hony pot dans le casadre de son travail ou pas et qui a pêché des poissons intéressants le mieux c'est si vous avez des trucs
visuels des screenshots à nous montrer ensuite une boîte qui a développé un outil en no code et qui s'en a mordu les doigts ensuite qui rétrospectivement aurait préféré coder d'entré jeu troisièmement quelqu'un pour parler de la pénuie de développeur en coball ou Fortran aujourd'hui si possible un développeur coball que les banques s'arrachent et enfin quelqu'un pour parler des problèmes de la fondation modila et du nouveau navigateur ladybd quelqu'un qui connaît bien l'écosystème des navigateurs et moteur web si vous connaissez cette personne s'il vous plaît mettez-nous un mail à_@micorp.studio ça nous aide vraiment
Related Videos
Le bug caché de ChatGPT qui génère des images obscènes
24:08
Le bug caché de ChatGPT qui génère des ima...
Underscore_
456,573 views
On a reçu l'ingénieur qui gagnait des millions avec le bouton 'Suivant'
19:10
On a reçu l'ingénieur qui gagnait des mill...
Underscore_
269,282 views
💥 La start-up nation vient de s'effondrer : La grande arnaque enfin révélée
15:48
💥 La start-up nation vient de s'effondrer...
MoneyRadar
496,839 views
Il assouvit tous les délires bizarres des ultra-riches
21:20
Il assouvit tous les délires bizarres des ...
Simon Puech
1,015,821 views
Devialet reflète tout ce qui part en vrille dans la Hifi
15:31
Devialet reflète tout ce qui part en vrill...
AV Concept Products
178,472 views
Ce réseau décrypte 150 ans de découvertes scientifiques
22:15
Ce réseau décrypte 150 ans de découvertes ...
Fouloscopie
245,460 views
L'assistant vocal ChatGPT arrive ENFIN en France (et ça fait peur)
20:09
L'assistant vocal ChatGPT arrive ENFIN en ...
Yassine Sdiri
124,047 views
THE STORY OF KANYE WEST
2:08:47
THE STORY OF KANYE WEST
SEB
1,641,622 views
NICOLAS SARKOZY : CONFESSIONS INÉDITES DE L’ANCIEN PRÉSIDENT (parentalité, rumeurs, drames, succès)
1:32:45
NICOLAS SARKOZY : CONFESSIONS INÉDITES DE ...
LEGEND
2,601,852 views
Comment Nintendo terrorise les hackers
36:58
Comment Nintendo terrorise les hackers
Underscore_
510,723 views
L'attaque informatique la plus sophistiquée de l'Histoire
29:01
L'attaque informatique la plus sophistiqué...
Micode
1,256,685 views
La stratégie perturbante des lunettes de Meta
21:00
La stratégie perturbante des lunettes de Meta
Underscore_
376,163 views
Intelligence artificielle : l'homme est il devenu obsolète - Aurélien Barrau et Asma Mhalla.
1:16:02
Intelligence artificielle : l'homme est il...
Aurelien Barrau
129,572 views
La société rêvée d'Elon Musk : quel avenir ? Jean-Marc Jancovici, Philippe Bihouix [EN DIRECT]
3:01:14
La société rêvée d'Elon Musk : quel avenir...
Thinkerview
921,868 views
Quelles sont nos chances de vivre dans une simulation ?
1:02:17
Quelles sont nos chances de vivre dans une...
Les Revues du Monde
495,611 views
Le nouveau modèle de ChatGPT est perturbant
19:34
Le nouveau modèle de ChatGPT est perturbant
Underscore_
590,085 views
Faut-il tricher pour devenir milliardaire ? L’histoire de Xavier Niel
21:29
Faut-il tricher pour devenir milliardaire ...
Finary
349,308 views
NVIDIA CEO Jensen Huang Leaves Everyone SPEECHLESS (Supercut)
18:49
NVIDIA CEO Jensen Huang Leaves Everyone SP...
Ticker Symbol: YOU
981,144 views
Que se passe-t-il (vraiment) dans les fils électriques ? 💡🔌⚡️
35:49
Que se passe-t-il (vraiment) dans les fils...
ScienceEtonnante
462,245 views
Michel Onfray DÉMONTE COMPLÈTEMENT le plateau en plein direct / Débat 87
9:41
Michel Onfray DÉMONTE COMPLÈTEMENT le plat...
Niche Source
56,233 views
Copyright © 2024. Made with ♥ in London by YTScribe.com