Der große Test: o1-preview und o1-mini - Unsere Erfahrung mit den neuen OpenAI-Modellen in ChatGPT

8.18k views3078 WordsCopy TextShare

Digitale Profis

Link zur Megaprompt-Reihe: https://www.youtube.com/playlist?list=PLD93Zs0BCugs9hSvTP16iACgdJkc_kiWI ...

Video Transcript:

nachdem wir ja bei der Ankündigung nur ein kurzes Update Video für euch gemacht haben kommt heute endlich wie versprochen unser ausführliche Bericht zu den neuen O1 Modellen von Open ai O1 Preview und O1 Mini eigentlich auch Preview aber mehr Kritik zum Namen kommt gleich noch wir werden die Modelle natürlich auch in der Praxis in Jet GPT testen vor allem um die Antwortzeit und den Gedankengang der Modelle zu sehen aber wir haben auch viele allgemeine Informationen für euch recherchiert und herausgefunden fangen wir an mit der einfachsten Frage sind die O1 Modelle die Nachfolge des aktuellen GPT

4odells und die Antwort lautet nein auch wenn die Modelle natürlich jetzt in Jet GPT quasi das neue sind erkennt man es schon ein bisschen am Namen dass es sich eben nicht um die neuesten GPT Modelle handelt sondern um eine neue eigene Modellreihe sozusagen die etwas anders funktioniert als die Modelle die wir gewohnt sind open ai selbst nennt das ganze reasoners dafür gibt es leider keine wirklich gute direkte Übersetzung aber man könnte es sinngemäß als logische Denker bezeichnen und in gewisseer Hinsicht tun die Modelle das auch in der Unterhaltung denn anders als bei den jatbots die

wir bisher gewohnt waren bekommen wir nicht direkt eine Antwort sondern 1 denkt erstm drüber nach bevor die finale Antwort erzeugt wird entscheidend ist aber an dieser Stelle dass wir klar definieren müssen dass es sich bei diesem Denken um nichts handelt dass man mit dem Nachdenken vergleichen kann wie wir das als Menschen machen viel mehr versucht der Bot durch konstante Evolution aufgrund von Wahrscheinlichkeiten die bestmöglichen nächsten Schritte zu identifizieren mit einem bewussten Gedanken hat das nichts zu tun auch wenn hier so nennt was dabei genau passiert das wissen wir nicht dazu aber gleich noch mehr damit

wir nicht direkt zu Beginn in so viel Theorie versinken würde ich sagen wir springen direkt kurz in Jet GPT und schauen mal wie sich die neuen Modelle auch im Vergleich mit dem alten Modell schlagen wenn ich mich jetzt also in Jet GPT befinde dann werde ich links oben bei der Modellauswahl aktuell neben dem gpt4o Modell die O1 vorschaumodelle sehen einmal O1 Preview und einmal O1 Mini aber auch hier sehen wir direkt dass auch jetzt noch beim gpt4o Modell ideal für die meisten Aufgaben steht das bedeutet für die O1 Modelle wird einfach dieses reasoning angegeben dieses

Nachdenken tatsächlich sagt auch jat GPT hier immer noch 4o ist ideal für die meisten Aufgaben wir wollen uns jetzt allerdings anschauen ob O1 Preview beim reasoning also beim Nachdenken oder bei Logik Problem wirklich besser ist als das 4 Modell und als ersten Test haben wir uns dazu ein kleines Logikrätsel herausgesucht wir wollen das ganze mit der normalen Version von gleichen das bedeutet ich schicke das zunächst einmal an Jet GPT 4o ab ich füge den prompt mal ein du bist ein Gewürzhändler und möchtest deine Gewürze wieggen du bes jetzt eine Balkenwaage und möchtest dir für diese

Waage Gewichte kaufen wie viele Gewichte benötigst du mindestens um Gewürze bis zu einem Kilogramm Gramm genau messen zu können und das schicken wir mal an das normale gpt4o Modell ab wir warten wie unsere Antwort erzeugt wird und sehen dass wir mindestens vier Gewichte mit bestimmten Massen benötigen darunter sehen wir dann dass wir benötigte Gewichte haben die hier angegeben sind und auf den ersten Blick schon kann ich sagen das macht überhaupt keinen Sinn denn wenn ich all das hier zusammen zähle dann bin ich gerade bei ungefähr 100 g grob überschlagen bisschen mehr aber damit kann ich

auf jeden Fall nichts bis 1000 g abwiegen und das haben wir gesagt ein Kilogramm Gramm genau außerdem sehen wir hier mindestens vier Gewichte dann werden hier fünf aufgezählt gut das eine ist optional und dann folgt noch eine Erklärung aber wir können auf den ersten Blick sehen das macht überhaupt keinen Sinn dementsprechend würde ich sagen wir machen mal noch mal einen neuen Chat auf und nehmen das O1 Preview Modell also das vorschaumodell der neuen O1 Version auch hier füge ich genau denselben prompf wieder ein und wir schicken das Ganze ab und hier sehen wir jetzt einen

Unterschied denn wir sehen hier Denkvorgang und hier wird verschiedenes für uns angegeben das ist auch ein Kritikpunkt von uns den wir vorher schon kurz angesprochen haben hier wird das Ganze wirklich sehr sehr vermenschlichicht das bedeutet Jet GPT oder open ai vermittelt uns hier mit diesem wording eigentlich das Gefühl dass der Chatbot wirklich nachdenkt aber im Prinzip sind das einfach nur mehr Kalkulationen genauere Kalkulationen die im Hintergrund passieren denn genau was da passiert wissen wir nicht bevor wir darauf eingehen möchte ich jetzt allerdings kurz die Antwort anschauen und wir sehen hier man benötigt mindestens sieben Gewichte

die Gewichte sollten in den Werten von 1 3 9 27 81 243 und 729 g sein und das ist tatsächlich richtig also das ist die richtige Antwort auf dieses Rätsel man kann das dann durch ausbalancieren auf beiden Seiten der Waage so einrichten dass man wirklich jedes Gewicht bis zu einem Kilogramm Gramm genau messen kann und hier haben wir also wirklich die richtige Antwort bekommen jetzt möchte ich kurz auf dieses Dropdown hier eingehen wir sehen es wurde 8 Sekunden sich Gedanken gemacht hier wie gesagt wording nicht optimal aber wir bleiben jetzt einfach mal dabei und wenn

ich das ausklappe dann sehe ich hier ein chain of thoughts sozusagen also ich habe das Ganze aus dem Deutschen ins Englische übersetzt interessanterweise und dann wird eben der Prozess beschrieben den das Modell gemacht hat das ist aber tatsächlich nicht das was das Modell eigentlich hinter den Kulissen gemacht hat aber dazu gleich noch mehr wir wissen einfach nur wir können uns hier so ein bisschen anschauen was anscheinend hinter den Kulissen passiert ist und wir können direkt mal feststellen eindeutig hat ein bisschen länger gedauert aber wir haben eine bessere eine richtige Antwort in diesem Fall bekommen ich

möchte jetzt noch einen weiteren Vergleich machen wir haben jetzt also gesagt wirklich was logisches wir haben aber auch schon gesehen im Dropdown dass GPT 4o immer noch IDE für die meisten Aufgaben ist und dementsprechend möchte ich einen weiteren Versuch machen wir starten in diesem Fall mit or1 Preview also mit unserem neuen reasoner Modell jetzt möchte ich hier allerdings kein Rätsel aufgeben sondern ich möchte einfach nur einen ganz einfachen Text erstellen lassen indem ich sage schreib eine Einführung in das Thema machine learning das ganze schicken wir ab und auch hier obwohl das eigentlich gar nicht so

sehr notwendig ist wird das Modell erst einmal denken und verschiedene Dinge hier für uns auflisten wenn das ganze dann fertig ist wird unsere Antwort erzeugt das sollte jetzt bald der Fall sein genau jetzt sehen wir es wurde sich für 11 Sekunden Gedanken gemacht und dann wird die Antwort für uns erzeugt mit verschiedenen Überschriften und Stichpunkten und das ist eigentlich sehen wir auf den ersten Blick schon nicht wirklich anders als das was wir aus Jet GPT bereits kennen wir sehen es wurde sich 11 Sekunden Gedanken gemacht und einige kleine Punkte werden hier für uns aufgelistet auch

hier möchte ich jetzt allerdings mal sagen okay ich nehme einfach genau denselben prompt wir kopieren uns das hier noch mal ich wechsle in einen neuen Chat gehe zurück zum GPT 4 Modell und wir schicken das ganze auch hier noch mal ab ich sehe gerade erst dass ich dieses Fragezeichen h hinten gemacht habe was ein bisschen unnötig ist tatsächlich hier wird jetzt direkt unsere Antwort erzeugt wir sehen aber auch hier Überschriften die gemacht werden also das Thema wird für uns in bestimmte Punkte gegliedert und unser Text wird erzeugt wir haben auch hier die Liste mit den

verschiedenen Arten und hier muss man wirklich ganz klar sagen man sieht es in diesem Beispiel schon wir haben sehr viele Versuche gemacht mit Logik mit mathtee mit coding etc aber bei allem was wir in dieser Form haben also es soll einfach ein Text erzeugt werden oder es soll auch mit Texten gearbeitet werden also Zusammenfassung oder ähnliches da kann man wirklich keinen großen Unterschied feststellen bzw ist in manchen Fällen bei einfachen Proms sogar das VI Modell noch besser als letzten praktischen Test möchte ich hier noch mal kurz die beiden neuen Modelle vergleichen indem wir sagen wir

haben O1 Preview und O1 Mini und ich möchte beiden einfach mal dieselbe Aufgabe geben das bedeutet wir wechseln zunächst mal zu O1 Preview und ich möchte hier einfach eine kleine eine coding Challenge an das Modell übergeben dazu habe ich hier den folgenden PR vorbereitet schreib eine Funktion in Python die eine Liste von Listen in eine eindimensionale Liste umwandelt nenne die Funktion Flatten sie sollte einen einzigen Parameter haben und eine Liste zurückgeben das ganze schicken wir mal an unser O1 Preview Modell ab und schauen wie lange das ganze dafür braucht wir sehen okay es wird nachgedacht

das wird eine Funktion erstellt ein Vorschlag und es wurde sich 6 Sekunden Gedanken gemacht und dann haben wir unsere Funktion bekommen die schaue ich mir einmal kurz an das sieht gut aus also damit werden wir unser Resultat auf jeden Fall erzielen können jetzt möchte ich genau die selbe Aufgabe oder denselben promt in einem neuen Chat noch dem O1 miniodell geben das uns ja hier angepriesen wird mit schnellerem reasoning auch hier füge ich also genau den zelen promt ein Funktion in Python Flatten ein Parameter und eine Liste zurück wir schicken das Ganze ab wir sehen das

Modell denkt kurz nach entwickelt die Funktion und dann sehen wir nach 4 Sekunden also tatsächlich ein bisschen schneller eine Python Funktion namens Flatten die eine Liste von Listen in eine eindimensionale Liste umwandelt hier haben wir sogar tatsächlich noch ein bisschen mehr bekommen denn in unserem O1 Preview Beispiel haben wir nach längerer Zeit einfach nur unsere Funktion bekommen hier sehen wir etwas dass wir in unseren Versuchen auch oft festgestellt haben das bedeutet wir haben hier unsere Funktion bekommen und dann sogar noch eine Beispielanwendung mit dem wir das ganze ausprobieren können eine Erklärung dazu ein Hinweis und

ein einfach noch deutlich mehr Material und das ganze wurde uns hier wirklich blitzschnell erzeugt das ist auch ein Punkt den wir später noch mal kurz aufgreifen werden kann man sich aber an dieser Stelle noch mal merken dieses O1 Mini Modell ist auf gar keinen Fall die kleinere und schlechtere Version vom O1 Preview Modell auch wirklich nicht ideal benannt von Open ai an dieser Stelle wir haben es ja in der Praxis gesehen aber ich möchte trotzdem noch mal wirklich betonen die O1 Preview Modelle sind anders und in vielen Fällen besser als GPT 4o aber es gibt

weiterhin Anwendung in denen das alte Modell genauso gut oder sogar noch besser ist das sieht man auch in einer von Open selbsterstellten Grafik sehr schön gerade im Bereich schreiben und Verarbeiten von Texten hat das Topmodell der alten GPT Familie immer noch die Nase von und da muss man ehrlich sagen das bekommen wir eben auch in der Arbeit mit anderen Unternehmen und Behörden mit diese textanwendung sind in der Praxis quasi 90% aller Anwendungsfälle aber jetzt wollen wir noch einige Punkte explizit beleuchten und darüber sprechen beginnt mit dem Thema Modellauswahl eigentlich haben wir aktuell mit den neu

Modellen und der alten GPT Familie innerhalb von Jet GPT eine wirklich schlechte Nutzererfahrung man würde meinen neu ist besser und O1 ist besser als O1 Mini aber nichts davon ist zwangsläufig korrekt und wenn wir jetzt einmal nicht von uns und euch ausgehen die sich eben mehr mit dem Thema und den Entwicklungen auseinandersetzen sondern von ganz normalen Usern die eben von Jet GPT gehört haben und den Bot gelegentlich benutzen dann stiftet diese Modellauswahl mehr Verwirrung als sonst etwas man kann eigentlich davon ausgehen dass gerade unerfahrene Chat GPT User hier oftmals die falsche Entscheidung treffen werden welches

Modell Sie jetzt verwenden soll aber man muss dazu sagen openi ist schon dran dieses Problem zu beheben indem eine automatische Modellauswahl eingeführt wird und der Chatbot dann selbst von Anfrage zu Anfrage entscheidet welches Modell sich dafür am besten eignet nachdem erst nur Screenshots aufgetaucht sind haben wir in der letzten Woche schon von vielen von euch gehört dass die Funktion schon LIVE in chat GPT ist das bringt uns direk zu einem weiteren wichtigen Punkt O1 Preview Vers O1 Mini was ist der Unterschied zwischen den beiden Modellen hier müssen wir als erstes Mal sein dass die Benennung

von Open ai mal wieder sehr zu wünschen übrig lässt unser ersteer Kritikpunkt auch das minimodell ist natürlich nur eine Vorschau wenn auch nicht im Namen enthalten denn das oder die eigentlichen O1 Modelle kommen wohl erst Ende des Jahres und auch der Name Mini täuscht ein bisschen wir haben uns ja bei der GPT Familie daran gewöhnt wir haben gpt4o und gpt4o Mini wobei zweiteres einfach ein kleineres schnelleres Modell ist gptfo gibt aber eigentlich in allen Belangen bessere Antwort wenn wir uns jetzt double Benchmarks beiden O1 Modelle anschauen dann sehen wir ziemlich schnell das O1 miniodell ist

keineswegs nur die kleine Version sondern schlägt in einigen Bereichen O1 Preview sogar deutlich und das haben wir in unseren eigenen Tests gerade im Bereich programmieren durchaus nachvollziehen können das liegt ganz einfach daran dass or1 Mini ein reines logikmodell ist das durch chain of thought Mechanik Probleme Schritt für Schritt löst or1 Preview macht das auch hat aber zusätzlich eine Komponente die mehr Wissen beinhaltet und allgemeine Anfragen besser beantworten soll man kann also sagen das minimodell ist eigentlich nicht kleiner oder schlechter sondern einfach nur anders als nächstes haben wir das Thema outputlänge und hier wird es sehr

interessant sowohl O1 Preview als auch O1 Mini sind in der Lage nämlich deutlich längere Antworten zu geben als das gpt4 OM mododell auch wenn es bei der ersten einfachen Benutzung vielleicht gar nicht so scheint normalerweise war unser Output inchat GPT auf ca 4000 Tokens beschränkt was oft dazu geführt hat dass die Antworten nie wirklich ausführlich wurden und bei der Arbeit mit längeren Texten am Ende gefühlt immer schnell abgekürzt wurde laut open ai hat O1 Preview ein Output Token Limit von 32 000 Tokens bei O1 Mini sind es sogar 65 000 damit sind also zumindest in

der Theorie deutlich längere Ausgaben möglich was man dazu sagen muss in diese Output Tokens zählen auch die reasoning Tokens mit also der Text den die Modelle nur für sich selbst erzeugen um auf die bestmögliche Antwort zu kommen also man darf nicht erwarten dass es hier eine gigantische Steigerung gibt trotzdem haben wir in der Praxis schon deutlich längere Antworten als gewohnt auch in jat GPT gesehen die Limits scheint sich hier also wirklich auch auf die Verwendung im Chatbot und nicht nur auf die API zu beziehen wenn wir schon über die reasoning Tokens und chain of thoughts

sprechen dann müssen wir direkt einen ganz wichtigen Punkt klären das was wir in chat GPT sehen wenn wir den Gedankengang der O1 Modelle anschauen ist eben nicht wirklich wie die Modelle auf die Antwort gekommen sind denn open ai selbst zeagt ganz klar die eigentliche chain of thought wird aus unterschiedlichen Gründen unter anderem auch Wahrung des eigenen Wettbewerbsvorteils nicht angezeigt stattdessen sehen wir in chat GPT nur eine Zusammenfassung die das Modell selbst generiert hat wie nahe oder nicht diese Zusammenfassung am eigentlichen Lösungsweg der Modelle ist das können wir von außen überhaupt nicht beurteilen hier macht open

ai mal wieder dem eigenen Namen keine Ehre und klenzt durch fehlende der Offenheit auch wenn wir es natürlich aus einem wirtschaftlichen Standpunkt bis zu einem gewissen Grad nachvollziehen können für uns ist es natürlich trotzdem schade beide O1 Modelle Schein übrigens das Thema prompt Engineering wieder etwas mehr in den Vordergrund zurücken in letzter Zeit war es ja dann doch oft so dass auch wir zugeben mussten ja auch mit undurchdachten Proms bekommt man von modernen Chatbots fast immer gute Antworten und wenn nicht dann fragt man halt noch mal nach interessanterweise scheint das mit den neuen Modellen ein

bisschen anders zu sein obwohl sie sich ja selbst viel durch ihr reasoning zusammenreien sollen führen hier ausführliche Proms mit möglichst viel qualitativen Kontext für die KI zu deutlich besseren Resultaten und gerade Techniken die wir am Anfang noch extrem betont haben und die dann irgendwie immer unwichtiger wurden sind auf einmal wieder relevant als Beispiel haben wir hier die klare Strukturierung unserer Proms mit Kennzeichnung für Inhalt und Anweisung durch drei Anführungszeichen oder rautensymbole gerade diese Technik das haben wir vor allem bei O Preview feststellen können führt zu sehr viel besseren Ergebnissen open ai selbst empfiehlt dabei die

Proms direkt und einfach zu halten in unseren Tests hat aber mehr qualitativer Kontext von uns fast immer zu besseren Ergebnissen geführt genau dieses Phänomen sorgt unserer Meinung nach auch dafür dass viele die neuen O1 Modelle mal schnell mit ein paar einfachen Eingaben getestet haben und zum Schluss kommen dass überhaupt nicht besser sind wenn nicht sogar schlechter ich kann euch an dieser Stelle noch mal unsere megaprom 3 nahlegen die natürlich in der Videobeschreibung verlinkt ist und auch unsere anderen Tutorials zum Thema prompting und prompt Engineering damit kann man auf jeden Fall noch mehr aus den neuen

Modellen herausholen abschließend für dieses Video haben wir noch das Thema multimodalität die reasoning Modelle von Open ai bieten aktuell keinerlei multimodalität an weder Bilderkennung noch Erzeugung wird unterstützt außerdem keinerlei Webbrowsing oder Zugriff auf aktuelle Daten der knowledge cutoff liegt dabei aktuell im Oktober 2023 was mittlerweile ja doch auch relativ alt ist das muss man auf jeden Fall auf dem Schirm haben gleichzeitig muss man sagen die Modelle sind für logische Gedankenketten gemacht und das Lösen von Problemen mit einem durchdachten Ansatz für viele andere Anwendung sind weiterhin die gpt4o Modelle die richtige und bessere Wahl und nicht

zuletzt soll ja auch dieses Jahr noch die eigentliche finale Version O1 kommen die möglicherweise auch andere Modalitäten unterstützen wird so klingt es zumindest in den entsprechenden Ankündigungen und Äußerungen von Open ai damit sind wir jetzt auch am Ende unseres Überblicks über die neuen O1 Modelle von open a angekommen ich hoffe das Video hat euch gefallen und freue mich wie immer über likes nette Kommentare und Abos mein Name ist Johannes Ruf bis zum nächsten Mal