GPT-4o: OpenAIs neues Spitzenmodell macht ChatGPT zum Echtzeit-Gesprächspartner

13.5.2024 20:51 Uhr

Andreas Frischholz

Bild: OpenAI

Mit GPT-4o hat OpenAI heute ein neues Spitzenmodell präsentiert, das leistungsfähiger und effizienter als GPT-4 Turbo ist und insbesondere bei der Sprachsteuerung punkten soll. Ergänzt um das neue Modell soll sich ChatGPT zu einem leistungsfähigen Alltagsassistenten entwickeln, mit dem Nutzer sich fortlaufend unterhalten können.

Präsentiert wurden die neuen Updates für GPT-4 und ChatGPT auf OpenAIs Spring-Update-Event, welches über YouTube gestreamt wurde.

In Echtzeit mit ChatGPT sprechen

Bei GPT-4o steht das o für „omni“, also das lateinische Wort für „alles“. In diesem Fall ist das eine Anspielung auf ein Modell, in dem Sprache mit Text- und Bildfunktionen vereint werden. Davon profitieren soll insbesondere der Sprachmodus, was im Fall von ChatGPT bedeutet: Die Ein- und Ausgabe von Sprache soll in Echtzeit möglich sein. OpenAI nennt das „real time responsiveness“. Die Antwort auf Spracheingaben soll zum Teil in weniger als 2032 Millisekunden erfolgen, der Durchschnitt liegt bei 320 Millisekunden – laut OpenAI ist das vergleichbar mit menschlichen Antwortzeiten in Gesprächen.

OpenAI geizt nicht mit Demos

Bei Live-Präsentation war auffallend, wie wandelbar die KI-Stimme war, unterschiedliche Emotionen wurden glaubwürdig ausgedrückt. Bei einer weiteren Live-Demo erkannte der Chatbot zudem über eine Videoaufnahme der Smartphone-Kamera, dass Berechnungen auf einem Blattpapier geschrieben worden sind, der Chatbot konnten dann Hilfestellungen bei den Matheaufgaben geben. Auch beim Coding soll es Vorteile geben. Vor Ort wurden auch Echtzeit-Übersetzungen von Italienisch auf Englisch gezeigt.

In einer weiteren Demo haben zwei GPT-4os im Duett gesungen und zusammengearbeitet. Insgesamt 16 unterschiedliche Demos zu der Flexibilität des Modells sind in einer Playlist auf YouTube zu finden.

Die Steuerung erfolgte bei allen Live-Demos mit der Stimme. OpenAI präsentiert ChatGPT als vielseitigen Alltagsassistenten, der sich mit natürlicher Sprache nutzen lässt. Die Versprechen für das Verarbeiten von Videoaufnahmen in Echtzeit sind ebenfalls weitreichend. Laut einem der Beispiele im Blog-Beitrag soll es mit ChatGPT künftig möglich sein, bei einer Sport-Übertragung die Aufnahme zu starten, damit der Chatbot die Regeln erklären kann.

Anzumerken ist aber: Präsentationen wirkten bei KI-Assistenten schon öfters vielversprechend, der Alltag war dann für die Nutzer eher holprig. Es bleibt also abzuwarten, wie viel der Versprechen sich übertragen lässt.

Verfügbarkeit in den nächsten Wochen

OpenAI wird GPT-4o schrittweise veröffentlichen, noch laufen Testphasen für das vollständige Modell. In ChatGPT werden daher zunächst die neuen Text- und Bildfunktionen von GPT-4o eingeführt. Der neue Sprachmodus wird in kommenden Wochen als Alpha-Version für Nutzer der kostenpflichtigen ChatGPT-Plus-Variante erscheinen.

Halber Preis und doppelt so schnell

Die Text- und Bildvariante von GPT-4o ist zudem über die API verfügbar. Im Vergleich zu GPT-4 Turbo soll sich die Geschwindigkeit verdoppelt und der Preis wurde halbiert. Das vollständige Modell mit den Sprachfunktionen wird zunächst aber eine ausgewählten von Testern zur Verfügung gestellt.

Bei den veröffentlichten Benchmark-Ergebnissen setzt sich GPT-4o an die Spitze, der Vorsprung ist aber überschaubar. Ein Quantensprung ist im Vergleich zu GPT-4, Googles Gemini-Modellen sowie Anthropics Claude 3 Opus aber nicht zu erkennen. Wie weit die Aussagekraft solcher Benchmarks reicht, ist aber ohnehin strittig.

Keine neue AI-Suche präsentiert

In der letzten Woche meldeten sowohl Bloomberg als auch Reuters, dass OpenAI heute eine neue AI-Suche präsentiert. Davon war bei der Vorstellung aber keine Rede.