OpenAI hat am Donnerstag drei neue Audiomodelle für seine Entwicklerplattform eingeführt. Ziel ist es, sprachbasierte Software-Agenten dialogfähiger zu machen und sie in die Lage zu versetzen, Aufgaben in Echtzeit zu bewältigen.

Mit der Markteinführung dieser Programmierschnittstellen (API) geht der ChatGPT-Entwickler über reine Transkription und Chat-Funktionen hinaus. Im Fokus stehen nun Agenten, die in Live-Gesprächen zuhören, übersetzen und agieren können.

Bei den neuen Modellen handelt es sich um GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Laut OpenAI stehen diese ab sofort im 'Developer Playground' für Tests zur Verfügung.

GPT-Realtime-2 ist darauf ausgelegt, komplexere Anfragen zu bearbeiten, externe Tools aufzurufen, mit Unterbrechungen umzugehen und den Kontext auch in längeren Sprachsessions aufrechtzuerhalten.

Das zweite Modell unterstützt die Übersetzung aus mehr als 70 Sprachen in 13 Zielsprachen und richtet sich insbesondere an den Kundensupport, den Bildungssektor und ähnliche Anwendungsbereiche.

GPT-Realtime-Whisper bietet eine Live-Sprach-zu-Text-Funktion, mit der Untertitel, Sitzungsprotokolle und Workflow-Updates unmittelbar während des Sprechens generiert werden können.

Zu den Kunden, die die Modelle bereits testen, gehören der Online-Immobilienmarktplatz Zillow, das Online-Reisebüro Priceline sowie der europäische Telekommunikationskonzern Deutsche Telekom.

Die Preise für GPT-Realtime-2 beginnen bei 32 Dollar pro Million Audio-Input-Token. GPT-Realtime-Translate kostet 0.034 Dollar pro Minute und GPT-Realtime-Whisper 0.017 Dollar pro Minute. (Berichterstattung durch Anhata Rooprai in Bengaluru; Redaktion durch Vijay Kishore)