LIM Center, Aleje Jerozolimskie 65/79, 00-697 Warsaw, Poland
+48 (22) 364 58 00

OpenAI entfesselt ChatGPT-Agent – Der KI-Assistent, der für Sie planen, einkaufen und PowerPoints erstellen kann

OpenAI entfesselt ChatGPT-Agent – Der KI-Assistent, der für Sie planen, einkaufen und PowerPoints erstellen kann

OpenAI Unleashes ChatGPT Agent – The AI Assistant That Can Plan, Shop and Make PowerPoints For You

ChatGPT entwickelt sich vom Chatbot zum persönlichen Assistenten

OpenAI hat ein großes Upgrade für ChatGPT veröffentlicht und den beliebten Chatbot in einen persönlichen KI-Assistenten verwandelt, der nicht nur Fragen beantworten, sondern auch im Namen des Nutzers Aktionen ausführen kann. Das neue Feature, das am Donnerstag unter dem Namen ChatGPT „Agent“ gestartet wurde, ermöglicht es ChatGPT, zu „denken“ und zu handeln mithilfe seines eigenen virtuellen Computers theguardian.com. Praktisch bedeutet das, dass Nutzer ChatGPT nun bitten können, mehrstufige Aufgaben zu übernehmen – von der Suche nach Restaurantreservierungen oder Online-Shopping bis hin zur eigenständigen Erstellung kompletter Tabellenkalkulationen und Präsentationen theguardian.com. OpenAI sagt, dass dieser Agentenmodus der KI erlaubt, Websites zu navigieren, Webbrowser und Apps zu steuern, Dateien zu verwalten und Ausgaben wie Excel-Dateien oder PowerPoint-Präsentationen zu erstellen, anstatt nur Textantworten auszugebentechmeme.com.

Warum das wichtig ist: Das Upgrade ist OpenAIs bisher mutigster Schritt, über einen statischen Frage-Antwort-Chatbot hinauszugehen und eine KI zu schaffen, die wie ein digitaler Assistent oder „Agent“ funktioniert. Im Gegensatz zu herkömmlichen Chatbots können KI-Agenten komplexe, mehrstufige Arbeitsabläufe ausführen, indem sie im Namen des Nutzers mit Software und Websites interagieren theverge.com. „Die Hoffnung ist, dass Agenten den Nutzern echten Nutzen bringen – tatsächlich Dinge für sie erledigen, anstatt nur ausgefeilte Texte auszugeben und beeindruckend zu klingen“, bemerkt Niamh Burns, Senior Media Analyst bei Enders Analysis theguardian.com. Im Wesentlichen soll der neue Agentenmodus von ChatGPT dieses Versprechen einlösen, indem er echte Online-Arbeit für die Nutzer übernimmt und nicht nur chattet.

Der ChatGPT-Agent von OpenAI verwendet einen integrierten „virtuellen Computer“, um im Internet zu surfen, Formulare auszufüllen, Code auszuführen und sogar Excel-Tabellen oder PowerPoint-Präsentationen im Namen des Nutzers zu erstellen openai.comtechmeme.com.

Was kann der neue ChatGPT-Agent?

OpenAI bezeichnet den ChatGPT Agent als einen digitalen Assistenten für allgemeine Zwecke, der eine Vielzahl von computerbasierten Aufgaben bewältigen kann techcrunch.com. Einige Beispiele für seine Fähigkeiten sind:

  • Verwaltung von Terminen und Plänen: Überprüfen Sie Ihren Kalender und lassen Sie sich über bevorstehende Meetings informieren, oder finden Sie einen Abend, an dem Sie frei sind, und suchen Sie dann nach Restaurantreservierungen auf OpenTable openai.com theverge.com. Er kann Veranstaltungen wie ein Date planen, indem er Ihren Zeitplan mit der Restaurantverfügbarkeit abgleicht.
  • Online-Recherche und Berichte: Führen Sie eine umfassende Webrecherche zu einem Thema durch und erstellen Sie einen knappen Bericht oder eine Analyse. Zum Beispiel könnte er Trends analysieren (z. B. „der Aufstieg von Beanie Babies vs. Labubus“) und eine Zusammenfassung oder eine ausführliche Forschungsarbeit erstellen theverge.com.
  • Einkaufen und Bestellungen: Der Agent kann für Sie online einkaufen. Sie können ihn bitten, Produkte nach bestimmten Kriterien zu finden, Optionen zu vergleichen und sogar Bestellungen aufzugeben (mit Ihrer Erlaubnis) theguardian.com wired.com. OpenAIs Forschungsleiterin Isa Fulford ließ den Agenten sogar eine Ladung Cupcakes bestellen, indem sie ihre spezifischen Anweisungen befolgte – eine Aufgabe, die „fast eine Stunde dauerte“, aber für sie dennoch einfacher war, als es manuell zu erledigen wired.com.
  • Büroaufgaben – Tabellenkalkulationen und Präsentationen: Vielleicht am auffälligsten ist, dass ChatGPT Agent bearbeitbare Dateien erstellen kann. Es kann basierend auf Ihrer Eingabe eine Excel-Tabelle oder ein PowerPoint-Folienset von Grund auf generieren openai.com. Sie könnten es zum Beispiel bitten, Daten über Ihre Wettbewerber zu analysieren und ein Folienset mit Diagrammen zu erstellen, das die Ergebnisse zusammenfasst openai.com. Es kann auch Tabellen mit neuen Daten aktualisieren oder eine Reihe von Screenshots in eine formatierte Präsentation umwandeln openai.com. Die Ausgabedateien sind herunterladbar und für die Verwendung in Standard-Office-Software gedacht (wobei OpenAI darauf hinweist, dass die Foliengenerierung noch in der Beta-Phase ist) openai.com.
  • Entwicklertools und APIs nutzen: Im Hintergrund hat der Agent Zugriff auf ein Programmier-Terminal und kann öffentliche APIs aufrufen. Das bedeutet, er könnte Code ausführen, um benutzerdefinierte Berechnungen durchzuführen oder externe Dienste abzufragen. Er kann sich über „Connectors“ mit Apps wie Gmail oder GitHub integrieren und Informationen (mit Benutzererlaubnis) abrufen, um sie in seinen Antworten zu verwenden openai.com. OpenAI sagt, dass ChatGPT Agent sogar Online-Formulare ausfüllen und mit Diensten wie Google Drive oder SharePoint über API-Aufrufe interagieren kann wired.com.

All diese Fähigkeiten werden orchestriert, indem der KI ein eigener „virtueller Browser/Computer“ zur Verfügung gestellt wird. Wenn Sie eine Aufgabe zuweisen, wird ChatGPT Websites navigieren, Links oder Schaltflächen anklicken, Seiten scrollen, Textfelder ausfüllen, Code schreiben und ausführen und so weiter – alle notwendigen Schritte, um die Aufgabe zu erledigen openai.comtechmeme.com. Es arbeitet iterativ und autonom und entscheidet selbst, welches Tool oder welche Website als nächstes verwendet wird. Zum Beispiel könnte die Planung eines japanischen Abendessens das Suchen nach Rezepten bei Google, das Öffnen einer Lebensmittel-Website zum Bestellen der Zutaten und schließlich das Erstellen einer Einkaufsliste als Tabelle beinhalten – alles vom Agenten erledigt, ohne dass der Nutzer jeden Schritt einzeln steuern muss.

Wie funktioniert der ChatGPT Agent?

Hinter den Kulissen wird ChatGPT Agent von einem neuen KI-Modell angetrieben, das OpenAI speziell für Agentenaufgaben entwickelt hat, getrennt vom Basis-GPT-4-Modell theverge.com. Das Modell wurde mittels Reinforcement Learning darauf trainiert, komplexe Aufgaben zu bewältigen, die den Einsatz mehrerer Tools (wie Browser, APIs und Code) in Folge erfordern theverge.com. Tatsächlich hat OpenAI zwei frühere experimentelle Systeme zusammengeführt – Operator (ein Browsing-/Automatisierungstool) und Deep Research (ein Tool für tiefgehende Analysen) – zu diesem einheitlichen Agenten. „Wir haben erkannt, dass die beiden Produkte sehr komplementär sind, und haben im Grunde beschlossen, die Teams zusammenzulegen“, sagt Fulford wired.com. Das Ergebnis ist ein Agent, der Operators Fähigkeit, sich im Web zu bewegen, mit Deep Researchs Kompetenz, Informationen zu synthetisieren, in einem Workflow vereint wired.com.

Werkzeugkasten an Fähigkeiten: ChatGPT Agent ist mit mehreren spezialisierten Tools ausgestattet, die es einsetzen kann openai.com:

  • Ein Visueller Browser zur Interaktion mit Websites über eine normale grafische Benutzeroberfläche, wie es ein Mensch tun würde (Klicken von Buttons, Navigieren durch Seiten).
  • Ein Textbasierter Browser zum schnellen Senden von HTTP-Anfragen und Parsen von Rohtext (nützlich für das schnellere Lesen großer Texte oder wenn keine visuelle Darstellung benötigt wird) openai.com.
  • Ein Terminal/Konsole, das es ermöglicht, Code auszuführen, Dateien zu manipulieren oder Kommandozeilen-Tools innerhalb seiner geschützten Umgebung zu verwenden openai.com.
  • Direkter API-Zugriff, wodurch es externe Service-APIs aufrufen kann (z. B. Einträge in Google Kalender posten, eine Datenbank abfragen oder Daten von einem Online-Dienst abrufen) openai.com.
  • Anschlüsse zu Benutzerkonten: Nutzer können ihre eigenen Apps (wie E-Mail oder GitHub) verbinden. Mit Erlaubnis kann der Agent relevante Informationen aus Ihren E-Mails, Ihrem Kalender oder anderen Konten abrufen, um Aufgaben zu erledigen openai.com. Zum Beispiel könnte er Ihr Gmail nach aktuellen Nachrichten durchsuchen, wenn dies zum Verfassen einer Zusammenfassung nötig ist, oder Ihren Kalender per API prüfen, um freie Zeitfenster zu finden.

Diese Tools ermöglichen es der KI, den optimalen Ansatz auszuwählen für eine Aufgabe. Sie könnte die API nutzen, um schnell Ihre Kalenderverfügbarkeit zu prüfen, und dann zum visuellen Browser wechseln, um eine OpenTable-Reservierungsseite zu navigieren, die Klicks und menschliche Interaktion erfordert openai.com. Sie könnte eine Datei über den Textbrowser oder die API herunterladen, im Terminal darauf Code ausführen, um sie zu analysieren oder umzuformatieren, und dann die Ergebnisse im visuellen Browser öffnen, um sie Ihnen zu präsentieren openai.com. All dies geschieht innerhalb der virtuellen Maschine des Agenten, isoliert von Ihrem tatsächlichen Gerät – es ist also, als hätte die KI ihren eigenen Computer, auf dem sie Ihre Anweisungen ausführt openai.com.

Nutzererlebnis: Für den Endnutzer ist die Verwendung des ChatGPT-Agenten unkompliziert. Die Funktion ist über einen neuen „Agentenmodus“ in der ChatGPT-Oberfläche für berechtigte Nutzer verfügbar openai.com. Sie beginnen einfach mit einer Aufgabenbeschreibung (Sie können auch einen Slash-Befehl „/agent“ eingeben) und die KI übernimmt von dort theverge.com. Während sie arbeitet, zeigt eine Bildschirm-Narration Schritt für Schritt an, was der Agent gerade tut – zum Beispiel: „Öffne maps.google.com… Suche nach ‚italienische Restaurants in meiner Nähe‘…“ – sodass Sie den Vorgang mitverfolgen können openai.com openai.com. Besonders hervorzuheben ist, dass Sie den Agenten unterbrechen oder steuern können: Sie können den Prozess pausieren, um Ihre Anweisungen zu präzisieren oder ihn bitten, einen anderen Ansatz zu wählen, und er passt sich mitten in der Aufgabe an, ohne den Fortschritt zu verlieren openai.com. Diese kollaborative Schleife soll sicherstellen, dass die KI auf Ihre Ziele ausgerichtet bleibt.

Sicherheitsfunktionen: KI-Aktionen im Zaum halten

Einer KI die Möglichkeit zu geben, online zu handeln, wirft offensichtliche Sicherheitsbedenken auf, und OpenAI räumt ein, dass dieser neue Modus „mehr Risiken als frühere Modelle“ mit sich bringt theguardian.com. Um dem entgegenzuwirken, hat OpenAI eine Reihe von Schutzmaßnahmen und Einschränkungen implementiert:

  • Nutzererlaubnis für sensible Aktionen: „Sie haben immer die Kontrolle“, betont OpenAI theguardian.com. ChatGPT Agent wird explizite Bestätigung anfordern, bevor es etwas mit ernsthaften Konsequenzen tut, wie z. B. einen Kauf tätigen, eine E-Mail senden oder eine Reservierung in Ihrem Namen vornehmen theguardian.com theverge.com. Der Nutzer muss diese unumkehrbaren Schritte genehmigen, wodurch verhindert wird, dass die KI beispielsweise impulsiv Waren im Wert von 1.000 $ bei Amazon bestellt, ohne dass Sie es wissen.
  • Einschränkungen für „Hochrisiko“-Inhalte (Bio/Chem): Angesichts der erweiterten Fähigkeiten des Agenten hat OpenAI ihn in die Kategorie „Hohes biologisches und chemisches Risiko“ eingestuft, obwohl sie „keine eindeutigen Beweise“ dafür haben, dass er bei der Herstellung einer Biowaffe helfen könnte theguardian.com theverge.com. Diese Vorsichtsmaßnahme (Teil des Preparedness Frameworks von OpenAI) bedeutet, dass zusätzliche Schutzmechanismen aktiv sind. Konkret setzt OpenAI einen Echtzeit-Klassifizierer für Inhalte bei jeder Agenten-Eingabe ein, um zu prüfen, ob sie mit Biologie oder Chemie zu tun hat. Falls ja, wird die Antwort des Agenten von einem zweiten Sicherheitsmodell überprüft, um sicherzustellen, dass keine gefährlichen Anweisungen gegeben werden techcrunch.com techcrunch.com. Anders gesagt: Wenn jemand versuchen würde, den Agenten zu missbrauchen, um beispielsweise eine giftige Substanz herzustellen, ist das System darauf ausgelegt, dies zu erkennen und zu blockieren.
  • Darauf trainiert, schädliche Aufgaben abzulehnen: Der Agent wurde darauf trainiert, bestimmte verdächtige oder böswillige Anfragen abzulehnen. Zum Beispiel wird er ablehnen, wenn er aufgefordert wird, etwas offensichtlich Gefährliches oder Unethisches zu tun, wie etwa eine Banküberweisung auf ein unbekanntes Konto durchzuführen oder destruktive Befehle auszuführen theguardian.com. OpenAI sagt, dass Red-Teamer und Fachexperten das System gegen „realistische Szenarien“ getestet haben, um diese Ablehnungen zu verstärken openai.com.
  • Deaktivierter Langzeitspeicher: Eine interessante Einschränkung – Der Langzeitspeicher von ChatGPT ist im Agentenmodus deaktiviert techcrunch.com. Normalerweise kann sich ChatGPT an Informationen aus früheren Gesprächen oder Sitzungen erinnern (wenn aktiviert), aber OpenAI befürchtete, dass ein geschickter Angreifer dies während Agentenaufgaben (durch sogenannte Prompt Injections) ausnutzen könnte, um den Agenten dazu zu bringen, sensible Daten preiszugeben oder unerwünschte Dinge zu tun techcrunch.com. Daher arbeitet der Agent derzeit zustandslos und übernimmt keine Informationen aus vorherigen Chats. OpenAI könnte den Speicher in Zukunft wieder aktivieren, sobald sie sicher sind, dass es sicher ist, aber im Moment verhindert diese „zusätzliche Vorsichtsmaßnahme“ potenzielle Datenlecks wired.com.
  • Finanztransaktionen tabu: OpenAI hat außerdem finanzielle Operationen eingeschränkt – vorerst. Der Agent wird zum Beispiel keine Geldüberweisungen oder Aktiengeschäfte ausführen, selbst wenn er dazu aufgefordert wird theverge.com. Tatsächlich gibt es eine Schutzfunktion namens „Watch Mode“, die aktiviert wird, wenn der Agent bestimmte sensible Websites (wie Banken oder Handelsplattformen) durchsucht – er pausiert seine Aktivität, wenn der Nutzer den Browser-Tab des Agenten verlässt, um heimliche Aktionen im Hintergrund zu verhindern theverge.com.
  • Umfangreiche Tests und Prämienprogramm: OpenAI wirbt damit, dass dieses Modell über ihren „umfassendsten Sicherheits-Stack bisher“ in Bezug auf Bedrohungsmodellierung und Überwachung verfügt openai.com openai.com. Sie arbeiteten mit externen Biosecurity-Experten zusammen und ließen Fachexperten das System vor dem Start red-teamen openai.com. Parallel zur Veröffentlichung veröffentlichte OpenAI auch eine ausführliche Systemkarte, die Risiken erklärt, und bietet eine Bug-Bounty an, um externe Forscher zur Meldung von Schwachstellen zu ermutigen openai.com openai.com.

Trotz dieser Vorsichtsmaßnahmen weiß OpenAI, dass unerwartete Verhaltensweisen auftreten können, wenn eine KI im offenen Internet agiert. Das Unternehmen sagt, es werde den Agenten schrittweise weiterentwickeln und die Schutzmaßnahmen bei Bedarf anpassen. Nutzer werden vorerst dazu angehalten, die Aktionen des Agenten zu beaufsichtigen (die Benutzeroberfläche fördert dies, indem sie jeden Schritt kommentiert). „Mit diesem Modell gibt es mehr Risiken als mit früheren Modellen“, räumt OpenAI ein, weshalb sie „jetzt Vorsicht walten lassen und die nötigen Schutzmaßnahmen umsetzen“ theguardian.com theguardian.com.

Frühe Einschränkungen: Geschwindigkeit und Zuverlässigkeit

Entlassen Sie Ihren menschlichen Assistenten noch nicht. In frühen Demos und Tests zeigte der ChatGPT-Agent beeindruckende Fähigkeiten, aber auch deutliche Einschränkungen:

  • Langsam und stetig: Der Agent braucht oft eine Weile, um Aufgaben zu erledigen. Er kann mehrere Minuten damit verbringen, zu klicken und zu surfen, um Informationen zu sammeln – deutlich länger als eine direkte Chatbot-Antwort. In einer Demonstration dauerte es etwa 10–15 Minuten, bis der Agent einen Google-Kalender und Restaurantseiten durchsuchte, um Dinner-Optionen vorzuschlagen theguardian.com. Das Erstellen eines komplexen Foliensatzes oder das Durchführen umfangreicher Recherchen könnte noch länger dauern (OpenAI-Mitarbeiter bemerkten, dass eine Folienaufgabe im Test etwa 25 Minuten dauerte) wired.com. „Selbst wenn es 15 Minuten oder eine halbe Stunde dauert, ist das immer noch eine große Zeitersparnis im Vergleich dazu, wie lange man selbst dafür brauchen würde“, argumentiert Fulford und weist darauf hin, dass Nutzer eine Aufgabe starten und dann andere Dinge erledigen können, während der Agent arbeitet theverge.com. Dennoch ist Geduld gefragt; der Agent arbeitet nicht sofort. Yash Kumar von OpenAI schätzt, dass eine durchschnittliche Aufgabe derzeit etwa 10–15 Minuten dauert wired.com.
  • Gelegentliche Aussetzer: Wie bei jeder KI kann der Agent Fehler machen oder bei einer Aufgabe „hängenbleiben“. Frühe Nutzer haben gemischte Ergebnisse berichtet. Manche komplexen Arbeitsabläufe könnten ihn verwirren oder er könnte eine Anweisung auf halbem Weg falsch interpretieren. Ein früher Tester kommentierte, dass der Agent bei den „drei verschiedenen Aufgaben, die ich ihm gegeben habe, gescheitert ist… Ein netter Ausblick auf die Zukunft, aber derzeit noch nicht wirklich nützlich.“techmeme.com. Das unterstreicht, dass die Technologie, so fortschrittlich sie auch ist, nicht unfehlbar ist. OpenAI selbst merkt an, dass der Agent „noch in den Anfängen steckt“ und „noch Fehler machen kann.“ openai.com Zukünftige Updates sollen die Zuverlässigkeit und das logische Denken verbessern.
  • Grundlegende Ausgabequalität: Die PowerPoint-/Folienerstellungsfunktion befindet sich derzeit in der Beta, was bedeutet, dass die erstellten Folien ziemlich schlicht aussehen oder Nachbearbeitung benötigen können openai.com. OpenAI hat sich zunächst darauf konzentriert, den Inhalt und die Struktur richtig zu machen, statt auf auffälliges Design zu setzen. Sie weisen darauf hin, dass die Formatierung rudimentär sein kann und es gelegentlich Unterschiede zwischen der Folienvorschau und der exportierten PowerPoint-Datei gibt openai.com. Ebenso kann der Agent zwar Tabellenkalkulationen bearbeiten und Formeln beibehalten, ist aber noch kein Excel-Profi auf dem Niveau eines erfahrenen Menschen. OpenAI trainiert bereits die nächste Version, um in Präsentationen „ausgefeiltere, anspruchsvollere Ergebnisse“ zu liefern openai.com.
  • Kein europäischer Start (bisher): Bemerkenswert ist, dass der ChatGPT-Agent nicht in der EU gestartet ist. OpenAI „arbeitet noch daran, den Zugang für den Europäischen Wirtschaftsraum und die Schweiz zu ermöglichen“ openai.com. Nutzer anderswo (einschließlich USA und UK) erhielten sofortigen Zugang, aber europäische Nutzer müssen auf unbestimmte Zeit warten. OpenAI hat keinen festen Zeitplan für den EU-Rollout genannt theverge.com. Dies hängt wahrscheinlich mit regulatorischen Bedenken zusammen – die strengen Daten- und KI-Vorschriften der EU könnten zusätzliche Compliance-Schritte von OpenAI erfordern, bevor ein autonomer Agent freigegeben wird. Vorerst sehen Europäer nur eine Nachricht, dass die Funktion in ihrer Region nicht verfügbar ist.

Auf der positiven Seite behauptet OpenAI, dass das zugrunde liegende Modell des neuen Agenten weitaus leistungsfähiger ist als frühere Versionen, was für den Umgang mit Komplexität vielversprechend ist. Das Modell erzielte Berichten zufolge Spitzenwerte bei mehreren anspruchsvollen Benchmarks techcrunch.com. Zum Beispiel erreichte es 41,6 % bei „Humanity’s Last Exam“, einem umfangreichen Experten-Test mit über 100 Themen – etwa doppelt so viel wie die vorherigen Modelle von OpenAI bei diesem Test techcrunch.com. Bei einem berüchtigt schwierigen Mathematik-Benchmark (FrontierMath) erreichte es 27,4 % Genauigkeit mit Tool-Nutzung, gegenüber nur 6,3 % beim besten früheren Modell techcrunch.com. Diese Verbesserungen deuten darauf hin, dass der Agent viel besser darin ist, komplexe, mehrstufige Probleme zu lösen, wenn er Werkzeuge nutzen kann. „OpenAI sagt, der ChatGPT-Agent ist weitaus leistungsfähiger als seine bisherigen Angebote“, berichtet TechCrunch techcrunch.com – allerdings bleibt abzuwarten, wie „leistungsfähig“ er außerhalb kontrollierter Tests in realen Szenarien tatsächlich ist, bis mehr Nutzer ihn an seine Grenzen bringen techcrunch.com.

Verfügbarkeit: Wer kann den ChatGPT-Agenten nutzen?

OpenAI führt den ChatGPT-Agenten zunächst als Vorteil für zahlende Abonnenten ein. Ab dieser Woche wird die Funktion für Nutzer der ChatGPT-Pro-, Plus- und Team-Pläne (in etwa vergleichbar mit Premium-Stufen) aktiviert techcrunch.com. Pro-Nutzer sollten zuerst Zugriff erhalten (am Tag der Einführung), gefolgt von Plus- und Team-Abonnenten in den nächsten Tagen openai.com. Unternehmenskunden und Bildungseinrichtungen werden ihn „in den kommenden Wochen“ erhalten, sobald die letzten Probleme behoben sind openai.com theverge.com. Es gibt keinen angekündigten Zeitplan für kostenlose Nutzer, um Agenten-Funktionen zu erhalten – und es ist möglich, dass es angesichts des Mehrwerts und der hohen Rechenkosten auch in absehbarer Zeit eine kostenpflichtige Funktion bleibt.

Zusätzlich zum gestuften Zugang hat OpenAI monatliche Nutzungslimits eingeführt. Pro-Abonnenten (die höchste Stufe) können bis zu 400 Agentenaufgaben pro Monat ausführen, während Plus- und Team-Nutzer 40 Aufgaben pro Monat inklusive erhalten wired.com wired.com. Diese Begrenzung stellt sicher, dass die teuren Operationen nicht unkontrolliert ausufern, aber zusätzlicher Verbrauch kann bei Bedarf über ein Kreditsystem erworben werden openai.com. Die Aufgaben werden pro „agentischem Prompt“ gezählt, das heißt, jedes Mal, wenn Sie den Agenten aktivieren, um etwas zu tun, zählt das als eine Aufgabe.

Wie erwähnt, können europäische Nutzer beim Start nicht auf ChatGPT Agent zugreifen theguardian.com. Wenn Nicht-EU-Nutzer den Agentenmodus aktivieren, werden sie auf den experimentellen Charakter der Funktion hingewiesen und können dann fortfahren. EU-Nutzer hingegen werden einfach blockiert. OpenAIs Hinweis, dass an einem Zugang für den EWR gearbeitet wird, deutet darauf hin, dass die Verzögerung wahrscheinlich mit der Einhaltung von EU-Vorschriften zusammenhängt (möglicherweise im Zusammenhang mit Datenschutz und dem AI Act). Diese geografisch eingeschränkte Einführung erinnert daran, wie einige frühere ChatGPT-Funktionen (wie das Surfen im Web) vorübergehend in bestimmten Regionen aufgrund rechtlicher Unsicherheiten zurückgehalten wurden. Vorerst müssen alle in der EU warten, bis OpenAI sicherstellt, dass der Agent die lokalen Anforderungen erfüllt.

Ein KI-Agenten-Wettrüsten – Google, Anthropic & andere

OpenAIs Vorstoß in „agentische“ KI erfolgt im Rahmen eines breiteren Branchentrends hin zu autonomen KI-Assistenten. Tatsächlich haben Wettbewerber ihre eigenen agentenähnlichen Funktionen vorbereitet:

  • Anthropics Claude: Letztes Jahr führte Anthropic (Hersteller des Claude-Chatbots) eine Funktion namens „Computer Use“ ein – im Wesentlichen die Fähigkeit für Claude, einen Computer wie ein Mensch zu nutzen, z. B. Websites zu durchsuchen und Aufgaben auf dem Rechner eines Nutzers auszuführen theverge.com. Erst vor zwei Monaten (Mai 2025) brachte Anthropic sein neuestes Modell Claude 2 (Codename Opus 4) mit agentischen Funktionen auf den Markt und hat ebenfalls besondere Biosicherheitsmaßnahmen aktiviert, um Missbrauch zu verhindern theverge.com. Das zeigt, dass selbst kleinere KI-Startups sich sowohl der Macht als auch der Risiken autonomer Agenten bewusst sind.
  • Googles KI-Erweiterungen: Google arbeitet daran, seine generative KI (wie Bard und Assistant) mit direkten Aktionen zu verbinden. Sie haben KI vorgeführt, die E-Mails in Gmail verfassen, Dokumente in Google Drive zusammenfassen und sogar einen Browser steuern kann – und zwar über das experimentelle „Duet AI“ für Workspace. Der Guardian merkt an, dass Google kürzlich ähnliche Assistenten-„Agenten“ eingeführt hat, die zwischen Apps wechseln können, um Nutzeraufgaben zu erledigen theguardian.com. Außerdem hat Google erst letzte Woche gezielt Schlüsselpersonal von einem Startup (Windsurf) eingestellt, um seine agentischen KI-Projekte zu stärken theverge.com, was den Wettlauf um den Bau von Jarvis-ähnlichen Assistenten unterstreicht.
  • Weitere Akteure: Auch Meta (Facebook) und Amazon haben in Gewinnmitteilungen ihre KI-Agenten-Ambitionen erwähnt, was darauf hindeutet, dass alle Big-Tech-Unternehmen dies als das nächste große Ding sehen theverge.com. So stellen sich beispielsweise E-Commerce-Unternehmen KI-Agenten vor, die Kundenservice-Chats oder Einkaufsanfragen komplett abwickeln können. Ein bemerkenswertes frühes Beispiel: Das Fintech-Unternehmen Klarna berichtete Anfang 2024, dass sein KI-Kundenservice-Agent zwei Drittel aller Kundenchats übernommen und damit die Arbeit von etwa 700 Menschen erledigt hat theverge.com. Diese Erfolgsgeschichte hat den Begriff „KI-Agent“ in Unternehmenskreisen populär gemacht, und seither preisen viele CEOs KI auf Agentenbasis als Ziel an theverge.com.
  • Frühere Experimente: OpenAI selbst hat sich schon früher mit Agenten beschäftigt. Im Januar 2025 veröffentlichte es Operator als Forschungs-Vorschau, beschrieben als „ein Agent, der ins Web gehen kann, um Aufgaben für dich zu erledigen“ theverge.com. Operator konnte auf Websites klicken und scrollen. Es gab auch den Deep Research-Modus, der ausführliche Analysen verfassen konnte. Diese Vorläufer waren jedoch im Umfang begrenzt und manchmal fehleranfällig. Andere Startups (wie Adept AIs ACT-1) haben Agenten gezeigt, die Befehle in Software wie ein Mensch ausführen können, aber keiner davon ist bisher zum Mainstream-Produkt geworden. Die frühen Generationen von KI-Agenten hatten Schwierigkeiten mit komplexen Aufgaben und Zuverlässigkeit techcrunch.com – oft war viel Unterstützung nötig. Tech-Manager zeichneten Visionen von KI-Assistenten, die alles können, aber die Realität hinkte dem Hype hinterher techcrunch.com.

Jetzt versucht OpenAI mit ChatGPT Agent, diese früheren Bemühungen zu überholen. Durch die Kombination von Stärken (Web-Browsing + Analyse) und der Nutzung von GPT-4-Intelligenz behaupten sie, endlich einen Agenten zu haben, der der großen Vision nahekommt. „Das ist das beste UX für einen Agenten aller Zeiten. ABSOLUT VERRÜCKT. ÜBERTREFFT DAS!!“ postete ein begeisterter Nutzer nach dem Launchtechmeme.com. Auch wenn diese Aussage offensichtlich übertrieben ist, spiegelt sie die Begeisterung in Teilen der KI-Community wider, dass wir einem „J.A.R.V.I.S.“ – Iron Mans fiktivem KI-Butler – im echten Leben näherkommen theverge.com. Vorerst sind ChatGPT Agent und seine Pendants noch frühe Schritte auf dem Weg zu diesem Ideal und übernehmen hauptsächlich Recherche, Programmierung und einfache Online-Aufgaben, statt wirklich offene Autonomie zu bieten theverge.com. Aber der Wettbewerbsdruck ist unverkennbar: Jede KI-Firma will als Erste den KI-Assistenten entwickeln, den Menschen tatsächlich täglich nutzen.

Monetarisierung: Werden Agenten OpenAI Geld einbringen?

Mit dem Start von ChatGPT Agent zeigt OpenAI nicht nur neue Technik – das Unternehmen hat auch mögliche Einnahmequellen im Blick. Die Entwicklung von ChatGPT wurde stark subventioniert (Microsoft investierte Milliarden), und OpenAI muss seine äußerst populäre KI in ein „profitables Produkt“ verwandeln wired.com. Agenten könnten dabei auf verschiedene Weise der Schlüssel zur Monetarisierung sein:

  • Abo-Upgrade: Einfach ausgedrückt ist der Agentenmodus eine Premium-Funktion, die mehr Nutzer zu kostenpflichtigen Tarifen bewegen könnte. Indem OpenAI ihn auf Plus/Pro-Abonnenten beschränkt, wird die monatliche Gebühr von 20 $+ für Power-User attraktiver, die eine KI-Assistenz zur Arbeitsentlastung wollen. Das ist die direkte, unmittelbare Monetarisierung: Mehr Menschen zahlen für den Zugang zu ChatGPT.
  • Transaktionsgebühren: OpenAIs CEO Sam Altman hat angedeutet, Provisionen aus über die KI abgewickelten Geschäften zu verdienen. Er spekulierte, dass OpenAI „eine Gebühr von 2 % auf generierte Verkäufe erheben“ könnte, die durch die Bemühungen des Assistenten entstehen theguardian.com. Anders gesagt: Wenn ChatGPT Agent Ihnen beim Kauf eines Produkts oder der Buchung eines Hotels hilft, könnte OpenAI einen kleinen Anteil erhalten (vom Händler oder über Affiliate-Links). Dieses Modell würde KI-gesteuertes Shopping oder Buchen zu einer Einnahmequelle machen. Die jüngste Agenten-Demo, in der ein Nutzer zu Kassenvorgängen im Einzelhandel geführt wurde, befeuerte sofort Spekulationen, dass OpenAI solche Affiliate- oder Empfehlungsgebühren künftig integrieren könnte theguardian.com.
  • Gesponserte Ergebnisse/Werbung: KI-Assistenten könnten zu einer neuen Plattform für Werbung werden. Wenn ein Agent Produkte oder Restaurants empfiehlt, werden Marken dann dafür zahlen, empfohlen zu werden? „Eine Art von Werbung oder gesponserter Platzierung scheint unausweichlich“, beobachtet Analystin Niamh Burns und verweist auf den „wachsenden Druck [auf KI-Firmen], ihre Produkte zu monetarisieren.“ theguardian.com Es gibt ein Vorbild – Suchmaschinen verdienen Geld mit Werbung, also könnte eine KI, die Suche ersetzt, das auch tun. Allerdings bestreitet OpenAI derzeit den Einsatz von gesponserten Inhalten in den Empfehlungen des ChatGPT Agenten theguardian.com. Sie erklärten, dass der Agent keine bezahlten Produktplatzierungen enthält und „es keine Pläne gibt, das zu ändern.“ theguardian.com Bislang sollen die Ergebnisse ausschließlich auf den Kriterien des Nutzers und dem Urteil der KI basieren. Dennoch bleibt die Tür für künftige Werbemodelle offen, sobald das Assistenten-Ökosystem ausgereift ist.
  • Enterprise-Dienste: OpenAI könnte auch Einnahmen erzielen, indem der Agent als Teil von Unternehmenssoftware-Lösungen angeboten wird. Beispielsweise könnten Unternehmen dafür bezahlen, den ChatGPT Agent in ihre internen Tools zu integrieren oder ihn den Kundensupport übernehmen zu lassen. OpenAI befindet sich bereits in Vertragsverhandlungen mit Microsoft über eine fortgesetzte Partnerschaft, und man kann sich vorstellen, dass fortschrittliche Agenten in Microsofts Angebote integriert werden (was OpenAI indirekt Einnahmen oder vorteilhafte Konditionen bringen könnte) wired.com. Die „Anwendungsfälle für Unternehmen“ waren laut Produktleiter Yash Kumar ein wichtiger Aspekt beim Design des Agenten wired.com, was bedeutet, dass OpenAI wahrscheinlich darüber nachdenkt, wie Unternehmen diese Technologie nutzen (und dafür bezahlen) können.

Kurzfristig liegt OpenAIs Fokus wahrscheinlich darauf, den Agenten zu verfeinern und Abonnements zu fördern. Aber letztlich, wenn Agenten so nützlich werden wie versprochen, könnten sie ganze Transaktionen oder Arbeitsabläufe ermöglichen – und OpenAI wird sicherlich versuchen, daran zu verdienen. Das Unternehmen muss das Vertrauen der Nutzer (ein Agent, der Produkte empfiehlt, muss als unparteiisch wahrgenommen werden, um Vertrauen zu schaffen) mit der Monetarisierung in Einklang bringen. Wie das gelingt, wird genau beobachtet werden. Wie Analyst Burns überlegte, wenn ein Agent Produkte für dich findet, „was steckt in dem Prozess, mit dem das System die Produkte findet? Wird es kommerzielle Vereinbarungen geben, bei denen Marken dafür bezahlen, von Assistenten hervorgehoben zu werden…?“ theguardian.com. OpenAI betont, dass dies derzeit nicht der Fall ist, aber der wirtschaftliche Anreiz ist vorhanden.

Reaktionen von Experten und Ausblick

Die Einführung des ChatGPT Agent hat sowohl Begeisterung als auch vorsichtige Kommentare von Experten und frühen Nutzern ausgelöst. Ethan Mollick, Professor an der Wharton School und bekannt für seine Experimente mit KI in der Bildung, gehörte zu einer kleinen Gruppe mit frühem Zugang. Sein Urteil fiel positiv aus: „ChatGPT Agent ist, denke ich, ein großer Schritt nach vorn, um KIs dazu zu bringen, echte Arbeit zu erledigen. Selbst in diesem Stadium erledigt er eigenständig Recherchen und erstellt Excel-Dateien (mit Formeln!), PowerPoint usw. ziemlich gut.“techmeme.com. Mollick sagte, es gebe einen Einblick, wie verschiedene Agentenfähigkeiten „zusammenkommen“, auch wenn es noch nicht perfekt seitechmeme.com. Andere KI-Forscher äußerten sich ähnlich und zeigten sich beeindruckt davon, wie der ChatGPT Agent Aufgaben verketten und brauchbare Ergebnisse liefern kann, die zuvor viele manuelle Schritte erforderten.

Zur gleichen Zeit wird anerkannt, dass real-world testing has just begun. Wie zuverlässig der Agent mit dem chaotischen offenen Internet umgeht, ob er es vermeiden kann, auf Betrügereien oder Fehlinformationen hereinzufallen, während er surft, und inwieweit durchschnittliche Nutzer ihn wirklich nützlich finden – das sind offene Fragen. „It remains to be seen how capable it truly is in the real world,“ merkte TechCrunch an, da frühere Agenten bei unerwarteten Szenarien oft instabil waren techcrunch.com. Es gibt auch die breitere gesellschaftliche Sorge, der KI mehr Eigenständigkeit zu überlassen: Selbst mit Genehmigungsprüfungen werden sicherlich Berichte über KI auftauchen, die seltsame oder riskante Entscheidungen trifft. OpenAIs eigenes System-Card erkennt „novel risks“ bei solcher Autonomie an und verspricht laufende Forschung zur Minderung dieser Risiken openai.com openai.com.

Im Moment stellt die Einführung des ChatGPT Agent einen Meilenstein im Übergang der KI von rein assistierender text generation to actual task execution dar. Es ist Teil eines paradigm shift von „Chatbots“ zu „agents“ – KI-Systemen, die take initiative and complete goals in der digitalen Welt können, nicht nur Konversationen führen. „Agent is the buzziest of buzzwords right now,“ schreibt WIRED, gerade weil so viele Unternehmen dieser Vision nachjagen wired.com. OpenAI hat in diesem neuen Bereich klar Flagge gezeigt und nutzt die Popularität und Vertrautheit von ChatGPT, um einen Agenten für die breite Masse (oder zumindest die zahlende Masse) bereitzustellen.

Das Fazit: Wenn Sie ein berechtigter ChatGPT-Nutzer sind, können Sie jetzt bestimmte lästige oder komplexe Aufgaben an einen KI-Helfer auslagern und zusehen, wie er sie Schritt für Schritt abarbeitet. Es kann sich ein wenig magisch anfühlen – wie ein fleißiger Praktikant, der nie schläft – und auch etwas beunruhigend, die KI eigenständig im Web surfen zu sehen. Dieser Start ist der Beginn eines großen Experiments, wie Menschen im Alltag KI-Agenten nutzen könnten. Wie es ein früher Nutzer ausdrückte: „[It] does a good job autonomously… It gives a sense of how agents are coming together.“techmeme.com In den kommenden Monaten werden wir sehen, ob ChatGPT Agent sein Versprechen von Komfort und Produktivität wirklich einlöst und wie er sich im Vergleich zu den wachsenden Konkurrenz-KI-Assistenten schlägt. Eines ist sicher: Das Zeitalter der KI, die acts, nicht nur chattet, hat offiziell begonnen.

Quellen:

Inside ChatGPT, AI assistants, and building at OpenAI — the OpenAI Podcast Ep. 2

Tags: ,