LIM Center, Aleje Jerozolimskie 65/79, 00-697 Warsaw, Poland
+48 (22) 364 58 00

Az OpenAI bemutatja a ChatGPT Agentet – az AI-asszisztenst, amely tervez, vásárol és PowerPointokat készít helyetted

Az OpenAI bemutatja a ChatGPT Agentet – az AI-asszisztenst, amely tervez, vásárol és PowerPointokat készít helyetted

OpenAI Unleashes ChatGPT Agent – The AI Assistant That Can Plan, Shop and Make PowerPoints For You

A ChatGPT chatbotból személyi asszisztenssé fejlődik

Az OpenAI jelentős frissítést vezetett be a ChatGPT-n, amely a népszerű chatbotot egy személyes AI asszisztenssé alakítja, amely nemcsak kérdésekre válaszol, hanem a felhasználó nevében cselekedni is képes. Az új funkció neve: ChatGPT „Agent”, amely csütörtökön indult, és lehetővé teszi, hogy a ChatGPT „gondolkodjon” és cselekedjen a saját virtuális számítógépét használva theguardian.com. Gyakorlatilag a felhasználók mostantól megkérhetik a ChatGPT-t, hogy több lépésből álló feladatokat végezzen el – például éttermi foglalásokat találjon, vagy online vásároljon, illetve teljes táblázatokat és prezentációkat generáljon önállóan theguardian.com. Az OpenAI szerint ez az agent mód lehetővé teszi, hogy a mesterséges intelligencia weboldalakat böngésszen, webböngészőket és alkalmazásokat irányítson, fájlokat kezeljen, és olyan kimeneteket hozzon létre, mint Excel-fájlok vagy PowerPoint-prezentációk, nem csupán szöveges válaszokat adjontechmeme.com.

Miért fontos ez: Ez a frissítés az OpenAI eddigi legmerészebb lépése, hogy túllépjen a statikus kérdezz-felelek chatboton, és egy olyan AI-t hozzon létre, amely digitális asszisztensként vagy „agentként” működik. A hagyományos chatbotokkal ellentétben az AI agentek képesek összetett, több lépésből álló munkafolyamatokat végrehajtani, szoftverekkel és weboldalakkal interakcióba lépve a felhasználó nevében theverge.com. „A remény az, hogy az agentek valódi hasznot hoznak a felhasználóknak – ténylegesen elvégeznek dolgokat helyettük, nem csak csiszolt szöveget adnak vissza és lenyűgözően hangzanak,” jegyzi meg Niamh Burns, az Enders Analysis vezető médiaelemzője theguardian.com. Lényegében a ChatGPT új agent módja ezt az ígéretet kívánja beteljesíteni azzal, hogy valódi online munkát végez a felhasználók helyett, nem csak cseveg.

Az OpenAI ChatGPT Agent beépített „virtuális számítógépet” használ a web böngészésére, űrlapok kitöltésére, kód futtatására, sőt, Excel-táblázatok vagy PowerPoint-prezentációk elkészítésére is a felhasználó nevében openai.comtechmeme.com.

Mire képes az új ChatGPT Agent?

Az OpenAI a ChatGPT Agentet általános célú digitális asszisztensként mutatja be, amely képes számos számítógépes feladat elvégzésére techcrunch.com. Néhány példa arra, mire képes:

  • Ütemezések és tervek kezelése: Ellenőrzi a naptáradat, és tájékoztat a közelgő találkozókról, vagy keres egy szabad estét, majd éttermi asztalfoglalást keres az OpenTable-en openai.com theverge.com. Eseményeket is tud tervezni, például randevúestet, az időbeosztásod és az éttermi elérhetőség összevetésével.
  • Online kutatás és jelentések: Mélyreható webes kutatást végez egy témában, és készít egy tömör jelentést vagy elemzést. Például elemezheti a trendeket (pl. „a Beanie Babies és a Labubus felemelkedése”), és összefoglalót vagy részletes kutatási anyagot készíthet theverge.com.
  • Vásárlás és rendelés: Az ügynök online vásárlást is elvégez helyetted. Megkérheted, hogy keressen bizonyos feltételeknek megfelelő termékeket, hasonlítsa össze az opciókat, sőt, akár rendelést is leadhat (a te engedélyeddel) theguardian.com wired.com. Az OpenAI kutatásvezetője, Isa Fulford például egy adag cupcake-et rendelt az ügynökkel, követve a saját utasításait – ez a feladat „majdnem egy órát vett igénybe”, de számára még így is egyszerűbb volt, mint kézzel elintézni wired.com.
  • Irodai feladatok – Táblázatok és prezentációk: Talán a legfigyelemreméltóbb, hogy a ChatGPT Agent képes szerkeszthető fájlokat előállítani. Képes egy Excel-táblázatot vagy egy PowerPoint-prezentációt teljesen a semmiből létrehozni az Ön utasítása alapján openai.com. Például megkérheti, hogy elemezze a versenytársairól szóló adatokat, és készítsen egy prezentációt diagramokkal, amelyek összefoglalják a megállapításokat openai.com. Frissíteni is tud táblázatokat új adatokkal, vagy képernyőképekből formázott prezentációt készíteni openai.com. A kimeneti fájlok letölthetők, és szabványos irodai szoftverekkel nyithatók meg (bár az OpenAI figyelmeztet, hogy a prezentációkészítő funkció még béta állapotban van) openai.com.
  • Fejlesztői eszközök és API-k használata: A háttérben az ügynök hozzáfér egy programozói terminálhoz, és képes nyilvános API-kat hívni. Ez azt jelenti, hogy futtathat kódot egyedi számításokhoz vagy külső szolgáltatások lekérdezéséhez. Olyan alkalmazásokkal is integrálható, mint a Gmail vagy a GitHub „csatlakozók” segítségével, amelyek információkat húznak be (felhasználói engedéllyel), hogy azokat a válaszaiban felhasználja openai.com. Az OpenAI szerint a ChatGPT Agent képes online űrlapokat is kitölteni, valamint API-hívásokkal olyan szolgáltatásokkal kapcsolatba lépni, mint a Google Drive vagy a SharePoint wired.com.

Mindezeket a képességeket az teszi lehetővé, hogy a mesterséges intelligenciának saját „virtuális böngészőt/számítógépet” biztosítanak a munkához. Amikor feladatot ad, a ChatGPT képes weboldalakat böngészni, linkekre vagy gombokra kattintani, oldalakat görgetni, szövegmezőket kitölteni, kódot írni és futtatni, és így tovább – mindent, ami a feladat elvégzéséhez szükséges openai.comtechmeme.com. Iteratívan és autonóm módon működik, maga dönti el, hogy melyik eszközt vagy weboldalt használja legközelebb. Például egy japán vacsora megtervezése során először recepteket kereshet a Google-on, majd megnyithat egy élelmiszerbolt-oldalt a hozzávalók megrendeléséhez, végül pedig egy bevásárlólista-táblázatot generálhat – mindezt az ügynök végzi el anélkül, hogy a felhasználónak minden lépést külön irányítania kellene.

Hogyan működik a ChatGPT Agent?

A színfalak mögött a ChatGPT Agentet egy új AI modell hajtja, amelyet az OpenAI kifejezetten ügynökfeladatokra fejlesztett ki, elkülönítve az alap GPT-4 modelltől theverge.com. A modellt megerősítéses tanulással képezték ki, hogy összetett feladatokat tudjon kezelni, amelyek több eszköz (például böngészők, API-k és kód) egymás utáni használatát igénylik theverge.com. Valójában az OpenAI két korábbi kísérleti rendszert – Operator (egy böngésző/automatizációs eszköz) és Deep Research (egy mélyelemző eszköz) – egyesített ebben az egységes ügynökben. „Rájöttünk, hogy a két termék nagyon jól kiegészíti egymást, és gyakorlatilag úgy döntöttünk, hogy egyesítjük a csapatokat,” mondja Fulford wired.com. Az eredmény egy olyan ügynök lett, amely az Operator webes navigációs képességét ötvözi a Deep Research információszintetizáló tudásával egyetlen munkafolyamatban wired.com.

Képességek eszköztára: A ChatGPT Agent több speciális eszközzel van felszerelve, amelyeket használni tud openai.com:

  • Egy vizuális böngésző, amellyel weboldalakkal lehet interakcióba lépni egy normál grafikus felületen keresztül, ahogy egy ember tenné (gombokra kattintva, oldalakat böngészve).
  • Egy szöveges böngésző, amely gyors HTTP-kéréseket tud küldeni és nyers szöveget tud feldolgozni (hasznos nagy szövegek gyorsabb olvasásához vagy ha nincs szükség vizuális megjelenítésre) openai.com.
  • Egy terminál/konzol, amely lehetővé teszi kód futtatását, fájlok kezelését vagy parancssori segédprogramok használatát a saját, elszigetelt környezetében openai.com.
  • Közvetlen API-hozzáférés, amely lehetővé teszi külső szolgáltatások API-jainak hívását (például Google Naptárba való bejegyzés, adatbázis lekérdezése vagy adatok lekérése online szolgáltatásból) openai.com.
  • Csatlakozók felhasználói fiókokhoz: A felhasználók összekapcsolhatják saját alkalmazásaikat (például e-mail vagy GitHub). Engedéllyel az ügynök releváns információkat tud lehívni az e-mailjeidből, naptáradból vagy más fiókjaidból a feladatok elvégzéséhez openai.com. Például átvizsgálhatja a Gmail-fiókodat a legutóbbi üzenetekért, ha összefoglalót kell készíteni, vagy API-n keresztül ellenőrizheti a naptáradat, hogy szabad időpontokat találjon.

Ezek az eszközök lehetővé teszik az AI számára, hogy kiválassza az optimális megközelítést egy feladathoz. Lehet, hogy az API-t használja a naptárad elérhetőségének gyors ellenőrzésére, majd átvált a vizuális böngészőre, hogy navigáljon egy OpenTable foglalási oldalon, amely kattintást és emberi-szerű interakciót igényel openai.com. Letölthet egy fájlt szöveges böngészőn vagy API-n keresztül, futtathat rajta kódot a terminálban elemzés vagy újraformázás céljából, majd megnyithatja az eredményeket a vizuális böngészőben, hogy bemutassa neked openai.com. Mindez az ügynök virtuális gépén belül történik, elszigetelve a tényleges eszközödtől – tehát olyan, mintha az AI-nak saját számítógépe lenne, ahol végrehajtja az utasításaidat openai.com.

Felhasználói élmény: A végfelhasználó számára a ChatGPT Agent használata egyszerű. A funkció egy új „Agent mód” formájában érhető el a ChatGPT felületén azok számára, akik hozzáféréssel rendelkeznek openai.com. Egyszerűen egy feladattal kezded a promptot (vagy beírhatod a „/agent” parancsot), és az AI átveszi az irányítást theverge.com. Munka közben a képernyőn narráció jelenik meg, amely lépésről lépésre mutatja, mit csinál az ügynök – például: „Böngészés a maps.google.com oldalon… Olasz éttermek keresése a közelben…” –, így követheted az eseményeket openai.com openai.com. Fontos, hogy bármikor megszakíthatod vagy irányíthatod az ügynököt: szüneteltetheted a folyamatot, hogy pontosítsd az utasításaidat, vagy kérheted, hogy más megközelítést alkalmazzon, és az ügynök a feladat közben is alkalmazkodik anélkül, hogy elveszítené az addigi előrehaladást openai.com. Ez az együttműködési kör célja, hogy az AI a te céljaidhoz igazodjon.

Biztonsági funkciók: Az AI műveletek ellenőrzés alatt tartása

Egy MI felhatalmazása arra, hogy online cselekedjen, nyilvánvaló biztonsági aggályokat vet fel, és az OpenAI elismeri, hogy ez az új mód „több kockázattal jár, mint a korábbi modellektheguardian.com. Ennek mérséklésére az OpenAI egy védelmi intézkedésekből álló csomagot és korlátozásokat vezetett be:

  • Felhasználói engedély érzékeny műveletekhez: „Mindig te irányítasz,” hangsúlyozza az OpenAI theguardian.com. A ChatGPT Agent kifejezett megerősítést kér mielőtt bármilyen komoly következménnyel járó dolgot tenne, például vásárlást hajtana végre, e-mailt küldene, vagy foglalást intézne a nevedben theguardian.com theverge.com. Ezeket a visszafordíthatatlan lépéseket a felhasználónak jóvá kell hagynia, így megakadályozva, hogy az MI például impulzívan 1000 dollár értékben rendeljen kütyüket az Amazonról a tudtod nélkül.
  • „Magas kockázatú” tartalmi korlátozások (Bio/Kémia): Az ügynök kibővített képességei miatt az OpenAI a „Magas biológiai és kémiai kockázat” kategóriába sorolta, még akkor is, ha „nincs egyértelmű bizonyítékuk” arra, hogy segíthetne biológiai fegyver létrehozásában theguardian.com theverge.com. Ez az óvintézkedés (az OpenAI Felkészültségi Keretrendszerének része) azt jelenti, hogy további védelmi korlátok vannak érvényben. Konkrétan az OpenAI valós idejű tartalom-osztályozót futtat minden ügynökutasításon, hogy ellenőrizze, kapcsolódik-e biológiához vagy kémiához, és ha igen, az ügynök válaszát egy második biztonsági modell is ellenőrzi, hogy ne adjon veszélyes utasításokat techcrunch.com techcrunch.com. Más szóval, ha valaki megpróbálná visszaélni az ügynökkel például mérgező anyag előállítására, a rendszer úgy van kialakítva, hogy ezt felismerje és blokkolja.
  • Káros feladatok elutasítására kiképezve: Az ügynököt arra képezték ki, hogy elutasítson bizonyos gyanús vagy rosszindulatú kéréseket. Például visszautasítja, ha nyilvánvalóan veszélyes vagy etikátlan dologra kérik, mint például egy banki átutalás végrehajtása ismeretlen számlára vagy romboló parancsok végrehajtása theguardian.com. Az OpenAI szerint red team tagok és szakterületi szakértők segítettek a rendszer tesztelésében „valósághű forgatókönyvek” ellen, hogy megerősítsék ezeket az elutasításokat openai.com.
  • Kikapcsolt hosszú távú memória: Egy érdekes korlátozás – a ChatGPT hosszú távú csevegési memóriája ki van kapcsolva ügynök módban techcrunch.com. Normál esetben a ChatGPT képes emlékezni a beszélgetés korábbi részeire vagy korábbi munkamenetekre (ha engedélyezve van), de az OpenAI attól tartott, hogy egy ügyes támadó ezt kihasználhatja ügynök feladatok során (úgynevezett prompt injection útján), hogy érzékeny adatokat szivárogtasson ki vagy nem kívánt dolgokat hajtasson végre az ügynökkel techcrunch.com. Ennek eredményeként az ügynök jelenleg állapotmentesen működik, nem visz át információt korábbi csevegésekből. Az OpenAI a jövőben újra engedélyezheti a memóriát, ha már biztosak a biztonságban, de jelenleg ez a „plusz óvintézkedés” elkerüli a lehetséges adat-szivárgásokat wired.com.
  • Pénzügyi tranzakciók tiltottak: Az OpenAI korlátozta a pénzügyi műveleteket is egyelőre. Az ügynök például nem hajt végre pénzátutalásokat vagy részvénykereskedéseket, még kérésre sem theverge.com. Valójában van egy „Watch Mode” nevű védelmi funkció, amely akkor lép életbe, ha az ügynök bizonyos érzékeny weboldalakat böngész (például bankokat vagy kereskedési platformokat) – ilyenkor szünetelteti a tevékenységét, ha a felhasználó elnavigál az ügynök böngészőfüléről, hogy megakadályozza a háttérben történő alattomos műveleteket theverge.com.
  • Kiterjedt tesztelés és jutalomprogram: Az OpenAI azt hirdeti, hogy ez a modell rendelkezik a „legátfogóbb biztonsági rendszerrel eddig” a fenyegetésmodellezés és a monitorozás terén openai.com openai.com. Együttműködtek külső bio-biztonsági szakértőkkel, és a terület specialistái red-team tesztelték az ügynököt a bevezetés előtt openai.com. A megjelenéssel egy időben az OpenAI részletes rendszerkártyát is közzétett, amely bemutatja a kockázatokat, és hibavadász programot is indított, hogy ösztönözze a külső kutatókat a sérülékenységek jelentésére openai.com openai.com.

Ezen óvintézkedések ellenére az OpenAI tudja, hogy váratlan viselkedések még mindig előfordulhatnak, amikor egy MI a vad interneten működik. A vállalat azt mondja, hogy folyamatosan finomítja az ügynököt, és szükség szerint módosítja a védelmi intézkedéseket. Egyelőre a felhasználóknak azt javasolják, hogy felügyeljék az ügynök tevékenységét (az interfész ezt azzal segíti, hogy minden lépést elmagyaráz). „Ezzel a modellel több kockázat jár, mint a korábbiakkal,” ismeri el az OpenAI, ezért „most óvatosan járnak el, és bevezetik a szükséges védelmi intézkedéseket” theguardian.com theguardian.com.

Kezdeti korlátok: Sebesség és megbízhatóság

Még ne rúgd ki az emberi asszisztensedet. Az első bemutatók és tesztek során a ChatGPT Agent lenyűgöző képességeket, de jelentős korlátokat is mutatott:

  • Lassan és egyenletes: Az ügynök gyakran hosszabb ideig tart, mire befejezi a feladatokat. Előfordulhat, hogy több percet tölt kattintgatással és böngészéssel, hogy információkat gyűjtsön, sokkal tovább, mint egy közvetlen chatbot-válasz. Egy bemutatóban például az ügynöknek 10–15 perc kellett ahhoz, hogy átnézze a Google Naptárat és éttermi oldalakat vacsorajavaslatokért theguardian.com. Egy összetett prezentáció elkészítése vagy kiterjedt kutatás végzése még ennél is tovább tarthat (az OpenAI munkatársai megjegyezték, hogy egy diakészítési feladat ~25 percet vett igénybe a tesztelés során) wired.com. „Még ha 15 percig vagy fél óráig is tart, ez még mindig jelentős gyorsulás ahhoz képest, amennyi időbe neked telne megcsinálni,” érvel Fulford, rámutatva, hogy a felhasználók elindíthatnak egy feladatot, majd más dolgokat is csinálhatnak, miközben az ügynök dolgozik theverge.com. Azért türelemre szükség van; az ügynök nem azonnali. Az OpenAI Yash Kumarja szerint egy átlagos feladat ~10–15 percig tart a jelenlegi verzióban wired.com.
  • Alkalmankénti döccenések: Mint minden mesterséges intelligencia esetében, az ügynök is hibázhat, vagy „elakadhat” egy feladatnál. A korai felhasználók vegyes eredményekről számoltak be. Egyes összetettebb munkafolyamatok összezavarhatják, vagy félúton félreértheti az utasítást. Egy korai tesztelő megjegyezte, hogy az ügynök „mindhárom feladaton, amit adtam neki, elbukott… Szép bepillantás a jövőbe, de egyelőre még nem igazán hasznos.”techmeme.com. Ez is aláhúzza, hogy a technológia, bár fejlett, nem tévedhetetlen. Maga az OpenAI is megjegyzi, hogy az ügynök „még a korai szakaszában van”, és „még mindig hibázhat.” openai.com A jövőbeli frissítések várhatóan javítják majd a megbízhatóságát és a következtetési képességeit.
  • Alapvető kimeneti minőség: A PowerPoint/diavetítés generáló funkció jelenleg béta állapotban van, ami azt jelenti, hogy az általa létrehozott diák meglehetősen egyszerűek lehetnek, vagy utólagos csiszolást igényelhetnek openai.com. Az OpenAI először a tartalom és a szerkezet helyességére összpontosított, nem pedig a látványos dizájnra. Felhívják a figyelmet arra, hogy a formázás kezdetleges lehet, és időnként eltérések lehetnek a dia előnézete és az exportált PowerPoint fájl között openai.com. Hasonlóképpen, bár az ügynök képes táblázatokat szerkeszteni és képleteket megtartani, még nem éri el egy tapasztalt ember szintjét Excelben. Az OpenAI már képzi a következő verziót, hogy „csiszoltabb, kifinomultabb kimeneteket” hozzon létre prezentációkban openai.com.
  • Nincs európai indulás (egyelőre): Figyelemre méltó, hogy a ChatGPT Agent nem indult el az EU-ban. Az OpenAI „még dolgozik azon, hogy elérhetővé tegye az Európai Gazdasági Térség és Svájc számára” openai.com. Más régiókban (beleértve az USA-t és az Egyesült Királyságot) a felhasználók azonnal hozzáférést kaptak, de az európai felhasználók határozatlan ideig várakoznak. Az OpenAI nem adott konkrét ütemtervet az EU-s bevezetésre theverge.com. Valószínűleg ez szabályozási aggályokhoz köthető – az EU szigorú adat- és MI-szabályozásai további megfelelési lépéseket követelhetnek meg az OpenAI-tól, mielőtt egy autonóm ügynököt elindítanának. Egyelőre az európaiak csak egy üzenetet látnak, hogy a funkció nem elérhető a régiójukban.
Pozitívumként az OpenAI azt állítja, hogy az új ügynök mögötti modell sokkal fejlettebb, mint a korábbi verziók, ami jó előjel a komplexitás kezelésére. A modell állítólag csúcsteljesítményt ért el több nehéz mércén techcrunch.com. Például 41,6%-ot ért el a „Humanity’s Last Exam” nevű, több mint 100 témakört felölelő, szakértői szintű teszten – ez nagyjából kétszerese az OpenAI korábbi modelljeinek eredményének ezen a teszten techcrunch.com. Egy hírhedten nehéz matematikai mércén (FrontierMath) 27,4%-os pontosságot ért el eszközhasználattal, szemben a legjobb korábbi modell 6,3%-ával techcrunch.com. Ezek a fejlesztések arra utalnak, hogy az ügynök sokkal jobb a komplex, több lépésből álló problémák megoldásában, ha eszközöket is használhat. „Az OpenAI szerint a ChatGPT ügynök sokkal fejlettebb, mint a korábbi verziók,” számol be a TechCrunch techcrunch.com – bár amíg több felhasználó nem teszi próbára valós helyzetekben, kérdéses, mennyire „fejlett” a gyakorlatban a kontrollált teszteken kívül techcrunch.com.

Elérhetőség: Ki használhatja a ChatGPT ügynököt?

Az OpenAI kezdetben csak fizetős előfizetőknek teszi elérhetővé a ChatGPT ügynököt. Ezen a héten a funkciót a ChatGPT Pro, Plus és Team csomagok (nagyjából a prémium szinteknek felelnek meg) felhasználói számára kapcsolják be techcrunch.com. A Pro felhasználók kapták meg először a hozzáférést (az indulás napján), majd a Plus és Team előfizetők következnek a következő napokban openai.com. A vállalati (Enterprise) és oktatási (Education) csomagok ügyfelei „a következő hetekben” kapják meg, miután a hibákat kijavították openai.com theverge.com. Nincs bejelentett ütemterv arra, hogy az ingyenes felhasználók mikor kapják meg az ügynök funkciót – és elképzelhető, hogy a közeljövőben fizetős szolgáltatás marad, tekintettel a hozzáadott értékre és a magas számítási költségekre.

A szintezett hozzáférés mellett az OpenAI havi használati korlátokat is bevezetett. A Pro előfizetők (a legmagasabb szint) havonta legfeljebb 400 ügynökfeladatot futtathatnak, míg a Plus és Team felhasználók havonta 40 feladatot kapnak wired.com wired.com. Ez a korlát biztosítja, hogy a költséges műveletek ne szabaduljanak el ellenőrizetlenül, de további használat vásárolható kreditrendszeren keresztül, ha a felhasználóknak többre van szükségük openai.com. A feladatokat „agentic prompt”-onként számolják, vagyis minden alkalommal, amikor aktiválod az ügynököt valamilyen feladatra, az egynek számít.

Ahogy említettük, az európai felhasználók nem férhetnek hozzá a ChatGPT Agenthez a bevezetéskor theguardian.com. Amikor nem EU-s felhasználók bekapcsolják az ügynök módot, figyelmeztetést kapnak a funkció kísérleti jellegéről, majd folytathatják. Az EU-s felhasználók azonban egyszerűen blokkolva vannak. Az OpenAI megjegyzése, miszerint dolgoznak az EGT-s hozzáférésen, arra utal, hogy a késlekedés valószínűleg az EU-szabályozásoknak való megfelelés (talán adatvédelemhez vagy az AI Act-hez kapcsolódóan) miatt van. Ez a földrajzi korlátozás emlékeztet arra, ahogyan korábban néhány ChatGPT-funkciót (például a webes böngészést) ideiglenesen visszatartottak bizonyos régiókban jogi bizonytalanság miatt. Egyelőre az EU-ban élőknek várniuk kell, amíg az OpenAI biztosítja, hogy az ügynök megfelel a helyi követelményeknek.

Mesterséges intelligencia ügynökfegyverkezési verseny – Google, Anthropic & mások

Az OpenAI „agentic” AI irányába tett lépése egy szélesebb iparági trend része az autonóm AI asszisztensek felé. Valójában a versenytársak is fejlesztik saját ügynökszerű funkcióikat:

  • Anthropic Claude-ja: Tavaly az Anthropic (a Claude chatbot készítője) bevezetett egy „Computer Use” nevű képességet – lényegében lehetővé téve Claude számára, hogy úgy használjon egy számítógépet, mint egy ember, például böngésszen weboldalakat és feladatokat hajtson végre a felhasználó gépén theverge.com. Mindössze két hónappal ezelőtt (2025 májusában) az Anthropic elindította legújabb modelljét, a Claude 2-t (kódnév: Opus 4) ügynöki funkciókkal, és hasonlóan speciális bio-biztonsági intézkedéseket vezetett be a visszaélések megelőzésére theverge.com. Ez azt mutatja, hogy még a kisebb AI startupok is tisztában vannak az autonóm ügynökök erejével és kockázataival.
  • A Google MI kiterjesztései: A Google azon dolgozik, hogy generatív MI-jét (mint a Bard és az Assistant) közvetlen műveletekkel integrálja. Bemutattak olyan MI-t, amely képes e-maileket fogalmazni a Gmailben, dokumentumokat összefoglalni a Google Drive-ban, sőt, még böngészőt is irányítani a kísérleti „Duet AI” for Workspace segítségével. A Guardian megjegyzi, hogy a Google nemrég hasonló asszisztens „ügynököket” indított, amelyek képesek alkalmazások között váltani a felhasználói feladatok elvégzéséhez theguardian.com. Emellett éppen a múlt héten a Google kulcsfontosságú munkatársakat vett fel egy startupból (Windsurf), kifejezetten azért, hogy erősítse ügynökszerű MI projektjeit theverge.com, ami kiemeli a versenyt a Jarvis-szerű asszisztensek megalkotásáért.
  • Más szereplők: A Meta (Facebook) és az Amazon is említette MI ügynök törekvéseit a negyedéves jelentésekben, jelezve, hogy a nagy technológiai cégek mind ezt tartják a következő nagy dobásnak theverge.com. Például az e-kereskedelmi cégek olyan MI ügynököket képzelnek el, amelyek teljes egészében képesek kezelni az ügyfélszolgálati csevegéseket vagy vásárlási kéréseket. Egy figyelemre méltó korai példában a fintech cég, a Klarna 2024 elején arról számolt be, hogy MI ügyfélszolgálati ügynöke az összes ügyfélcsevegés kétharmadát kezelte, mintegy 700 ember munkáját végezve el theverge.com. Ez a sikertörténet segített elterjeszteni a „MI ügynök” kifejezést a vállalati körökben, és azóta sok vezérigazgató tűzte ki célul az ügynökalapú MI-t theverge.com.
  • Korábbi kísérletek: Maga az OpenAI is korábban belekóstolt már az ügynökök fejlesztésébe. 2025 januárjában kiadta az Operator nevű kutatási előzetest, amelyet úgy írtak le, mint „egy ügynök, amely fel tud menni a webre, hogy feladatokat hajtson végre helyetted” theverge.com. Az Operator képes volt kattintani és görgetni weboldalakon. Volt egy Deep Research mód is, amely hosszabb elemzéseket tudott írni. Ezek az előfutárok azonban korlátozottak voltak és néha megbízhatatlanul működtek. Más startupok (mint például az Adept AI ACT-1-je) is bemutattak olyan ügynököket, amelyek képesek szoftverekben parancsokat végrehajtani, mint egy ember, de egyikük sem vált még széles körben elterjedt termékké. Az AI ügynökök korai generációi nehezen boldogultak az összetett feladatokkal és a megbízhatósággal techcrunch.com – gyakran sok kézi beavatkozást igényeltek. A technológiai vezetők olyan AI asszisztensekről álmodtak, amelyek bármit meg tudnak csinálni, de a valóság elmaradt a hype-tól techcrunch.com.

Most a ChatGPT Agenttel az OpenAI megpróbálja átugrani ezeket a korábbi próbálkozásokat. Az erősségek (webböngészés + elemzés) kombinálásával és a GPT-4 szintű intelligencia alkalmazásával azt állítják, hogy végre egy olyan ügynököt hoztak létre, amely közelít a nagy vízióhoz. „Ez a valaha volt legjobb UX egy ügynökhöz. TELJESEN ŐRÜLETES. ÜBERELD EZT!!” – írta egy lelkes felhasználó az indulás utántechmeme.com. Bár ez a vélemény nyilvánvalóan túlzó, jól tükrözi az AI közösség egyes részeiben tapasztalható izgatottságot, hogy egyre közelebb kerülünk egy „J.A.R.V.I.S.” – vagyis Vasember fiktív AI komornyikja – valósággá válásához theverge.com. Egyelőre a ChatGPT Agent és társai még csak az első lépéseket jelentik ehhez az ideálhoz, főként kutatási, programozási és alapvető online feladatokat látnak el, nem pedig valóban nyitott végű autonómiát theverge.com. De a verseny lendülete egyértelmű: minden AI cég első akar lenni, amely megalkotja azt az AI asszisztenst, amelyet az emberek ténylegesen naponta használnak.

Monetizáció: Hoznak-e pénzt az ügynökök az OpenAI-nak?

A ChatGPT Agent bevezetésével az OpenAI nemcsak új technológiát mutat be – hanem potenciális bevételi forrásokat is keres. A vállalat erősen dotálta a ChatGPT fejlesztését (a Microsoft milliárdos befektetésével), és szüksége van arra, hogy a rendkívül népszerű AI-t „pénztermelő termékké” alakítsa wired.com. Az ügynökök többféleképpen is kulcsfontosságúak lehetnek ebben a monetizációban:

  • Előfizetéses felár: Egyszerűen fogalmazva, az ügynök mód egy prémium funkció, amely több felhasználót ösztönözhet a fizetős csomagokra. Azáltal, hogy ezt csak a Plus/Pro előfizetők számára teszi elérhetővé, az OpenAI a havi 20 dolláros (vagy annál magasabb) díjat vonzóbbá teszi azoknak a haladó felhasználóknak, akik egy AI-asszisztenst szeretnének a munkájuk átruházására. Ez a legegyszerűbb, azonnali monetizáció: több embert rávenni arra, hogy fizessen a ChatGPT használatáért.
  • Tranzakciós díjak: Az OpenAI vezérigazgatója, Sam Altman utalt arra, hogy jutalékot szerezhetnek az AI-n keresztül lebonyolított kereskedelemből. Azt feltételezte, hogy az OpenAI „2%-os díjat számíthatna fel az általa generált eladások után” az asszisztens közreműködésével theguardian.com. Más szóval, ha a ChatGPT Agent segít egy termék megvásárlásában vagy egy hotel lefoglalásában, az OpenAI egy kis részesedést kaphat (a kereskedőtől vagy partneri linkeken keresztül). Ez a modell az AI-alapú vásárlást vagy foglalást bevételi forrássá alakítaná. A legutóbbi ügynökdemó, amelyben a felhasználót kiskereskedelmi pénztárakhoz irányította, azonnal találgatásokat indított el arról, hogy az OpenAI a jövőben ilyen partneri vagy ajánlási díjakat is bevezethet theguardian.com.
  • Szponzorált találatok/hirdetések: Az AI-asszisztensek új platformot jelenthetnek a hirdetések számára. Ha egy ügynök termékeket vagy éttermeket ajánl, vajon a márkák fizetni fognak azért, hogy őket javasolja? „Valamilyen hirdetés vagy szponzorált elhelyezés elkerülhetetlennek tűnik,” jegyzi meg Niamh Burns elemző, utalva az „egyre nagyobb nyomásra [az AI-cégeken], hogy monetizálják termékeiket.” theguardian.com Erre van is példa – a keresőmotorok hirdetésekből szereznek bevételt, így egy keresést kiváltó AI is tehet így. Azonban az OpenAI tagadja, hogy jelenleg szponzorált tartalmat használna a ChatGPT Agent ajánlásaiban theguardian.com. Kijelentették, hogy az ügynök nem tartalmaz fizetett termékelhelyezéseket, és „nincs terv ennek megváltoztatására.” theguardian.com Jelenleg az eredmények kizárólag a felhasználó szempontjai és az AI megítélése alapján születnek. Ennek ellenére a jövőben, az asszisztens ökoszisztéma fejlődésével, nyitva marad az ajtó a hirdetési modellek előtt.
  • Vállalati szolgáltatások: Az OpenAI úgy is pénzt kereshet, hogy az ügynököt vállalati szoftvermegoldások részeként kínálja. Például a cégek fizethetnek azért, hogy a ChatGPT Agentet integrálják belső eszközeikbe, vagy hogy az ügyfélszolgálatot kezelje. Az OpenAI már tárgyal Microsofttal a partnerség folytatásáról, és elképzelhető, hogy fejlett ügynökök a Microsoft kínálatába is bekerülnek (ami közvetve bevételt vagy kedvező feltételeket hozhat az OpenAI-nak) wired.com. Az „vállalati felhasználási esetek” nagy szerepet játszottak az ügynök tervezésében Yash Kumar termékfelelős szerint wired.com, vagyis az OpenAI valószínűleg már most is azon gondolkodik, hogyan használhatják (és fizethetnek érte) a cégek ezt a technológiát.

Rövid távon az OpenAI valószínűleg az ügynök finomhangolására és az előfizetések növelésére koncentrál. De ha az ügynökök valóban olyan hasznosak lesznek, mint ígérik, idővel akár teljes tranzakciókat vagy munkafolyamatokat is lebonyolíthatnak – és az OpenAI biztosan igyekszik majd ebből részesedni. A cégnek egyensúlyoznia kell a felhasználói bizalmat (egy termékeket ajánló ügynöknek elfogulatlannak kell tűnnie, hogy megbízzanak benne) és a pénzkeresést. Hogy ezt hogyan oldják meg, azt sokan figyelik majd. Ahogy Burns elemző elgondolkodott: ha egy ügynök talál meg neked termékeket, „mi alapján választja ki a rendszer ezeket? Lesznek-e kereskedelmi megállapodások, ahol márkák fizetnek azért, hogy az asszisztensek kiemeljék őket…?” theguardian.com. Az OpenAI szerint egyelőre nem, de a gazdasági ösztönző adott.

Szakértői reakciók és kilátások

A ChatGPT Agent bemutatkozása egyszerre váltott ki izgatottságot és óvatos megjegyzéseket a szakértőkből és a korai felhasználókból. Ethan Mollick, a Wharton professzora, aki ismert arról, hogy kísérletezik a mesterséges intelligenciával az oktatásban, egy kis csoport tagjaként korai hozzáférést kapott. Véleménye pozitív volt: „A ChatGPT agent szerintem nagy előrelépés abban, hogy az MI-k valódi munkát végezzenek. Már ebben a fázisban is jól kutat, önállóan összerak Excel fájlokat (képletekkel!), PowerPointot, stb.”techmeme.com. Mollick szerint ez már most is ízelítőt ad abból, hogyan „állnak össze” az ügynök különböző képességei, még ha nem is tökéletestechmeme.com. Más AI-kutatók is hasonlóan vélekedtek, lenyűgözte őket, ahogy a ChatGPT Agent képes feladatokat láncolni és olyan használható eredményeket előállítani, amelyek korábban sok manuális lépést igényeltek.

Ugyanakkor elismerik, hogy a valós környezetben történő tesztelés csak most kezdődött el. Mennyire megbízhatóan kezeli az ügynök a zűrzavaros, nyílt internetet, el tudja-e kerülni, hogy átverések vagy félretájékoztatás áldozatává váljon böngészés közben, illetve mennyire találják valóban hasznosnak az átlagfelhasználók – ezek nyitott kérdések. „Még ki kell derülnie, mennyire képes a valós világban” – jegyezte meg a TechCrunch, tekintettel arra, hogy a korábbi ügynökök törékenyek voltak váratlan helyzetekben techcrunch.com. Tágabb társadalmi aggodalom is felmerül azzal kapcsolatban, hogy egyre több döntési jogkört adunk az MI-nek: még engedélykérések mellett is biztosan lesznek történetek furcsa vagy kockázatos MI-döntésekről. Maga az OpenAI rendszerkártyája is elismeri, hogy „újszerű kockázatok” járnak ekkora autonómiával, és folyamatos kutatást ígér ezek mérséklésére openai.com openai.com.

Jelenleg a ChatGPT Agent bevezetése mérföldkövet jelent az MI útján, amely a pusztán asszisztív szöveggenerálástól a tényleges feladatvégrehajtásig vezet. Ez része egy paradigmaváltásnak a „chatbotoktól” az „ügynökökig” – olyan MI-rendszerekig, amelyek kezdeményezni tudnak és célokat teljesítenek a digitális világban, nem csak beszélgetnek. „Az ügynök most a legfelkapottabb hívószó” – írja a WIRED, éppen azért, mert annyi cég hajszolja ezt a víziót wired.com. Az OpenAI határozottan letette a zászlaját ezen az új területen, kihasználva a ChatGPT népszerűségét és ismertségét, hogy ügynököt juttasson a tömegekhez (vagy legalábbis a fizető tömegekhez).

A lényeg: Ha jogosult ChatGPT-felhasználó vagy, mostantól bizonyos unalmas vagy összetett feladatokat átruházhatsz egy MI-segítőre, és végignézheted, ahogy lépésről lépésre elvégzi őket. Ez kissé varázslatos érzés lehet – mintha lenne egy szorgalmas gyakornokod, aki sosem alszik –, ugyanakkor kissé nyugtalanító is, ahogy az MI önállóan barangol a weben. Ez a bevezetés egy nagy kísérlet kezdete abban, hogyan használhatják a hétköznapi emberek az MI-ügynököket. Ahogy egy korai felhasználó fogalmazott: „[Jól] végzi a dolgát önállóan… Ízelítőt ad abból, hogyan állnak össze az ügynökök.”techmeme.com A következő hónapokban kiderül, hogy a ChatGPT Agent valóban beváltja-e a kényelmet és produktivitást ígérő ígéretét, illetve hogyan teljesít a rivális MI-asszisztensek egyre növekvő mezőnyében. Egy dolog biztos: eljött az MI korszaka, amely cselekszik, nem csak beszélget.

Források:

Tags: , ,