Az OpenAI bemutatja a ChatGPT Agentet – az AI-asszisztenst, amely tervez, vásárol és PowerPointokat készít helyetted

2025. július 17-én indult a ChatGPT Agent, az OpenAI új „Agent” üzemmódja.
Az Agent beépített virtuális számítógépet használ a webböngészéshez, űrlapok kitöltéséhez, kód futtatásához és Excel-fájlok vagy PowerPoint-prezentációk készítéséhez a felhasználó nevében.
Képes több lépéses feladatokat végrehajtani, például éttermi foglalásokat találni vagy online vásárlást intézni a felhasználó jóváhagyásával.
Eszköztára a vizuális böngésző, a szöveges böngésző és a terminál/konzol, amelyekkel weboldalakkal böngész, HTTP-kéréseket küld és kódot futtat.
Csatlakozók és fiókok révén összekapcsolható például Gmaillel vagy GitHubbal, engedéllyel adatokat húzhat le a felhasználó fiókjaiból.
Biztonsági korlátozásoknak köszönhetően a felhasználó egyértelmű jóváhagyása szükséges komoly műveletekhez, és a Watch Mode is megállíthatja az ügynököt érzékeny oldalakon.
A hosszú távú memóriája ki van kapcsolva az ügynökmódban, hogy a biztonságot növeljék.
Kezdetben csak fizetős előfizetők kapták meg az ügynök funkciót (Pro, Plus és Team), Pro felhasználók havonta 400 feladathoz férhetnek hozzá, Plus és Team pedig 40 feladathoz.
Az EU-ban és Svájcban egyelőre nem elérhető az ügynök, az OpenAI később tervezi az EU-s hozzáférést, konkrét dátumot nem közöltek.
A kezdeti tesztek szerint a modell lassú és néha bizonytalan, 10–15 perces átlagos időket mutatott például naptár- és éttermi oldalak átnézéséhez, a prezentációk béta állapotban vannak.

A ChatGPT chatbotból személyi asszisztenssé fejlődik

Az OpenAI jelentős frissítést vezetett be a ChatGPT-n, amely a népszerű chatbotot egy személyes AI asszisztenssé alakítja, amely nemcsak kérdésekre válaszol, hanem a felhasználó nevében cselekedni is képes. Az új funkció neve: ChatGPT „Agent”, amely csütörtökön indult, és lehetővé teszi, hogy a ChatGPT „gondolkodjon” és cselekedjen a saját virtuális számítógépét használva ^[1]. Gyakorlatilag a felhasználók mostantól megkérhetik a ChatGPT-t, hogy több lépésből álló feladatokat végezzen el – például éttermi foglalásokat találjon, vagy online vásároljon, illetve teljes táblázatokat és prezentációkat generáljon önállóan ^[2]. Az OpenAI szerint ez az agent mód lehetővé teszi, hogy a mesterséges intelligencia weboldalakat böngésszen, webböngészőket és alkalmazásokat irányítson, fájlokat kezeljen, és olyan kimeneteket hozzon létre, mint Excel-fájlok vagy PowerPoint-prezentációk, nem csupán szöveges válaszokat adjon ^[3].

Miért fontos ez: Ez a frissítés az OpenAI eddigi legmerészebb lépése, hogy túllépjen a statikus kérdezz-felelek chatboton, és egy olyan AI-t hozzon létre, amely digitális asszisztensként vagy „agentként” működik. A hagyományos chatbotokkal ellentétben az AI agentek képesek összetett, több lépésből álló munkafolyamatokat végrehajtani, szoftverekkel és weboldalakkal interakcióba lépve a felhasználó nevében ^[4]. „A remény az, hogy az agentek valódi hasznot hoznak a felhasználóknak – ténylegesen elvégeznek dolgokat helyettük, nem csak csiszolt szöveget adnak vissza és lenyűgözően hangzanak,” jegyzi meg Niamh Burns, az Enders Analysis vezető médiaelemzője ^[5]. Lényegében a ChatGPT új agent módja ezt az ígéretet kívánja beteljesíteni azzal, hogy valódi online munkát végez a felhasználók helyett, nem csak cseveg.

Az OpenAI ChatGPT Agent beépített „virtuális számítógépet” használ a web böngészésére, űrlapok kitöltésére, kód futtatására, sőt, Excel-táblázatok vagy PowerPoint-prezentációk elkészítésére is a felhasználó nevében ^[6] ^[7].

Mire képes az új ChatGPT Agent?

Az OpenAI a ChatGPT Agentet általános célú digitális asszisztensként mutatja be, amely képes számos számítógépes feladat elvégzésére ^[8]. Néhány példa arra, mire képes:

Ütemezések és tervek kezelése: Ellenőrzi a naptáradat, és tájékoztat a közelgő találkozókról, vagy keres egy szabad estét, majd éttermi asztalfoglalást keres az OpenTable-en ^[9] ^[10]. Eseményeket is tud tervezni, például randevúestet, az időbeosztásod és az éttermi elérhetőség összevetésével.
Online kutatás és jelentések: Mélyreható webes kutatást végez egy témában, és készít egy tömör jelentést vagy elemzést. Például elemezheti a trendeket (pl. „a Beanie Babies és a Labubus felemelkedése”), és összefoglalót vagy részletes kutatási anyagot készíthet ^[11].
Vásárlás és rendelés: Az ügynök online vásárlást is elvégez helyetted. Megkérheted, hogy keressen bizonyos feltételeknek megfelelő termékeket, hasonlítsa össze az opciókat, sőt, akár rendelést is leadhat (a te engedélyeddel) ^[12] ^[13]. Az OpenAI kutatásvezetője, Isa Fulford például egy adag cupcake-et rendelt az ügynökkel, követve a saját utasításait – ez a feladat „majdnem egy órát vett igénybe”, de számára még így is egyszerűbb volt, mint kézzel elintézni ^[14].
Irodai feladatok – Táblázatok és prezentációk: Talán a legfigyelemreméltóbb, hogy a ChatGPT Agent képes szerkeszthető fájlokat előállítani. Képes egy Excel-táblázatot vagy egy PowerPoint-prezentációt teljesen a semmiből létrehozni az Ön utasítása alapján ^[15]. Például megkérheti, hogy elemezze a versenytársairól szóló adatokat, és készítsen egy prezentációt diagramokkal, amelyek összefoglalják a megállapításokat ^[16]. Frissíteni is tud táblázatokat új adatokkal, vagy képernyőképekből formázott prezentációt készíteni ^[17]. A kimeneti fájlok letölthetők, és szabványos irodai szoftverekkel nyithatók meg (bár az OpenAI figyelmeztet, hogy a prezentációkészítő funkció még béta állapotban van) ^[18].
Fejlesztői eszközök és API-k használata: A háttérben az ügynök hozzáfér egy programozói terminálhoz, és képes nyilvános API-kat hívni. Ez azt jelenti, hogy futtathat kódot egyedi számításokhoz vagy külső szolgáltatások lekérdezéséhez. Olyan alkalmazásokkal is integrálható, mint a Gmail vagy a GitHub „csatlakozók” segítségével, amelyek információkat húznak be (felhasználói engedéllyel), hogy azokat a válaszaiban felhasználja ^[19]. Az OpenAI szerint a ChatGPT Agent képes online űrlapokat is kitölteni, valamint API-hívásokkal olyan szolgáltatásokkal kapcsolatba lépni, mint a Google Drive vagy a SharePoint ^[20].

Mindezeket a képességeket az teszi lehetővé, hogy a mesterséges intelligenciának saját „virtuális böngészőt/számítógépet” biztosítanak a munkához. Amikor feladatot ad, a ChatGPT képes weboldalakat böngészni, linkekre vagy gombokra kattintani, oldalakat görgetni, szövegmezőket kitölteni, kódot írni és futtatni, és így tovább – mindent, ami a feladat elvégzéséhez szükséges ^[21] ^[22]. Iteratívan és autonóm módon működik, maga dönti el, hogy melyik eszközt vagy weboldalt használja legközelebb. Például egy japán vacsora megtervezése során először recepteket kereshet a Google-on, majd megnyithat egy élelmiszerbolt-oldalt a hozzávalók megrendeléséhez, végül pedig egy bevásárlólista-táblázatot generálhat – mindezt az ügynök végzi el anélkül, hogy a felhasználónak minden lépést külön irányítania kellene.

Hogyan működik a ChatGPT Agent?

A színfalak mögött a ChatGPT Agentet egy új AI modell hajtja, amelyet az OpenAI kifejezetten ügynökfeladatokra fejlesztett ki, elkülönítve az alap GPT-4 modelltől ^[23]. A modellt megerősítéses tanulással képezték ki, hogy összetett feladatokat tudjon kezelni, amelyek több eszköz (például böngészők, API-k és kód) egymás utáni használatát igénylik ^[24]. Valójában az OpenAI két korábbi kísérleti rendszert – Operator (egy böngésző/automatizációs eszköz) és Deep Research (egy mélyelemző eszköz) – egyesített ebben az egységes ügynökben. „Rájöttünk, hogy a két termék nagyon jól kiegészíti egymást, és gyakorlatilag úgy döntöttünk, hogy egyesítjük a csapatokat,” mondja Fulford ^[25]. Az eredmény egy olyan ügynök lett, amely az Operator webes navigációs képességét ötvözi a Deep Research információszintetizáló tudásával egyetlen munkafolyamatban ^[26].

Képességek eszköztára: A ChatGPT Agent több speciális eszközzel van felszerelve, amelyeket használni tud ^[27]:

Egy vizuális böngésző, amellyel weboldalakkal lehet interakcióba lépni egy normál grafikus felületen keresztül, ahogy egy ember tenné (gombokra kattintva, oldalakat böngészve).
Egy szöveges böngésző, amely gyors HTTP-kéréseket tud küldeni és nyers szöveget tud feldolgozni (hasznos nagy szövegek gyorsabb olvasásához vagy ha nincs szükség vizuális megjelenítésre) ^[28].
Egy terminál/konzol, amely lehetővé teszi kód futtatását, fájlok kezelését vagy parancssori segédprogramok használatát a saját, elszigetelt környezetében ^[29].
Közvetlen API-hozzáférés, amely lehetővé teszi külső szolgáltatások API-jainak hívását (például Google Naptárba való bejegyzés, adatbázis lekérdezése vagy adatok lekérése online szolgáltatásból) ^[30].
Csatlakozók felhasználói fiókokhoz: A felhasználók összekapcsolhatják saját alkalmazásaikat (például e-mail vagy GitHub). Engedéllyel az ügynök releváns információkat tud lehívni az e-mailjeidből, naptáradból vagy más fiókjaidból a feladatok elvégzéséhez ^[31]. Például átvizsgálhatja a Gmail-fiókodat a legutóbbi üzenetekért, ha összefoglalót kell készíteni, vagy API-n keresztül ellenőrizheti a naptáradat, hogy szabad időpontokat találjon.

Ezek az eszközök lehetővé teszik az AI számára, hogy kiválassza az optimális megközelítést egy feladathoz. Lehet, hogy az API-t használja a naptárad elérhetőségének gyors ellenőrzésére, majd átvált a vizuális böngészőre, hogy navigáljon egy OpenTable foglalási oldalon, amely kattintást és emberi-szerű interakciót igényel ^[32]. Letölthet egy fájlt szöveges böngészőn vagy API-n keresztül, futtathat rajta kódot a terminálban elemzés vagy újraformázás céljából, majd megnyithatja az eredményeket a vizuális böngészőben, hogy bemutassa neked ^[33]. Mindez az ügynök virtuális gépén belül történik, elszigetelve a tényleges eszközödtől – tehát olyan, mintha az AI-nak saját számítógépe lenne, ahol végrehajtja az utasításaidat ^[34].

Felhasználói élmény: A végfelhasználó számára a ChatGPT Agent használata egyszerű. A funkció egy új „Agent mód” formájában érhető el a ChatGPT felületén azok számára, akik hozzáféréssel rendelkeznek ^[35]. Egyszerűen egy feladattal kezded a promptot (vagy beírhatod a „/agent” parancsot), és az AI átveszi az irányítást ^[36]. Munka közben a képernyőn narráció jelenik meg, amely lépésről lépésre mutatja, mit csinál az ügynök – például: „Böngészés a maps.google.com oldalon… Olasz éttermek keresése a közelben…” –, így követheted az eseményeket ^[37] ^[38]. Fontos, hogy bármikor megszakíthatod vagy irányíthatod az ügynököt: szüneteltetheted a folyamatot, hogy pontosítsd az utasításaidat, vagy kérheted, hogy más megközelítést alkalmazzon, és az ügynök a feladat közben is alkalmazkodik anélkül, hogy elveszítené az addigi előrehaladást ^[39]. Ez az együttműködési kör célja, hogy az AI a te céljaidhoz igazodjon.

Biztonsági funkciók: Az AI műveletek ellenőrzés alatt tartása

Egy MI felhatalmazása arra, hogy online cselekedjen, nyilvánvaló biztonsági aggályokat vet fel, és az OpenAI elismeri, hogy ez az új mód „több kockázattal jár, mint a korábbi modellek” ^[40]. Ennek mérséklésére az OpenAI egy védelmi intézkedésekből álló csomagot és korlátozásokat vezetett be:

Felhasználói engedély érzékeny műveletekhez: „Mindig te irányítasz,” hangsúlyozza az OpenAI ^[41]. A ChatGPT Agent kifejezett megerősítést kér mielőtt bármilyen komoly következménnyel járó dolgot tenne, például vásárlást hajtana végre, e-mailt küldene, vagy foglalást intézne a nevedben ^[42] ^[43]. Ezeket a visszafordíthatatlan lépéseket a felhasználónak jóvá kell hagynia, így megakadályozva, hogy az MI például impulzívan 1000 dollár értékben rendeljen kütyüket az Amazonról a tudtod nélkül.
„Magas kockázatú” tartalmi korlátozások (Bio/Kémia): Az ügynök kibővített képességei miatt az OpenAI a „Magas biológiai és kémiai kockázat” kategóriába sorolta, még akkor is, ha „nincs egyértelmű bizonyítékuk” arra, hogy segíthetne biológiai fegyver létrehozásában ^[44] ^[45]. Ez az óvintézkedés (az OpenAI Felkészültségi Keretrendszerének része) azt jelenti, hogy további védelmi korlátok vannak érvényben. Konkrétan az OpenAI valós idejű tartalom-osztályozót futtat minden ügynökutasításon, hogy ellenőrizze, kapcsolódik-e biológiához vagy kémiához, és ha igen, az ügynök válaszát egy második biztonsági modell is ellenőrzi, hogy ne adjon veszélyes utasításokat ^[46] ^[47]. Más szóval, ha valaki megpróbálná visszaélni az ügynökkel például mérgező anyag előállítására, a rendszer úgy van kialakítva, hogy ezt felismerje és blokkolja.
Káros feladatok elutasítására kiképezve: Az ügynököt arra képezték ki, hogy elutasítson bizonyos gyanús vagy rosszindulatú kéréseket. Például visszautasítja, ha nyilvánvalóan veszélyes vagy etikátlan dologra kérik, mint például egy banki átutalás végrehajtása ismeretlen számlára vagy romboló parancsok végrehajtása ^[48]. Az OpenAI szerint red team tagok és szakterületi szakértők segítettek a rendszer tesztelésében „valósághű forgatókönyvek” ellen, hogy megerősítsék ezeket az elutasításokat ^[49].
Kikapcsolt hosszú távú memória: Egy érdekes korlátozás – a ChatGPT hosszú távú csevegési memóriája ki van kapcsolva ügynök módban ^[50]. Normál esetben a ChatGPT képes emlékezni a beszélgetés korábbi részeire vagy korábbi munkamenetekre (ha engedélyezve van), de az OpenAI attól tartott, hogy egy ügyes támadó ezt kihasználhatja ügynök feladatok során (úgynevezett prompt injection útján), hogy érzékeny adatokat szivárogtasson ki vagy nem kívánt dolgokat hajtasson végre az ügynökkel ^[51]. Ennek eredményeként az ügynök jelenleg állapotmentesen működik, nem visz át információt korábbi csevegésekből. Az OpenAI a jövőben újra engedélyezheti a memóriát, ha már biztosak a biztonságban, de jelenleg ez a „plusz óvintézkedés” elkerüli a lehetséges adat-szivárgásokat ^[52].
Pénzügyi tranzakciók tiltottak: Az OpenAI korlátozta a pénzügyi műveleteket is egyelőre. Az ügynök például nem hajt végre pénzátutalásokat vagy részvénykereskedéseket, még kérésre sem ^[53]. Valójában van egy „Watch Mode” nevű védelmi funkció, amely akkor lép életbe, ha az ügynök bizonyos érzékeny weboldalakat böngész (például bankokat vagy kereskedési platformokat) – ilyenkor szünetelteti a tevékenységét, ha a felhasználó elnavigál az ügynök böngészőfüléről, hogy megakadályozza a háttérben történő alattomos műveleteket ^[54].
Kiterjedt tesztelés és jutalomprogram: Az OpenAI azt hirdeti, hogy ez a modell rendelkezik a „legátfogóbb biztonsági rendszerrel eddig” a fenyegetésmodellezés és a monitorozás terén ^[55] ^[56]. Együttműködtek külső bio-biztonsági szakértőkkel, és a terület specialistái red-team tesztelték az ügynököt a bevezetés előtt ^[57]. A megjelenéssel egy időben az OpenAI részletes rendszerkártyát is közzétett, amely bemutatja a kockázatokat, és hibavadász programot is indított, hogy ösztönözze a külső kutatókat a sérülékenységek jelentésére ^[58] ^[59].

Ezen óvintézkedések ellenére az OpenAI tudja, hogy váratlan viselkedések még mindig előfordulhatnak, amikor egy MI a vad interneten működik. A vállalat azt mondja, hogy folyamatosan finomítja az ügynököt, és szükség szerint módosítja a védelmi intézkedéseket. Egyelőre a felhasználóknak azt javasolják, hogy felügyeljék az ügynök tevékenységét (az interfész ezt azzal segíti, hogy minden lépést elmagyaráz). „Ezzel a modellel több kockázat jár, mint a korábbiakkal,” ismeri el az OpenAI, ezért „most óvatosan járnak el, és bevezetik a szükséges védelmi intézkedéseket” ^[60] ^[61].

Kezdeti korlátok: Sebesség és megbízhatóság

Még ne rúgd ki az emberi asszisztensedet. Az első bemutatók és tesztek során a ChatGPT Agent lenyűgöző képességeket, de jelentős korlátokat is mutatott:

Lassan és egyenletes: Az ügynök gyakran hosszabb ideig tart, mire befejezi a feladatokat. Előfordulhat, hogy több percet tölt kattintgatással és böngészéssel, hogy információkat gyűjtsön, sokkal tovább, mint egy közvetlen chatbot-válasz. Egy bemutatóban például az ügynöknek 10–15 perc kellett ahhoz, hogy átnézze a Google Naptárat és éttermi oldalakat vacsorajavaslatokért ^[62]. Egy összetett prezentáció elkészítése vagy kiterjedt kutatás végzése még ennél is tovább tarthat (az OpenAI munkatársai megjegyezték, hogy egy diakészítési feladat ~25 percet vett igénybe a tesztelés során) ^[63]. „Még ha 15 percig vagy fél óráig is tart, ez még mindig jelentős gyorsulás ahhoz képest, amennyi időbe neked telne megcsinálni,” érvel Fulford, rámutatva, hogy a felhasználók elindíthatnak egy feladatot, majd más dolgokat is csinálhatnak, miközben az ügynök dolgozik ^[64]. Azért türelemre szükség van; az ügynök nem azonnali. Az OpenAI Yash Kumarja szerint egy átlagos feladat ~10–15 percig tart a jelenlegi verzióban ^[65].
Alkalmankénti döccenések: Mint minden mesterséges intelligencia esetében, az ügynök is hibázhat, vagy „elakadhat” egy feladatnál. A korai felhasználók vegyes eredményekről számoltak be. Egyes összetettebb munkafolyamatok összezavarhatják, vagy félúton félreértheti az utasítást. Egy korai tesztelő megjegyezte, hogy az ügynök „mindhárom feladaton, amit adtam neki, elbukott… Szép bepillantás a jövőbe, de egyelőre még nem igazán hasznos.” ^[66]. Ez is aláhúzza, hogy a technológia, bár fejlett, nem tévedhetetlen. Maga az OpenAI is megjegyzi, hogy az ügynök „még a korai szakaszában van”, és „még mindig hibázhat.” ^[67] A jövőbeli frissítések várhatóan javítják majd a megbízhatóságát és a következtetési képességeit.
Alapvető kimeneti minőség: A PowerPoint/diavetítés generáló funkció jelenleg béta állapotban van, ami azt jelenti, hogy az általa létrehozott diák meglehetősen egyszerűek lehetnek, vagy utólagos csiszolást igényelhetnek ^[68]. Az OpenAI először a tartalom és a szerkezet helyességére összpontosított, nem pedig a látványos dizájnra. Felhívják a figyelmet arra, hogy a formázás kezdetleges lehet, és időnként eltérések lehetnek a dia előnézete és az exportált PowerPoint fájl között ^[69]. Hasonlóképpen, bár az ügynök képes táblázatokat szerkeszteni és képleteket megtartani, még nem éri el egy tapasztalt ember szintjét Excelben. Az OpenAI már képzi a következő verziót, hogy „csiszoltabb, kifinomultabb kimeneteket” hozzon létre prezentációkban ^[70].
Nincs európai indulás (egyelőre): Figyelemre méltó, hogy a ChatGPT Agent nem indult el az EU-ban. Az OpenAI „még dolgozik azon, hogy elérhetővé tegye az Európai Gazdasági Térség és Svájc számára” ^[71]. Más régiókban (beleértve az USA-t és az Egyesült Királyságot) a felhasználók azonnal hozzáférést kaptak, de az európai felhasználók határozatlan ideig várakoznak. Az OpenAI nem adott konkrét ütemtervet az EU-s bevezetésre ^[72]. Valószínűleg ez szabályozási aggályokhoz köthető – az EU szigorú adat- és MI-szabályozásai további megfelelési lépéseket követelhetnek meg az OpenAI-tól, mielőtt egy autonóm ügynököt elindítanának. Egyelőre az európaiak csak egy üzenetet látnak, hogy a funkció nem elérhető a régiójukban.

Pozitívumként az OpenAI azt állítja, hogy az új ügynök mögötti modell sokkal fejlettebb, mint a korábbi verziók, ami jó előjel a komplexitás kezelésére. A modell állítólag csúcsteljesítményt ért el több nehéz mércén ^[73]. Például 41,6%-ot ért el a „Humanity’s Last Exam” nevű, több mint 100 témakört felölelő, szakértői szintű teszten – ez nagyjából kétszerese az OpenAI korábbi modelljeinek eredményének ezen a teszten ^[74]. Egy hírhedten nehéz matematikai mércén (FrontierMath) 27,4%-os pontosságot ért el eszközhasználattal, szemben a legjobb korábbi modell 6,3%-ával ^[75]. Ezek a fejlesztések arra utalnak, hogy az ügynök sokkal jobb a komplex, több lépésből álló problémák megoldásában, ha eszközöket is használhat. „Az OpenAI szerint a ChatGPT ügynök sokkal fejlettebb, mint a korábbi verziók,” számol be a TechCrunch ^[76] – bár amíg több felhasználó nem teszi próbára valós helyzetekben, kérdéses, mennyire „fejlett” a gyakorlatban a kontrollált teszteken kívül ^[77].

Elérhetőség: Ki használhatja a ChatGPT ügynököt?

Az OpenAI kezdetben csak fizetős előfizetőknek teszi elérhetővé a ChatGPT ügynököt. Ezen a héten a funkciót a ChatGPT Pro, Plus és Team csomagok (nagyjából a prémium szinteknek felelnek meg) felhasználói számára kapcsolják be ^[78]. A Pro felhasználók kapták meg először a hozzáférést (az indulás napján), majd a Plus és Team előfizetők következnek a következő napokban ^[79]. A vállalati (Enterprise) és oktatási (Education) csomagok ügyfelei „a következő hetekben” kapják meg, miután a hibákat kijavították ^[80] ^[81]. Nincs bejelentett ütemterv arra, hogy az ingyenes felhasználók mikor kapják meg az ügynök funkciót – és elképzelhető, hogy a közeljövőben fizetős szolgáltatás marad, tekintettel a hozzáadott értékre és a magas számítási költségekre.

A szintezett hozzáférés mellett az OpenAI havi használati korlátokat is bevezetett. A Pro előfizetők (a legmagasabb szint) havonta legfeljebb 400 ügynökfeladatot futtathatnak, míg a Plus és Team felhasználók havonta 40 feladatot kapnak ^[82] ^[83]. Ez a korlát biztosítja, hogy a költséges műveletek ne szabaduljanak el ellenőrizetlenül, de további használat vásárolható kreditrendszeren keresztül, ha a felhasználóknak többre van szükségük ^[84]. A feladatokat „agentic prompt”-onként számolják, vagyis minden alkalommal, amikor aktiválod az ügynököt valamilyen feladatra, az egynek számít.

Ahogy említettük, az európai felhasználók nem férhetnek hozzá a ChatGPT Agenthez a bevezetéskor ^[85]. Amikor nem EU-s felhasználók bekapcsolják az ügynök módot, figyelmeztetést kapnak a funkció kísérleti jellegéről, majd folytathatják. Az EU-s felhasználók azonban egyszerűen blokkolva vannak. Az OpenAI megjegyzése, miszerint dolgoznak az EGT-s hozzáférésen, arra utal, hogy a késlekedés valószínűleg az EU-szabályozásoknak való megfelelés (talán adatvédelemhez vagy az AI Act-hez kapcsolódóan) miatt van. Ez a földrajzi korlátozás emlékeztet arra, ahogyan korábban néhány ChatGPT-funkciót (például a webes böngészést) ideiglenesen visszatartottak bizonyos régiókban jogi bizonytalanság miatt. Egyelőre az EU-ban élőknek várniuk kell, amíg az OpenAI biztosítja, hogy az ügynök megfelel a helyi követelményeknek.

Mesterséges intelligencia ügynökfegyverkezési verseny – Google, Anthropic & mások

Az OpenAI „agentic” AI irányába tett lépése egy szélesebb iparági trend része az autonóm AI asszisztensek felé. Valójában a versenytársak is fejlesztik saját ügynökszerű funkcióikat:

Anthropic Claude-ja: Tavaly az Anthropic (a Claude chatbot készítője) bevezetett egy „Computer Use” nevű képességet – lényegében lehetővé téve Claude számára, hogy úgy használjon egy számítógépet, mint egy ember, például böngésszen weboldalakat és feladatokat hajtson végre a felhasználó gépén ^[86]. Mindössze két hónappal ezelőtt (2025 májusában) az Anthropic elindította legújabb modelljét, a Claude 2-t (kódnév: Opus 4) ügynöki funkciókkal, és hasonlóan speciális bio-biztonsági intézkedéseket vezetett be a visszaélések megelőzésére ^[87]. Ez azt mutatja, hogy még a kisebb AI startupok is tisztában vannak az autonóm ügynökök erejével és kockázataival.
A Google MI kiterjesztései: A Google azon dolgozik, hogy generatív MI-jét (mint a Bard és az Assistant) közvetlen műveletekkel integrálja. Bemutattak olyan MI-t, amely képes e-maileket fogalmazni a Gmailben, dokumentumokat összefoglalni a Google Drive-ban, sőt, még böngészőt is irányítani a kísérleti „Duet AI” for Workspace segítségével. A Guardian megjegyzi, hogy a Google nemrég hasonló asszisztens „ügynököket” indított, amelyek képesek alkalmazások között váltani a felhasználói feladatok elvégzéséhez ^[88]. Emellett éppen a múlt héten a Google kulcsfontosságú munkatársakat vett fel egy startupból (Windsurf), kifejezetten azért, hogy erősítse ügynökszerű MI projektjeit ^[89], ami kiemeli a versenyt a Jarvis-szerű asszisztensek megalkotásáért.
Más szereplők: A Meta (Facebook) és az Amazon is említette MI ügynök törekvéseit a negyedéves jelentésekben, jelezve, hogy a nagy technológiai cégek mind ezt tartják a következő nagy dobásnak ^[90]. Például az e-kereskedelmi cégek olyan MI ügynököket képzelnek el, amelyek teljes egészében képesek kezelni az ügyfélszolgálati csevegéseket vagy vásárlási kéréseket. Egy figyelemre méltó korai példában a fintech cég, a Klarna 2024 elején arról számolt be, hogy MI ügyfélszolgálati ügynöke az összes ügyfélcsevegés kétharmadát kezelte, mintegy 700 ember munkáját végezve el ^[91]. Ez a sikertörténet segített elterjeszteni a „MI ügynök” kifejezést a vállalati körökben, és azóta sok vezérigazgató tűzte ki célul az ügynökalapú MI-t ^[92].
Korábbi kísérletek: Maga az OpenAI is korábban belekóstolt már az ügynökök fejlesztésébe. 2025 januárjában kiadta az Operator nevű kutatási előzetest, amelyet úgy írtak le, mint „egy ügynök, amely fel tud menni a webre, hogy feladatokat hajtson végre helyetted” ^[93]. Az Operator képes volt kattintani és görgetni weboldalakon. Volt egy Deep Research mód is, amely hosszabb elemzéseket tudott írni. Ezek az előfutárok azonban korlátozottak voltak és néha megbízhatatlanul működtek. Más startupok (mint például az Adept AI ACT-1-je) is bemutattak olyan ügynököket, amelyek képesek szoftverekben parancsokat végrehajtani, mint egy ember, de egyikük sem vált még széles körben elterjedt termékké. Az AI ügynökök korai generációi nehezen boldogultak az összetett feladatokkal és a megbízhatósággal ^[94] – gyakran sok kézi beavatkozást igényeltek. A technológiai vezetők olyan AI asszisztensekről álmodtak, amelyek bármit meg tudnak csinálni, de a valóság elmaradt a hype-tól ^[95].

Most a ChatGPT Agenttel az OpenAI megpróbálja átugrani ezeket a korábbi próbálkozásokat. Az erősségek (webböngészés + elemzés) kombinálásával és a GPT-4 szintű intelligencia alkalmazásával azt állítják, hogy végre egy olyan ügynököt hoztak létre, amely közelít a nagy vízióhoz. „Ez a valaha volt legjobb UX egy ügynökhöz. TELJESEN ŐRÜLETES. ÜBERELD EZT!!” – írta egy lelkes felhasználó az indulás után ^[96]. Bár ez a vélemény nyilvánvalóan túlzó, jól tükrözi az AI közösség egyes részeiben tapasztalható izgatottságot, hogy egyre közelebb kerülünk egy „J.A.R.V.I.S.” – vagyis Vasember fiktív AI komornyikja – valósággá válásához ^[97]. Egyelőre a ChatGPT Agent és társai még csak az első lépéseket jelentik ehhez az ideálhoz, főként kutatási, programozási és alapvető online feladatokat látnak el, nem pedig valóban nyitott végű autonómiát ^[98]. De a verseny lendülete egyértelmű: minden AI cég első akar lenni, amely megalkotja azt az AI asszisztenst, amelyet az emberek ténylegesen naponta használnak.

Monetizáció: Hoznak-e pénzt az ügynökök az OpenAI-nak?

A ChatGPT Agent bevezetésével az OpenAI nemcsak új technológiát mutat be – hanem potenciális bevételi forrásokat is keres. A vállalat erősen dotálta a ChatGPT fejlesztését (a Microsoft milliárdos befektetésével), és szüksége van arra, hogy a rendkívül népszerű AI-t „pénztermelő termékké” alakítsa ^[99]. Az ügynökök többféleképpen is kulcsfontosságúak lehetnek ebben a monetizációban:

Előfizetéses felár: Egyszerűen fogalmazva, az ügynök mód egy prémium funkció, amely több felhasználót ösztönözhet a fizetős csomagokra. Azáltal, hogy ezt csak a Plus/Pro előfizetők számára teszi elérhetővé, az OpenAI a havi 20 dolláros (vagy annál magasabb) díjat vonzóbbá teszi azoknak a haladó felhasználóknak, akik egy AI-asszisztenst szeretnének a munkájuk átruházására. Ez a legegyszerűbb, azonnali monetizáció: több embert rávenni arra, hogy fizessen a ChatGPT használatáért.
Tranzakciós díjak: Az OpenAI vezérigazgatója, Sam Altman utalt arra, hogy jutalékot szerezhetnek az AI-n keresztül lebonyolított kereskedelemből. Azt feltételezte, hogy az OpenAI „2%-os díjat számíthatna fel az általa generált eladások után” az asszisztens közreműködésével ^[100]. Más szóval, ha a ChatGPT Agent segít egy termék megvásárlásában vagy egy hotel lefoglalásában, az OpenAI egy kis részesedést kaphat (a kereskedőtől vagy partneri linkeken keresztül). Ez a modell az AI-alapú vásárlást vagy foglalást bevételi forrássá alakítaná. A legutóbbi ügynökdemó, amelyben a felhasználót kiskereskedelmi pénztárakhoz irányította, azonnal találgatásokat indított el arról, hogy az OpenAI a jövőben ilyen partneri vagy ajánlási díjakat is bevezethet ^[101].
Szponzorált találatok/hirdetések: Az AI-asszisztensek új platformot jelenthetnek a hirdetések számára. Ha egy ügynök termékeket vagy éttermeket ajánl, vajon a márkák fizetni fognak azért, hogy őket javasolja? „Valamilyen hirdetés vagy szponzorált elhelyezés elkerülhetetlennek tűnik,” jegyzi meg Niamh Burns elemző, utalva az „egyre nagyobb nyomásra [az AI-cégeken], hogy monetizálják termékeiket.” ^[102] Erre van is példa – a keresőmotorok hirdetésekből szereznek bevételt, így egy keresést kiváltó AI is tehet így. Azonban az OpenAI tagadja, hogy jelenleg szponzorált tartalmat használna a ChatGPT Agent ajánlásaiban ^[103]. Kijelentették, hogy az ügynök nem tartalmaz fizetett termékelhelyezéseket, és „nincs terv ennek megváltoztatására.” ^[104] Jelenleg az eredmények kizárólag a felhasználó szempontjai és az AI megítélése alapján születnek. Ennek ellenére a jövőben, az asszisztens ökoszisztéma fejlődésével, nyitva marad az ajtó a hirdetési modellek előtt.
Vállalati szolgáltatások: Az OpenAI úgy is pénzt kereshet, hogy az ügynököt vállalati szoftvermegoldások részeként kínálja. Például a cégek fizethetnek azért, hogy a ChatGPT Agentet integrálják belső eszközeikbe, vagy hogy az ügyfélszolgálatot kezelje. Az OpenAI már tárgyal Microsofttal a partnerség folytatásáról, és elképzelhető, hogy fejlett ügynökök a Microsoft kínálatába is bekerülnek (ami közvetve bevételt vagy kedvező feltételeket hozhat az OpenAI-nak) ^[105]. Az „vállalati felhasználási esetek” nagy szerepet játszottak az ügynök tervezésében Yash Kumar termékfelelős szerint ^[106], vagyis az OpenAI valószínűleg már most is azon gondolkodik, hogyan használhatják (és fizethetnek érte) a cégek ezt a technológiát.

Rövid távon az OpenAI valószínűleg az ügynök finomhangolására és az előfizetések növelésére koncentrál. De ha az ügynökök valóban olyan hasznosak lesznek, mint ígérik, idővel akár teljes tranzakciókat vagy munkafolyamatokat is lebonyolíthatnak – és az OpenAI biztosan igyekszik majd ebből részesedni. A cégnek egyensúlyoznia kell a felhasználói bizalmat (egy termékeket ajánló ügynöknek elfogulatlannak kell tűnnie, hogy megbízzanak benne) és a pénzkeresést. Hogy ezt hogyan oldják meg, azt sokan figyelik majd. Ahogy Burns elemző elgondolkodott: ha egy ügynök talál meg neked termékeket, „mi alapján választja ki a rendszer ezeket? Lesznek-e kereskedelmi megállapodások, ahol márkák fizetnek azért, hogy az asszisztensek kiemeljék őket…?” ^[107]. Az OpenAI szerint egyelőre nem, de a gazdasági ösztönző adott.

Szakértői reakciók és kilátások

A ChatGPT Agent bemutatkozása egyszerre váltott ki izgatottságot és óvatos megjegyzéseket a szakértőkből és a korai felhasználókból. Ethan Mollick, a Wharton professzora, aki ismert arról, hogy kísérletezik a mesterséges intelligenciával az oktatásban, egy kis csoport tagjaként korai hozzáférést kapott. Véleménye pozitív volt: „A ChatGPT agent szerintem nagy előrelépés abban, hogy az MI-k valódi munkát végezzenek. Már ebben a fázisban is jól kutat, önállóan összerak Excel fájlokat (képletekkel!), PowerPointot, stb.” ^[108]. Mollick szerint ez már most is ízelítőt ad abból, hogyan „állnak össze” az ügynök különböző képességei, még ha nem is tökéletes ^[109]. Más AI-kutatók is hasonlóan vélekedtek, lenyűgözte őket, ahogy a ChatGPT Agent képes feladatokat láncolni és olyan használható eredményeket előállítani, amelyek korábban sok manuális lépést igényeltek.

Ugyanakkor elismerik, hogy a valós környezetben történő tesztelés csak most kezdődött el. Mennyire megbízhatóan kezeli az ügynök a zűrzavaros, nyílt internetet, el tudja-e kerülni, hogy átverések vagy félretájékoztatás áldozatává váljon böngészés közben, illetve mennyire találják valóban hasznosnak az átlagfelhasználók – ezek nyitott kérdések. „Még ki kell derülnie, mennyire képes a valós világban” – jegyezte meg a TechCrunch, tekintettel arra, hogy a korábbi ügynökök törékenyek voltak váratlan helyzetekben ^[110]. Tágabb társadalmi aggodalom is felmerül azzal kapcsolatban, hogy egyre több döntési jogkört adunk az MI-nek: még engedélykérések mellett is biztosan lesznek történetek furcsa vagy kockázatos MI-döntésekről. Maga az OpenAI rendszerkártyája is elismeri, hogy „újszerű kockázatok” járnak ekkora autonómiával, és folyamatos kutatást ígér ezek mérséklésére ^[111] ^[112].

Jelenleg a ChatGPT Agent bevezetése mérföldkövet jelent az MI útján, amely a pusztán asszisztív szöveggenerálástól a tényleges feladatvégrehajtásig vezet. Ez része egy paradigmaváltásnak a „chatbotoktól” az „ügynökökig” – olyan MI-rendszerekig, amelyek kezdeményezni tudnak és célokat teljesítenek a digitális világban, nem csak beszélgetnek. „Az ügynök most a legfelkapottabb hívószó” – írja a WIRED, éppen azért, mert annyi cég hajszolja ezt a víziót ^[113]. Az OpenAI határozottan letette a zászlaját ezen az új területen, kihasználva a ChatGPT népszerűségét és ismertségét, hogy ügynököt juttasson a tömegekhez (vagy legalábbis a fizető tömegekhez).

A lényeg: Ha jogosult ChatGPT-felhasználó vagy, mostantól bizonyos unalmas vagy összetett feladatokat átruházhatsz egy MI-segítőre, és végignézheted, ahogy lépésről lépésre elvégzi őket. Ez kissé varázslatos érzés lehet – mintha lenne egy szorgalmas gyakornokod, aki sosem alszik –, ugyanakkor kissé nyugtalanító is, ahogy az MI önállóan barangol a weben. Ez a bevezetés egy nagy kísérlet kezdete abban, hogyan használhatják a hétköznapi emberek az MI-ügynököket. Ahogy egy korai felhasználó fogalmazott: „[Jól] végzi a dolgát önállóan… Ízelítőt ad abból, hogyan állnak össze az ügynökök.” ^[114] A következő hónapokban kiderül, hogy a ChatGPT Agent valóban beváltja-e a kényelmet és produktivitást ígérő ígéretét, illetve hogyan teljesít a rivális MI-asszisztensek egyre növekvő mezőnyében. Egy dolog biztos: eljött az MI korszaka, amely cselekszik, nem csak beszélget.

Források:

Booth, R. (2025. július 17.). The Guardian – Az OpenAI személyi asszisztenst indít, amely képes fájlokat és webböngészőket kezelni. ^[115] ^[116] ^[117] ^[118] ^[119]
OpenAI. (2025. július 17.). Bemutatkozik a ChatGPT Agent: Kutatás és cselekvés összekapcsolása (Hivatalos OpenAI Blog) ^[120] ^[121] ^[122] ^[123]
Field, H. (2025. július 17.). The Verge – Az OpenAI új ChatGPT Agentje képes egy teljes számítógépet irányítani és feladatokat elvégezni helyetted. ^[124] ^[125] ^[126] ^[127]
Zeff, M. (2025. július 17.). TechCrunch – Az OpenAI általános célú ügynököt indít a ChatGPT-ben. ^[128] ^[129] ^[130] ^[131]
Rogers, R. (2025. július 17.). WIRED – Az OpenAI új ChatGPT ügynöke mindent megpróbál elvégezni. ^[132] ^[133] ^[134] ^[135]
Techmeme. (2025. július 17.). Aggregált technológiai hírek a ChatGPT Agent indulásáról (beleértve Ethan Mollick kommentárját) ^[136]

Inside ChatGPT, AI assistants, and building at OpenAI — the OpenAI Podcast Ep. 2

Watch this video on YouTube.

References

Az OpenAI bemutatja a ChatGPT Agentet – az AI-asszisztenst, amely tervez, vásárol és PowerPointokat készít helyetted

A ChatGPT chatbotból személyi asszisztenssé fejlődik

Mire képes az új ChatGPT Agent?

Hogyan működik a ChatGPT Agent?

Biztonsági funkciók: Az AI műveletek ellenőrzés alatt tartása

Kezdeti korlátok: Sebesség és megbízhatóság

Elérhetőség: Ki használhatja a ChatGPT ügynököt?

Mesterséges intelligencia ügynökfegyverkezési verseny – Google, Anthropic & mások

Monetizáció: Hoznak-e pénzt az ügynökök az OpenAI-nak?

Szakértői reakciók és kilátások

References

Tags:

Related Articles

Google okosotthon-ökoszisztéma 2025: Új mesterséges intelligencia fejlesztések, Nest eszközök és minden, amit tudni érdemes

Túlhajtott mesterséges intelligencia: áttörések hétvégéje, nagy techlépések és komor figyelmeztetések (2025. július 27–28.)

Mesterséges intelligencia az üzleti életben: hogyan forradalmasítja az AI minden iparágat

El sem hinnéd, mit tett az OpenAI 2025 júliusában: A generatív MI jövője örökre megváltozott

Kína J-35 lopakodó vadászgépe: betekintés a haditengerészet új F-35-ös riválisába