تکامل ChatGPT از چتبات به دستیار شخصی
OpenAI یک ارتقاء عمده برای ChatGPT ارائه داده است که این چتبات محبوب را به یک دستیار هوش مصنوعی شخصی تبدیل میکند که نه تنها قادر به پاسخگویی به سوالات است، بلکه میتواند به نمایندگی از کاربر اقدام کند. این قابلیت جدید که عامل ChatGPT نام گرفته، روز پنجشنبه راهاندازی شد و به ChatGPT اجازه میدهد تا «فکر کند» و اقدام کند با استفاده از رایانه مجازی خودش [1]. به طور عملی، کاربران اکنون میتوانند از ChatGPT بخواهند کارهای چندمرحلهای را انجام دهد – از پیدا کردن رزرو رستوران یا خرید آنلاین تا تولید کامل صفحهگستردهها و ارائههای اسلایدی به صورت خودکار [2]. OpenAI میگوید این حالت عامل به هوش مصنوعی اجازه میدهد تا در وبسایتها جستجو کند، مرورگرها و برنامهها را کنترل کند، فایلها را مدیریت کند و خروجیهایی مانند فایلهای اکسل یا اسلایدهای پاورپوینت تولید کند، نه فقط پاسخهای متنی ارائه دهد [3].
چرا این موضوع مهم است: این ارتقاء جسورانهترین گام OpenAI تا کنون برای فراتر رفتن از یک چتبات پرسش و پاسخ ایستا به سمت هوش مصنوعی که مانند یک دستیار دیجیتال یا «عامل» عمل میکند است. برخلاف چتباتهای استاندارد، عاملهای هوش مصنوعی میتوانند با تعامل با نرمافزارها و وبسایتها به نمایندگی از کاربر، جریانهای کاری پیچیده و چندمرحلهای را انجام دهند [4]. «امید این است که عاملها بتوانند سودمندی واقعی برای کاربران به ارمغان بیاورند – واقعاً کارهایی را برای آنها انجام دهند نه فقط متنهای صیقلخورده تولید کنند و تاثیرگذار به نظر برسند،» نیام برنز، تحلیلگر ارشد رسانه در Enders Analysis میگوید [5]. در اصل، حالت عامل جدید ChatGPT با انجام کارهای واقعی آنلاین برای کاربران، نه فقط چت کردن، قصد دارد این وعده را محقق کند.
عامل ChatGPT شرکت OpenAI از یک «رایانه مجازی» داخلی برای مرور وب، پر کردن فرمها، اجرای کد و حتی تولید صفحهگستردههای اکسل یا ارائههای پاورپوینت به نمایندگی از کاربر استفاده میکند [6] [7].
عامل جدید ChatGPT چه کارهایی میتواند انجام دهد؟
OpenAI چتجیپیتی ایجنت را به عنوان یک دستیار دیجیتال چندمنظوره معرفی میکند که میتواند انواع مختلفی از وظایف مبتنی بر رایانه را انجام دهد [8]. برخی نمونهها از کارهایی که میتواند انجام دهد عبارتند از:
- مدیریت برنامهها و زمانبندیها: تقویم شما را بررسی میکند و شما را از جلسات آینده مطلع میسازد، یا شبی را که وقت آزاد دارید پیدا میکند و سپس برای شما در OpenTable به دنبال رزرو رستوران میگردد [9] [10]. میتواند رویدادهایی مانند یک شب قرار را با تطبیق برنامه شما با ظرفیت رستورانها برنامهریزی کند.
- تحقیقات آنلاین و گزارشها: تحقیقات عمیق وب را درباره یک موضوع انجام میدهد و یک گزارش مختصر یا تحلیل تهیه میکند. برای مثال، میتواند روندها را تحلیل کند (مثلاً «افزایش Beanie Babies در مقابل Labubus») و یک خلاصه یا مقاله پژوهشی مفصل تولید کند [11].
- خرید و سفارشها: ایجنت میتواند به جای شما خرید آنلاین انجام دهد. میتوانید از آن بخواهید محصولات با معیارهای خاص را پیدا کند، گزینهها را مقایسه کند و حتی سفارش ثبت کند (با اجازه شما) [12] [13]. رهبر تحقیقاتی OpenAI، Isa Fulford، حتی با دنبال کردن دستورالعملهای خاص خود، از ایجنت خواست یک بسته کاپکیک سفارش دهد – کاری که «تقریباً یک ساعت طول کشید» اما همچنان برای او راحتتر از انجام دستی آن بود [14].
- وظایف اداری – صفحات گسترده و ارائهها: شاید قابل توجهترین نکته این باشد که عامل ChatGPT میتواند فایلهای قابل ویرایش تولید کند. این عامل میتواند یک صفحه گسترده اکسل یا یک ارائه پاورپوینت را از ابتدا بر اساس درخواست شما ایجاد کند [15]. برای مثال، میتوانید از آن بخواهید دادههای مربوط به رقبای شما را تحلیل کند و یک ارائه با نمودارهایی که یافتهها را خلاصه میکنند، بسازد [16]. همچنین میتواند صفحات گسترده را با دادههای جدید بهروزرسانی کند یا مجموعهای از اسکرینشاتها را به یک ارائه قالببندیشده تبدیل کند [17]. فایلهای خروجی قابل دانلود هستند و برای باز شدن در نرمافزارهای اداری استاندارد طراحی شدهاند (هرچند OpenAI هشدار میدهد که قابلیت تولید اسلاید هنوز در نسخه بتا است) [18].
- استفاده از ابزارهای توسعهدهنده و APIها: در پشت صحنه، عامل به یک ترمینال برنامهنویسی دسترسی دارد و میتواند APIهای عمومی را فراخوانی کند. این بدان معناست که میتواند کدی را برای انجام محاسبات سفارشی اجرا کند یا سرویسهای خارجی را جستجو کند. همچنین میتواند با اپلیکیشنهایی مانند جیمیل یا گیتهاب از طریق «کانکتورها» یکپارچه شود و اطلاعات را (با اجازه کاربر) برای استفاده در پاسخهای خود دریافت کند [19]. OpenAI میگوید عامل ChatGPT حتی میتواند فرمهای آنلاین را پر کند و با سرویسهایی مانند Google Drive یا SharePoint از طریق فراخوانی API ارتباط برقرار کند [20].
تمام این قابلیتها با دادن یک «مرورگر/کامپیوتر مجازی» به هوش مصنوعی برای کار کردن، هماهنگ میشوند. وقتی شما یک وظیفه را تعیین میکنید، ChatGPT شروع به پیمایش وبسایتها، کلیک روی لینکها یا دکمهها، اسکرول صفحات، پر کردن فیلدهای متنی، نوشتن و اجرای کد و غیره میکند – هر اقدامی که برای انجام وظیفه لازم باشد [21] [22]. این عامل به صورت تکراری و خودمختار کار میکند و تصمیم میگیرد که در مرحله بعدی از کدام ابزار یا وبسایت استفاده کند. برای مثال، برنامهریزی یک شام ژاپنی ممکن است شامل جستجوی دستور پخت در گوگل، سپس باز کردن یک سایت خرید مواد غذایی برای سفارش مواد لازم و در نهایت تولید یک صفحه گسترده لیست خرید باشد – همه این کارها توسط عامل انجام میشود بدون اینکه کاربر هر مرحله را به صورت جزئی مدیریت کند.
عامل ChatGPT چگونه کار میکند؟
پشت صحنه، ChatGPT Agent توسط یک مدل هوش مصنوعی جدید که OpenAI به طور خاص برای وظایف عامل ساخته است، جدا از مدل پایه GPT-4، پشتیبانی میشود [23]. این مدل با استفاده از یادگیری تقویتی آموزش دیده تا وظایف پیچیدهای را که نیاز به استفاده متوالی از چندین ابزار (مانند مرورگرها، APIها و کد) دارند، انجام دهد [24]. در واقع، OpenAI دو سیستم آزمایشی قبلی – Operator (ابزار مرور/اتوماسیون) و Deep Research (ابزار تحلیل عمیق) – را در این عامل یکپارچه ادغام کرد. «ما متوجه شدیم که این دو محصول بسیار مکمل یکدیگر هستند و اساساً تصمیم گرفتیم تیمها را ترکیب کنیم.» Fulford میگوید [25]. نتیجه، عاملی است که توانایی Operator در کلیک کردن در وب را با مهارت Deep Research در ترکیب و سنتز اطلاعات در یک جریان کاری واحد ترکیب میکند [26].جعبه ابزار مهارتها: ChatGPT Agent با چندین ابزار تخصصی مجهز شده است که میتواند از آنها استفاده کند [27]:
- یک مرورگر بصری برای تعامل با وبسایتها از طریق رابط گرافیکی معمولی، همانند یک انسان (کلیک روی دکمهها، پیمایش صفحات).
- یک مرورگر متنی برای ارسال سریع درخواستهای HTTP و تجزیه متن خام (مفید برای خواندن سریع متنهای بزرگ یا زمانی که رندر بصری لازم نیست) [28].
- یک ترمینال/کنسول که به آن اجازه میدهد کد اجرا کند، فایلها را دستکاری کند یا از ابزارهای خط فرمان در محیط ایزوله خود استفاده کند [29].
- دسترسی مستقیم به API، که به آن اجازه میدهد API سرویسهای خارجی را فراخوانی کند (مثلاً ارسال به Google Calendar، پرسوجو از پایگاه داده یا دریافت داده از یک سرویس آنلاین) [30].
- اتصالات به حسابهای کاربری: کاربران میتوانند اپلیکیشنهای خود (مانند ایمیل یا گیتهاب) را متصل کنند. با اجازه شما، ایجنت میتواند اطلاعات مرتبط را از ایمیلها، تقویم یا سایر حسابهای شما برای انجام وظایف دریافت کند [31]. به عنوان مثال، اگر لازم باشد برای تهیه یک خلاصه، ایجنت ممکن است جیمیل شما را برای پیامهای اخیر بررسی کند یا از طریق یک API تقویم شما را برای یافتن زمانهای آزاد چک کند.
این ابزارها به هوش مصنوعی اجازه میدهند تا بهینهترین روش را برای یک وظیفه انتخاب کند. ممکن است از API برای بررسی سریع دسترسی تقویم شما استفاده کند، سپس به مرورگر بصری سوئیچ کند تا در صفحه رزرو OpenTable که نیاز به کلیک و تعامل شبیه انسان دارد، حرکت کند [32]. میتواند یک فایل را از طریق مرورگر متنی یا API دانلود کند، آن را در ترمینال اجرا کند تا تحلیل یا فرمتبندی مجدد انجام دهد، سپس نتایج را در مرورگر بصری باز کند تا آنها را به شما نمایش دهد [33]. همه اینها در ماشین مجازی ایجنت انجام میشود که از دستگاه واقعی شما جداست – بنابراین مثل این است که هوش مصنوعی کامپیوتر خودش را دارد و دستورات شما را در آن اجرا میکند [34].
تجربه کاربری: برای کاربر نهایی، استفاده از ChatGPT Agent ساده است. این قابلیت از طریق یک «حالت ایجنت» جدید در رابط کاربری ChatGPT برای کسانی که دسترسی دارند، در دسترس است [35]. شما فقط کافی است یک درخواست را با یک وظیفه شروع کنید (همچنین میتوانید یک دستور اسلش «/agent» تایپ کنید) و هوش مصنوعی ادامه کار را بر عهده میگیرد [36]. هنگام کار، یک روایت تصویری روی صفحه نشان میدهد که ایجنت مرحله به مرحله چه کاری انجام میدهد – برای مثال، «در حال مرور به maps.google.com… جستجو برای ‘رستورانهای ایتالیایی نزدیک من’…» – تا بتوانید روند را دنبال کنید [37] [38]. نکته قابل توجه این است که شما میتوانید فرآیند را متوقف یا هدایت کنید: میتوانید روند را متوقف کنید تا دستورالعملهای خود را شفافتر بیان کنید یا از آن بخواهید رویکرد متفاوتی اتخاذ کند و ایجنت در میانه کار بدون از دست دادن پیشرفت، خود را تطبیق میدهد [39]. این چرخه همکاری برای همسو نگه داشتن هوش مصنوعی با اهداف شما طراحی شده است.
ویژگیهای ایمنی: کنترل اقدامات هوش مصنوعی
توانمندسازی یک هوش مصنوعی برای انجام اقدامات آنلاین، نگرانیهای آشکاری درباره ایمنی ایجاد میکند و OpenAI اذعان دارد که این حالت جدید «ریسک بیشتری نسبت به مدلهای قبلی» دارد [40]. برای کاهش این ریسکها، OpenAI مجموعهای از تدابیر ایمنی و محدودیتها را اجرا کرده است:- دریافت اجازه کاربر برای اقدامات حساس: «شما همیشه کنترل را در دست دارید»، OpenAI تأکید میکند [41]. عامل ChatGPT قبل از انجام هر اقدامی با پیامدهای جدی، مانند خرید، ارسال ایمیل یا رزرو به نمایندگی از شما، تأیید صریح درخواست خواهد کرد [42] [43]. کاربر باید این اقدامات غیرقابل بازگشت را تأیید کند تا از اقدام ناگهانی هوش مصنوعی، مثلاً سفارش ۱۰۰۰ دلار وسایل از آمازون بدون اطلاع شما، جلوگیری شود.
- محدودیتهای محتوای «پرخطر» (زیستی/شیمیایی): با توجه به قابلیتهای پیشرفته این عامل، OpenAI آن را در دسته «ریسک زیستی و شیمیایی بالا» طبقهبندی کرده است، حتی اگر «هیچ مدرک قطعی» مبنی بر اینکه میتواند به ساخت سلاح زیستی کمک کند وجود ندارد [44] [45]. این اقدام احتیاطی (بخشی از چارچوب آمادگی OpenAI) به این معناست که محافظتهای اضافی فعال هستند. به طور خاص، OpenAI یک دستهبند محتوای بلادرنگ روی هر درخواست عامل اجرا میکند تا بررسی کند آیا مربوط به زیستشناسی یا شیمی است یا خیر، و در صورت مثبت بودن، پاسخ عامل توسط یک مدل ایمنی دوم بررسی میشود تا اطمینان حاصل شود که دستورالعمل خطرناکی ارائه نمیدهد [46] [47]. به عبارت دیگر، اگر کسی بخواهد از عامل سوءاستفاده کند تا مثلاً مادهای سمی بسازد، سیستم طوری طراحی شده که آن را شناسایی و مسدود کند.
- آموزش دیده برای رد کردن وظایف مضر: عامل آموزش دیده است تا برخی درخواستهای مشکوک یا مخرب را رد کند. برای مثال، اگر از او خواسته شود کاری آشکارا خطرناک یا غیراخلاقی انجام دهد، مانند انتقال پول به یک حساب ناشناس یا اجرای دستورات مخرب، آن را رد خواهد کرد [48]. OpenAI میگوید تیمهای قرمز و کارشناسان حوزه به آزمایش سیستم در برابر «سناریوهای واقعی» کمک کردند تا این رد کردنها را تقویت کنند [49].
- غیرفعال بودن حافظه بلندمدت: یک محدودیت جالب – حافظه بلندمدت چت ChatGPT در حالت عامل غیرفعال است [50]. معمولاً ChatGPT میتواند اطلاعات مکالمات قبلی یا جلسات گذشته (در صورت فعال بودن) را به خاطر بسپارد، اما OpenAI نگران بود که یک مهاجم زیرک بتواند از این موضوع در وظایف عامل (از طریق prompt injections) سوءاستفاده کند تا عامل اطلاعات حساس را افشا کند یا کارهای ناخواسته انجام دهد [51]. در نتیجه، عامل در حال حاضر بدون وضعیت (stateless) عمل میکند و اطلاعاتی از چتهای قبلی را منتقل نمیکند. ممکن است OpenAI در آینده زمانی که مطمئن شود ایمن است، حافظه را دوباره فعال کند، اما فعلاً این «احتیاط اضافی» از نشت احتمالی داده جلوگیری میکند [52].
- تراکنشهای مالی ممنوع: OpenAI همچنین عملیات مالی را محدود کرده است. برای مثال، عامل حتی اگر از او خواسته شود، انتقال پول یا معاملات سهام را انجام نخواهد داد [53]. در واقع، یک محافظ به نام «حالت تماشا» وجود دارد که اگر عامل در حال مرور برخی وبسایتهای حساس (مانند بانکها یا پلتفرمهای معاملاتی) باشد فعال میشود – اگر کاربر از تب مرورگر عامل خارج شود، فعالیت عامل متوقف میشود تا از هرگونه اقدام پنهانی در پسزمینه جلوگیری شود [54].
- آزمایش گسترده و برنامه باگ بانتی: OpenAI ادعا میکند که این مدل دارای «جامعترین پشته ایمنی تا به امروز» آنها از نظر مدلسازی تهدید و پایش است [55] [56]. آنها با کارشناسان زیستامنیتی خارجی همکاری کردند و متخصصان حوزه را برای رد تیم کردن ایجنت پیش از عرضه به کار گرفتند [57]. همزمان با انتشار، OpenAI همچنین یک کارت سیستمی دقیق منتشر کرد که ریسکها را توضیح میدهد و یک باگ بانتی برای تشویق پژوهشگران خارجی به گزارش آسیبپذیریها ارائه میدهد [58] [59].
با وجود این تدابیر احتیاطی، OpenAI میداند که رفتارهای غیرمنتظره ممکن است زمانی که یک هوش مصنوعی در اینترنت آزاد فعالیت میکند، همچنان ظاهر شوند. این شرکت میگوید به صورت تدریجی ایجنت را اصلاح و تدابیر ایمنی را در صورت نیاز تنظیم خواهد کرد. فعلاً به کاربران توصیه میشود بر اقدامات ایجنت نظارت داشته باشند (رابط کاربری با روایت هر مرحله این کار را تشویق میکند). «با این مدل ریسکها بیشتر از مدلهای قبلی است»، OpenAI اذعان میکند، به همین دلیل آنها «در حال احتیاط و پیادهسازی تدابیر لازم از همین حالا هستند» [60] [61].
محدودیتهای اولیه: سرعت و قابلیت اطمینان
فعلاً دستیار انسانی خود را اخراج نکنید. در دموها و آزمایشهای اولیه، ChatGPT Agent قابلیتهای چشمگیری اما همچنین محدودیتهای قابل توجهی نشان داده است:
- آهسته و پیوسته: عامل معمولاً برای انجام وظایف زمان میبرد. ممکن است چندین دقیقه صرف کلیک کردن و مرور برای جمعآوری اطلاعات کند، بسیار بیشتر از یک پاسخ مستقیم چتبات. در یک نمایش، جستجوی عامل در تقویم گوگل و سایتهای رستوران برای پیشنهاد گزینههای شام حدود ۱۰ تا ۱۵ دقیقه طول کشید [62]. تولید یک اسلاید دک پیچیده یا انجام تحقیقات گسترده میتواند حتی بیشتر طول بکشد (کارکنان OpenAI اشاره کردند که یک وظیفه اسلایدسازی در آزمایش حدود ۲۵ دقیقه زمان برد) [63]. «حتی اگر ۱۵ دقیقه یا نیم ساعت طول بکشد، نسبت به زمانی که خودتان انجام دهید، سرعت قابل توجهی دارد،» فولفورد استدلال میکند و اشاره میکند که کاربران میتوانند یک وظیفه را آغاز کنند و در حالی که عامل کار میکند، به کارهای دیگر بپردازند [64]. با این حال، صبر لازم است؛ عامل آنی نیست. یاش کومار از OpenAI تخمین میزند که میانگین زمان انجام یک وظیفه حدود ۱۰ تا ۱۵ دقیقه در نسخه فعلی است [65].
- اشکالات گاهبهگاه: مانند هر هوش مصنوعی، عامل میتواند اشتباه کند یا در یک وظیفه «گیر کند». کاربران اولیه نتایج متفاوتی گزارش دادهاند. برخی جریانهای کاری پیچیده ممکن است آن را گیج کند یا ممکن است در میانه راه یک دستور را اشتباه تفسیر کند. یکی از آزمایشکنندگان اولیه اظهار داشت که عامل «در سه وظیفه متفاوتی که به آن دادم شکست خورد… نگاهی جالب به آینده، اما هنوز معمولاً مفید نیست.» [66]. این موضوع تأکید میکند که این فناوری، با وجود پیشرفته بودن، بینقص نیست. خود OpenAI اشاره میکند که عامل «هنوز در مراحل اولیه خود است» و «هنوز میتواند اشتباه کند.» [67] انتظار میرود بهروزرسانیهای آینده قابلیت اطمینان و استدلال آن را بهبود بخشد.
- کیفیت خروجی پایه: قابلیت تولید پاورپوینت/اسلاید در حال حاضر در مرحله بتا است، به این معنی که اسلایدهایی که ایجاد میکند ممکن است کاملاً ساده به نظر برسند یا نیاز به پرداخت داشته باشند [68]. OpenAI ابتدا تمرکز خود را بر درست بودن محتوا و ساختار گذاشته است، نه طراحی پرزرق و برق. آنها هشدار میدهند که قالببندی ممکن است ابتدایی باشد و گاهی اوقات بین پیشنمایش اسلاید و فایل پاورپوینت صادرشده اختلاف وجود دارد [69]. به همین ترتیب، اگرچه عامل میتواند صفحات گسترده را ویرایش کند و فرمولها را حفظ کند، اما هنوز در سطح یک انسان ماهر، جادوگر اکسل نیست. OpenAI در حال حاضر نسخه بعدی را آموزش میدهد تا خروجیهای «پرداختهتر و پیشرفتهتر» را در ارائهها تولید کند [70].
- عدم راهاندازی در اروپا (هنوز): قابل توجه است که عامل ChatGPT در اتحادیه اروپا راهاندازی نشد. OpenAI هنوز «در حال کار برای فعالسازی دسترسی برای منطقه اقتصادی اروپا و سوئیس» است [71]. کاربران سایر مناطق (از جمله آمریکا و بریتانیا) بلافاصله دسترسی پیدا کردند، اما کاربران اروپایی به طور نامحدود منتظر ماندهاند. OpenAI جدول زمانی مشخصی برای عرضه در اتحادیه اروپا ارائه نکرده است [72]. احتمالاً این موضوع به نگرانیهای نظارتی مربوط میشود – مقررات سختگیرانه داده و هوش مصنوعی اتحادیه اروپا ممکن است نیازمند اقدامات اضافی برای تطابق از سوی OpenAI باشد تا یک عامل خودمختار را عرضه کند. فعلاً، اروپاییها فقط پیامی میبینند که این قابلیت در منطقه آنها در دسترس نیست.
دسترسی: چه کسانی میتوانند از عامل ChatGPT استفاده کنند؟
OpenAI در ابتدا عامل ChatGPT را به عنوان یک مزیت فقط برای مشترکین پرداختی عرضه میکند. از این هفته، این قابلیت برای کاربران برنامههای Pro، Plus و Team ChatGPT (تقریباً معادل سطوح پریمیوم) فعال میشود [78]. کاربران Pro قرار بود ابتدا (در روز راهاندازی) دسترسی پیدا کنند و پس از آن مشترکین Plus و Team طی چند روز آینده [79]. مشتریان برنامههای Enterprise و Education نیز پس از رفع مشکلات، “در هفتههای آینده” آن را دریافت خواهند کرد [80] [81]. هنوز زمانبندی اعلامشدهای برای کاربران رایگان جهت دریافت قابلیتهای عامل وجود ندارد – و با توجه به ارزش افزوده و هزینه بالای محاسباتی، ممکن است این قابلیت برای آینده قابل پیشبینی فقط برای کاربران پرداختی باقی بماند.
همراه با دسترسی لایهای، OpenAI محدودیتهای استفاده ماهانه را اعمال کرده است. مشترکین Pro (بالاترین سطح) میتوانند تا ۴۰۰ وظیفه عامل در ماه اجرا کنند، در حالی که کاربران Plus و Team ۴۰ وظیفه در ماه دریافت میکنند که شامل [82] [83] است. این سقف تضمین میکند که عملیات پرهزینه بدون کنترل اجرا نشوند، اما استفاده اضافی ممکن است از طریق یک سیستم اعتباری برای خرید در دسترس باشد اگر کاربران به بیشتر نیاز داشته باشند [84]. وظایف بر اساس «درخواست عاملانه» شمرده میشوند، به این معنی که هر بار که عامل را برای انجام کاری فعال میکنید، یک وظیفه محسوب میشود.
همانطور که اشاره شد، کاربران اروپایی در زمان عرضه به ChatGPT Agent دسترسی ندارند [85]. زمانی که کاربران غیر اتحادیه اروپا حالت عامل را فعال میکنند، درباره ماهیت آزمایشی این ویژگی هشدار داده میشود و سپس میتوانند ادامه دهند. اما کاربران اتحادیه اروپا به سادگی مسدود میشوند. یادداشت OpenAI مبنی بر اینکه در حال کار بر روی دسترسی EEA است، نشان میدهد که احتمالاً دلیل تأخیر، رعایت مقررات اتحادیه اروپا (شاید مربوط به حریم خصوصی و قانون هوش مصنوعی) است. این عرضه منطقهای یادآور این است که چگونه برخی ویژگیهای قبلی ChatGPT (مانند مرور وب) به طور موقت به دلیل عدم قطعیت قانونی در برخی مناطق ارائه نشدند. فعلاً هر کسی در اتحادیه اروپا باید منتظر بماند تا OpenAI اطمینان حاصل کند که عامل با الزامات محلی مطابقت دارد.
رقابت تسلیحاتی عامل هوش مصنوعی – گوگل، Anthropic و دیگران
حرکت OpenAI به سمت هوش مصنوعی «عاملانه» در بحبوحه یک روند صنعتی گستردهتر به سوی دستیارهای هوش مصنوعی خودمختار صورت میگیرد. در واقع، رقبا نیز در حال آمادهسازی ویژگیهای مشابه عامل خود هستند:
- Claude شرکت Anthropic: سال گذشته، Anthropic (سازنده چتبات Claude) قابلیتی به نام «استفاده از کامپیوتر» معرفی کرد – که اساساً به Claude توانایی استفاده از کامپیوتر مانند یک انسان را میدهد، مانند مرور وبسایتها و انجام وظایف روی دستگاه کاربر [86]. فقط دو ماه پیش (مه ۲۰۲۵)، Anthropic جدیدترین مدل خود Claude 2 (با نام رمز Opus 4) را با ویژگیهای عاملانه و همچنین اقدامات ویژه ایمنی زیستی فعالشده برای جلوگیری از سوءاستفاده عرضه کرد [87]. این نشان میدهد حتی استارتاپهای کوچکتر هوش مصنوعی نیز نسبت به قدرت و ریسکهای عوامل خودمختار آگاه هستند. افزونههای هوش مصنوعی گوگل: گوگل در حال کار بر روی ادغام هوش مصنوعی مولد خود (مانند Bard و Assistant) با اقدامات مستقیم است. آنها هوش مصنوعیای را نمایش دادهاند که میتواند ایمیلها را در جیمیل پیشنویس کند، اسناد را در گوگل درایو خلاصه کند و حتی یک مرورگر را کنترل کند از طریق «Duet AI» آزمایشی خود برای Workspace. گاردین اشاره میکند که گوگل اخیراً دستیارهای «عامل» مشابهی را راهاندازی کرده که میتوانند بین اپلیکیشنها جابجا شوند تا وظایف کاربر را انجام دهند [88]. علاوه بر این، فقط هفته گذشته گوگل کارکنان کلیدی یک استارتاپ (Windsurf) را به طور خاص برای تقویت پروژههای هوش مصنوعی عاملی خود استخدام کرد [89]، که رقابت شدید برای ساخت دستیارهایی شبیه جارویس را برجسته میکند.
- سایر بازیگران: متا (فیسبوک) و آمازون نیز در تماسهای درآمدی خود به جاهطلبیهای عامل هوش مصنوعی اشاره کردهاند، که نشان میدهد همه شرکتهای بزرگ فناوری این حوزه را موج بزرگ بعدی میدانند [90]. برای مثال، شرکتهای تجارت الکترونیک تصور میکنند عاملهای هوش مصنوعی میتوانند چتهای خدمات مشتری یا درخواستهای خرید را به طور کامل مدیریت کنند. در یک نمونه اولیه قابل توجه، شرکت فینتک Klarna در اوایل ۲۰۲۴ گزارش داد که عامل خدمات مشتری هوش مصنوعی آن دو سوم از تمام چتهای مشتریان را مدیریت کرده و کار معادل تقریباً ۷۰۰ انسان را انجام داده است [91]. این داستان موفقیت به محبوبیت اصطلاح «عامل هوش مصنوعی» در محافل شرکتی کمک کرد و از آن زمان بسیاری از مدیران عامل، هوش مصنوعی مبتنی بر عامل را به عنوان یک هدف مطرح کردهاند [92].
- تجربههای گذشته: خود OpenAI پیشتر وارد حوزه ایجنتها شده بود. در ژانویه ۲۰۲۵، Operator را به عنوان پیشنمایش تحقیقاتی منتشر کرد که به عنوان «یک ایجنت که میتواند به وب برود و کارها را برای شما انجام دهد» توصیف شده بود [93]. Operator میتوانست روی وبسایتها کلیک کند و اسکرول کند. همچنین حالت Deep Research وجود داشت که میتوانست تحلیلهای بلندمدت بنویسد. با این حال، این پیشگامان محدود و گاهی شکننده بودند. استارتاپهای دیگر (مانند ACT-1 از Adept AI) ایجنتهایی را نشان دادهاند که میتوانند مانند انسان دستورات را در نرمافزار اجرا کنند، اما هیچکدام هنوز به محصولات جریان اصلی تبدیل نشدهاند. نسلهای اولیه ایجنتهای هوش مصنوعی در انجام کارهای پیچیده و قابلیت اطمینان مشکل داشتند [94] – و اغلب نیاز به راهنمایی زیاد داشتند. مدیران فناوری چشماندازهایی از دستیاران هوش مصنوعی ترسیم کردند که میتوانند هر کاری انجام دهند، اما واقعیت از هیاهو عقب مانده بود [95].
اکنون با ChatGPT Agent، OpenAI تلاش میکند از آن تلاشهای قبلی پیشی بگیرد. با ترکیب نقاط قوت (وبگردی + تحلیل) و استفاده از هوش سطح GPT-4، ادعا میکنند که بالاخره ایجنتی نزدیک به چشمانداز بزرگ ساختهاند. «این بهترین تجربه کاربری برای یک ایجنت تا به حال است. کاملاً دیوانهکننده. اگر میتوانید بهترش را بسازید!!» یک کاربر هیجانزده پس از عرضه نوشت [96]. اگرچه این نظر آشکارا اغراقآمیز است، اما هیجان برخی از اعضای جامعه هوش مصنوعی را نشان میدهد که ما به «J.A.R.V.I.S.» – باتلر هوش مصنوعی خیالی آیرون من – در دنیای واقعی نزدیکتر میشویم [97]. فعلاً ChatGPT Agent و همتایانش هنوز گامهای ابتدایی به سوی آن ایدهآل هستند و عمدتاً کارهای پژوهشی، کدنویسی و امور ساده آنلاین را انجام میدهند، نه خودمختاری کاملاً باز [98]. اما شتاب رقابتی غیرقابل انکار است: هر شرکت هوش مصنوعی میخواهد اولین شرکتی باشد که دستیار هوش مصنوعی را بسازد که مردم واقعاً هر روز از آن استفاده کنند.
درآمدزایی: آیا ایجنتها برای OpenAI پولساز خواهند بود؟
با عرضه ChatGPT Agent، OpenAI نه تنها فناوری جدیدی را به نمایش میگذارد – بلکه به دنبال جریانهای درآمدی بالقوه نیز هست. این شرکت توسعه ChatGPT را به شدت یارانه داده است (با سرمایهگذاری میلیاردی مایکروسافت) و باید هوش مصنوعی بسیار محبوب خود را به یک «محصول پولساز» تبدیل کند [99]. ایجنتها میتوانند به چند روش کلید درآمدزایی باشند:
- افزایش فروش اشتراک: به طور ساده، حالت ایجنت یک قابلیت ویژه است که میتواند کاربران بیشتری را به سمت طرحهای پولی سوق دهد. با محدود کردن آن به مشترکین Plus/Pro، OpenAI هزینه ماهانه ۲۰ دلار یا بیشتر را برای کاربران حرفهای که میخواهند یک دستیار هوش مصنوعی برای انجام کارهایشان داشته باشند، جذابتر میکند. این سادهترین راه درآمدزایی فوری است: افراد بیشتری را وادار کنید برای دسترسی به ChatGPT پول پرداخت کنند.
- کارمزد تراکنش: سم آلتمن، مدیرعامل OpenAI، به کسب کمیسیون از تجارت انجامشده از طریق هوش مصنوعی اشاره کرده است. او حدس زده که OpenAI میتواند «۲٪ کارمزد از فروشهای ایجادشده» توسط تلاشهای دستیار خود دریافت کند [100]. به عبارت دیگر، اگر ChatGPT Agent به شما در خرید یک محصول یا رزرو هتل کمک کند، OpenAI ممکن است سهم کوچکی (از فروشنده یا از طریق لینکهای وابسته) دریافت کند. این مدل، خرید یا رزرو مبتنی بر هوش مصنوعی را به منبع درآمد تبدیل میکند. دموی اخیر ایجنت که نشان میداد کاربر را به تسویهحساب فروشگاهی هدایت میکند، بلافاصله باعث شد گمانهزنیهایی درباره احتمال ادغام چنین کارمزدهای وابسته یا ارجاعی توسط OpenAI در آینده مطرح شود [101].
- نتایج اسپانسرشده/تبلیغات: دستیارهای هوش مصنوعی میتوانند به پلتفرم جدیدی برای تبلیغات تبدیل شوند. اگر یک ایجنت محصولات یا رستورانهایی را پیشنهاد دهد، آیا برندها حاضرند برای توصیه شدن پول پرداخت کنند؟ «نوعی از تبلیغات یا جایگاه اسپانسرشده اجتنابناپذیر به نظر میرسد»، تحلیلگر نیام برنز میگوید و به «فشار فزاینده [بر شرکتهای هوش مصنوعی] برای کسب درآمد از محصولاتشان» اشاره میکند. [102] این موضوع سابقه دارد – موتورهای جستجو از تبلیغات درآمد کسب میکنند، پس یک هوش مصنوعی که جایگزین جستجو شود، ممکن است همین کار را انجام دهد. با این حال، OpenAI هرگونه استفاده فعلی از محتوای اسپانسرشده در توصیههای ChatGPT Agent را رد میکند [103]. آنها اعلام کردند که ایجنت شامل جایگاههای محصول پولی نیست و «هیچ برنامهای برای تغییر این موضوع وجود ندارد.» [104] فعلاً نتایج باید صرفاً بر اساس معیارهای کاربر و قضاوت هوش مصنوعی باشد. با این حال، در آینده و با بلوغ اکوسیستم دستیارها، امکان مدلهای تبلیغاتی همچنان باز است.
- خدمات سازمانی: OpenAI همچنین میتواند با ارائه این عامل به عنوان بخشی از راهحلهای نرمافزاری سازمانی کسب درآمد کند. برای مثال، شرکتها ممکن است برای ادغام ChatGPT Agent در ابزارهای داخلی خود یا برای سپردن پشتیبانی مشتری به آن هزینه پرداخت کنند. OpenAI هماکنون در حال مذاکره قراردادی با مایکروسافت درباره ادامه همکاری است و میتوان تصور کرد که عاملهای پیشرفته در بستههای پیشنهادی مایکروسافت قرار گیرند (که میتواند به طور غیرمستقیم درآمد یا شرایط مطلوبی برای OpenAI به همراه داشته باشد) [105]. «موارد استفاده سازمانی» یکی از ملاحظات اصلی در طراحی این عامل بوده است، به گفته یاش کومار، مدیر محصول [106]، به این معنا که OpenAI به احتمال زیاد به این فکر میکند که کسبوکارها چگونه میتوانند از این فناوری بهره ببرند (و برای آن هزینه پرداخت کنند).
در کوتاهمدت، تمرکز OpenAI احتمالاً بر بهبود عامل و افزایش اشتراکها خواهد بود. اما در نهایت، اگر عاملها به اندازه وعده داده شده مفید شوند، میتوانند کل تراکنشها یا جریانهای کاری را تسهیل کنند – و OpenAI قطعاً به دنبال کسب بخشی از این ارزش خواهد بود. این شرکت باید بین اعتماد کاربران (یک عامل که محصولات را توصیه میکند باید بیطرف به نظر برسد تا مورد اعتماد باشد) و کسب درآمد تعادل برقرار کند. نحوه انجام این کار به دقت زیر نظر خواهد بود. همانطور که تحلیلگر برنز مطرح کرد، اگر یک عامل برای شما محصولات پیدا کند، «چه چیزی در فرآیند پیدا کردن محصولات توسط آن سیستم دخیل است؟ آیا معاملات تجاری وجود خواهد داشت که برندها برای دیده شدن توسط دستیارها پول پرداخت کنند…؟» [107]. OpenAI فعلاً این موضوع را رد میکند، اما انگیزه اقتصادی وجود دارد.
واکنش کارشناسان و چشمانداز
عرضه ChatGPT Agent هم هیجان و هم اظهارنظرهای محتاطانه از سوی کارشناسان و کاربران اولیه را به همراه داشته است. ایتن مولیک، استاد مدرسه وارتون که به خاطر آزمایش با هوش مصنوعی در آموزش شناخته میشود، بخشی از گروه کوچکی با دسترسی اولیه بود. نظر او مثبت بود: «عامل ChatGPT به نظر من گامی بزرگ به سوی انجام کار واقعی توسط هوش مصنوعی است. حتی در این مرحله، به طور خودکار تحقیق انجام میدهد و فایلهای اکسل (با فرمول!)، پاورپوینت و غیره را جمعآوری میکند.» [108]. مولیک گفت این عامل نگاهی اجمالی به چگونگی «کنار هم آمدن» تواناییهای مختلف عاملها ارائه میدهد، حتی اگر هنوز کامل نباشد [109]. سایر پژوهشگران هوش مصنوعی نیز این دیدگاه را تکرار کردند و تحت تأثیر توانایی ChatGPT Agent در زنجیرهسازی وظایف و تولید خروجیهای قابل استفاده قرار گرفتند که قبلاً نیاز به مراحل دستی زیادی داشت.
در عین حال، این موضوع نیز مورد توجه قرار گرفته است که آزمایشهای دنیای واقعی تازه آغاز شدهاند. اینکه این عامل چقدر قابل اعتماد اینترنت باز و شلوغ را مدیریت میکند، آیا میتواند هنگام مرور از کلاهبرداری یا اطلاعات نادرست دوری کند، و تا چه حد کاربران عادی آن را واقعاً مفید مییابند – اینها سوالات باز هستند. «هنوز باید دید که واقعاً در دنیای واقعی چقدر توانمند است،» به گفتهی TechCrunch، با توجه به اینکه عوامل قبلی هنگام مواجهه با سناریوهای غیرمنتظره شکننده بودند [110]. همچنین نگرانی گستردهتری در جامعه وجود دارد دربارهی سپردن اختیار بیشتر به هوش مصنوعی: حتی با بررسیهای مجوز، قطعاً داستانهایی از تصمیمات عجیب یا پرریسک هوش مصنوعی منتشر خواهد شد. کارت سیستمی خود OpenAI نیز به «ریسکهای نوظهور» با چنین خودمختاری اشاره میکند و متعهد به ادامه تحقیقات برای کاهش آنهاست [111] [112].در حال حاضر، معرفی ChatGPT Agent یک نقطه عطف در حرکت هوش مصنوعی از تولید متن صرفاً کمکی به اجرای واقعی وظایف به شمار میرود. این بخشی از یک تغییر پارادایم از «چتباتها» به «عوامل» است – سیستمهای هوش مصنوعی که میتوانند ابتکار عمل به خرج دهند و اهداف را در دنیای دیجیتال به انجام برسانند، نه فقط گفتگو کنند. «عامل» در حال حاضر پر سر و صداترین واژه است، به نوشته WIRED، دقیقاً به این دلیل که شرکتهای زیادی به دنبال این چشمانداز هستند [113]. OpenAI به طور قاطع در این قلمرو جدید پرچم خود را برافراشته است و با استفاده از محبوبیت و آشنایی ChatGPT، یک عامل را به دست عموم (یا حداقل عموم پرداختکننده) رسانده است.
خلاصه مطلب: اگر شما کاربر واجد شرایط ChatGPT هستید، اکنون میتوانید برخی کارهای خستهکننده یا پیچیده را به یک دستیار هوش مصنوعی بسپارید و ببینید که چگونه مرحله به مرحله آنها را انجام میدهد. این تجربه میتواند کمی جادویی باشد – مثل داشتن یک کارآموز کوشا که هرگز نمیخوابد – و همچنین کمی نگرانکننده که ببینید هوش مصنوعی به تنهایی در وب میچرخد. این عرضه آغاز یک آزمایش بزرگ است درباره اینکه مردم عادی چگونه ممکن است از عوامل هوش مصنوعی استفاده کنند. همانطور که یکی از کاربران اولیه گفته است: «[این عامل] به طور خودکار کار را به خوبی انجام میدهد… و حسی از نحوه کنار هم آمدن عوامل میدهد.» [114] در ماههای آینده خواهیم دید که آیا ChatGPT Agent واقعاً وعده راحتی و بهرهوری را عملی میکند و چگونه در برابر میدان رو به رشد دستیاران هوش مصنوعی رقیب قرار میگیرد. یک چیز قطعی است: عصر هوش مصنوعی که عمل میکند، نه فقط گفتگو، رسماً آغاز شده است.
منابع:
- بوث، آر. (۲۰۲۵، ۱۷ ژوئیه). گاردین – OpenAI دستیار شخصیای را راهاندازی کرد که قادر به کنترل فایلها و مرورگرهای وب است. [115] [116] [117] [118] [119]
- OpenAI. (۲۰۲۵، ۱۷ ژوئیه). معرفی عامل ChatGPT: پل زدن بین پژوهش و عمل (وبلاگ رسمی OpenAI) [120] [121] [122] [123]
- فیلد، اچ. (۲۰۲۵، ۱۷ ژوئیه). ورج – عامل جدید ChatGPT شرکت OpenAI میتواند یک کامپیوتر کامل را کنترل کند و کارها را برای شما انجام دهد. [124] [125] [126] [127]
- زف، ام. (۲۰۲۵، ۱۷ ژوئیه). تککرانچ – OpenAI یک عامل همهمنظوره در ChatGPT راهاندازی کرد. [128] [129] [130] [131]
- راجرز، آر. (۲۰۲۵، ۱۷ ژوئیه). وایرد – عامل جدید ChatGPT اوپنایآی تلاش میکند همه کارها را انجام دهد. [132] [133] [134] [135]
- تکمیم. (۲۰۲۵، ۱۷ ژوئیه). اخبار فناوری تجمیعشده درباره راهاندازی عامل ChatGPT (شامل تفسیر ایتن مولیک) [136]
References
1. www.theguardian.com, 2. www.theguardian.com, 3. techmeme.com, 4. www.theverge.com, 5. www.theguardian.com, 6. openai.com, 7. techmeme.com, 8. techcrunch.com, 9. openai.com, 10. www.theverge.com, 11. www.theverge.com, 12. www.theguardian.com, 13. www.wired.com, 14. www.wired.com, 15. openai.com, 16. openai.com, 17. openai.com, 18. openai.com, 19. openai.com, 20. www.wired.com, 21. openai.com, 22. techmeme.com, 23. www.theverge.com, 24. www.theverge.com, 25. www.wired.com, 26. www.wired.com, 27. openai.com, 28. openai.com, 29. openai.com, 30. openai.com, 31. openai.com, 32. openai.com, 33. openai.com, 34. openai.com, 35. openai.com, 36. www.theverge.com, 37. openai.com, 38. openai.com, 39. openai.com, 40. www.theguardian.com, 41. www.theguardian.com, 42. www.theguardian.com, 43. www.theverge.com, 44. www.theguardian.com, 45. www.theverge.com, 46. techcrunch.com, 47. techcrunch.com, 48. www.theguardian.com, 49. openai.com, 50. techcrunch.com, 51. techcrunch.com, 52. www.wired.com, 53. www.theverge.com, 54. www.theverge.com, 55. openai.com, 56. openai.com, 57. openai.com, 58. openai.com, 59. openai.com, 60. www.theguardian.com, 61. www.theguardian.com, 62. www.theguardian.com, 63. www.wired.com, 64. www.theverge.com, 65. www.wired.com, 66. techmeme.com, 67. openai.com, 68. openai.com, 69. openai.com, 70. openai.com, 71. openai.com, 72. www.theverge.com, 73. techcrunch.com, 74. techcrunch.com, 75. techcrunch.com, 76. techcrunch.com, 77. techcrunch.com, 78. techcrunch.com, 79. openai.com, 80. openai.com, 81. www.theverge.com, 82. www.wired.com, 83. www.wired.com, 84. openai.com, 85. www.theguardian.com, 86. www.theverge.com, 87. www.theverge.com, 88. www.theguardian.com, 89. www.theverge.com, 90. www.theverge.com, 91. www.theverge.com, 92. www.theverge.com, 93. www.theverge.com, 94. techcrunch.com, 95. techcrunch.com, 96. techmeme.com, 97. www.theverge.com, 98. www.theverge.com, 99. www.wired.com, 100. www.theguardian.com, 101. www.theguardian.com, 102. www.theguardian.com, 103. www.theguardian.com, 104. www.theguardian.com, 105. www.wired.com, 106. www.wired.com, 107. www.theguardian.com, 108. techmeme.com, 109. techmeme.com, 110. techcrunch.com, 111. openai.com, 112. openai.com, 113. www.wired.com, 114. techmeme.com, 115. www.theguardian.com, 116. www.theguardian.com, 117. www.theguardian.com, 118. www.theguardian.com, 119. www.theguardian.com, 120. openai.com, 121. openai.com, 122. openai.com, 123. openai.com, 124. www.theverge.com, 125. www.theverge.com, 126. www.theverge.com, 127. www.theverge.com, 128. techcrunch.com, 129. techcrunch.com, 130. techcrunch.com, 131. techcrunch.com, 132. www.wired.com, 133. www.wired.com, 134. www.wired.com, 135. www.wired.com, 136. techmeme.com