- OpenAIはChatGPTの新機能「エージェント」モードを木曜日に公開し、ChatGPTが自分の仮想コンピューターを使って「考え」、行動できるようになった。
- エージェントは複数ステップのタスクを自律的に処理し、ウェブサイトのナビゲーション、アプリの操作、ファイルの管理、ExcelやPowerPointの出力作成が可能となった。
- 実例として、レストランの予約探索、オンラインショッピング、スプレッドシートやスライド資料の作成を任せられる点が挙げられる。
- 内部ツールとして、ビジュアルブラウザ、テキストベースブラウザ、ターミナル/コンソール、APIへの直接アクセス、コネクタを介したアカウント連携が搭載されている。
- 安全機能として、購入や予約など重大な行動には明確な確認を求め、オンラインでの機密性を守る設計になっており、金融取引は現時点で禁止されている。
- 長期記憶はエージェントモードでオフとなっており、現状はステートレスに動作するが、将来的に安全性が確認されれば再有効化の可能性がある。
- EU圏での提供は現時点でなく、EEA・スイスでのアクセスも制限され、米国や英国など他地域で先行提供されている一方、規制の影響で遅延が生じている。
- 基盤モデルはGPT-4系とは別のエージェント専用モデルで、複数ツールを順次利用して複雑なタスクを処理するよう強化学習で訓練されている。
- 収益化の観点では、サブスクリプションのアップセル、取引手数料、スポンサー付き表示の可能性、エンタープライズ統合の導入などが検討されている。
- 競合動向として、AnthropicのClaude 2、GoogleのDuet AI・エージェント、Meta・Amazonなどがエージェント型AIを強化しており、AIエージェント分野の競争が激化している。
ChatGPT、チャットボットからパーソナルアシスタントへ進化
OpenAIはChatGPTの大規模なアップグレードを展開し、人気のチャットボットをパーソナルAIアシスタントへと変貌させました。これにより、質問に答えるだけでなく、ユーザーに代わって行動を起こすことができるようになりました。ChatGPT「エージェント」と名付けられたこの新機能は木曜日にリリースされ、ChatGPTが自分自身の仮想コンピューターを使って「考え」、行動できるようになりました [1]。実際には、ユーザーはChatGPTに複数のステップからなるタスクを依頼できるようになりました。例えば、レストランの予約を探したり、オンラインショッピングをしたり、スプレッドシートやスライド資料の作成まで自律的に行うことができます [2]。OpenAIによれば、このエージェントモードによりAIはウェブサイトのナビゲート、ウェブブラウザやアプリの操作、ファイルの管理、ExcelファイルやPowerPointスライドなどの出力の作成が可能になり、単なるテキスト応答だけでなくなりました [3]。
なぜ重要なのか: このアップグレードは、OpenAIが静的なQ&Aチャットボットからデジタルアシスタントや「エージェント」として機能するAIへと進化させる、これまでで最も大胆な一歩です。従来のチャットボットとは異なり、AIエージェントはユーザーに代わってソフトウェアやウェブサイトとやり取りし、複雑で複数ステップのワークフローを実行できます [4]。「エージェントがユーザーに実際の利便性をもたらし、単に洗練されたテキストを出力して印象的に見せるだけでなく、実際に何かをしてくれることが期待されています」と、Enders Analysisのシニアメディアアナリスト、Niamh Burns氏は述べています [5]。本質的に、ChatGPTの新しいエージェントモードは、単なる会話ではなく、ユーザーのために実際のオンライン作業を行うという約束を果たすことを目指しています。
OpenAIのChatGPTエージェントは、内蔵の「仮想コンピューター」を使ってウェブを閲覧したり、フォームに入力したり、コードを実行したり、さらにはユーザーに代わってExcelスプレッドシートやPowerPointプレゼンテーションを作成することもできます [6] [7]。
新しいChatGPTエージェントは何ができるのか?
OpenAIはChatGPTエージェントを、さまざまなコンピュータベースのタスクに対応できる汎用デジタルアシスタントとして位置付けています [8]。その機能の一例は以下の通りです:
- スケジュールと計画の管理:カレンダーを確認し、今後の会議について説明したり、空いている夜を見つけてOpenTableでレストランの予約を探したりできます [9] [10]。スケジュールとレストランの空き状況を照合して、デートナイトなどのイベントを計画することも可能です。
- オンライン調査とレポート: 特定のトピックについてウェブ上で詳細な調査を行い、簡潔なレポートや分析をまとめます。例えば、トレンド(例:「ビーニーベイビーズ vs. ラブバスの台頭」)を分析し、要約や詳細な調査レポートを作成することができます [11]。
- ショッピングと注文: エージェントはオンラインショッピングも代行できます。特定の条件で商品を探したり、選択肢を比較したり、(あなたの許可のもとで)注文を出すことも可能です [12] [13]。OpenAIのリサーチリードであるIsa Fulfordは、エージェントに自分の指示通りにカップケーキを注文させることにも成功しました――この作業は「ほぼ1時間かかった」ものの、手作業でやるよりも簡単だったそうです [14]。
- オフィス業務 – スプレッドシートとプレゼンテーション: おそらく最も注目すべきは、ChatGPT Agentが編集可能なファイルを作成できることです。プロンプトに基づいて、ExcelスプレッドシートやPowerPointスライドデッキを一から生成できます [15]。例えば、競合他社のデータを分析し、調査結果をまとめたグラフ付きのスライドデッキを作成するよう依頼できます [16]。また、新しいデータでスプレッドシートを更新したり、一連のスクリーンショットをフォーマット済みのプレゼンテーションに変換したりすることも可能です [17]。出力ファイルはダウンロード可能で、標準的なオフィスソフトで開くことを想定しています(ただし、OpenAIはスライド生成機能はまだベータ版であると注意を促しています) [18]。
- 開発者ツールとAPIの利用: 内部的には、エージェントはプログラミング用のターミナルにアクセスでき、パブリックAPIを呼び出すことができます。つまり、カスタム計算を行うためのコードを実行したり、外部サービスにクエリを送ったりできるということです。GmailやGitHubのようなアプリと「コネクタ」を通じて連携し、(ユーザーの許可のもと)情報を取得して応答に利用できます [19]。OpenAIによれば、ChatGPT Agentはオンラインフォームの入力や、APIコールを通じてGoogle DriveやSharePointなどのサービスと連携することも可能です [20]。
これらすべての機能は、AIに「仮想ブラウザ/コンピュータ」を与えることで実現されています。タスクを割り当てると、ChatGPTはウェブサイトをナビゲートし、リンクやボタンをクリックしたり、ページをスクロールしたり、テキストフィールドに入力したり、コードを書いて実行したりなど、課題を完了するために必要なあらゆる操作を行います [21] [22]。反復的かつ自律的に動作し、次にどのツールやウェブサイトを使うかを自分で判断します。例えば、日本食ディナーの計画では、Googleでレシピを検索し、次に食材を注文するために食料品サイトを開き、最後に買い物リストのスプレッドシートを生成する、といった一連の作業を、ユーザーが細かく指示しなくてもエージェントがすべて実行します。
ChatGPT Agentはどのように動作するのか?
舞台裏では、ChatGPT Agentはエージェントタスク専用にOpenAIが構築した新しいAIモデルによって動作しており、これはベースとなるGPT-4モデルとは別物です [23]。このモデルは、複数のツール(ブラウザ、API、コードなど)を順番に使う必要がある複雑なタスクを処理できるよう、強化学習によって訓練されました [24]。実際、OpenAIは以前の2つの実験的システム――Operator(ブラウジング/自動化ツール)とDeep Research(詳細分析ツール)――をこの統合エージェントにまとめました。「この2つのプロダクトは非常に補完的であることに気づき、基本的にチームを統合することに決めました」とFulford氏は語ります [25]。その結果、Operatorのウェブ上でのクリック操作能力とDeep Researchの情報統合スキルを1つのワークフローに組み合わせたエージェントが誕生しました [26]。
スキルのツールボックス: ChatGPT Agentは、複数の専門的なツールを装備しています [27]:
- ビジュアルブラウザ:人間のように通常のGUIを通じてウェブサイトと対話するためのものです(ボタンをクリックしたり、ページを移動したりします)。
- テキストベースブラウザ:素早くHTTPリクエストを送り、生のテキストを解析します(大量のテキストを素早く読む場合や、ビジュアル表示が不要な場合に便利です) [28]。
- ターミナル/コンソール:コードの実行、ファイル操作、またはサンドボックス環境内でコマンドラインユーティリティを使用できます [29]。
- APIへの直接アクセス:外部サービスのAPIを呼び出すことができます(例:Googleカレンダーへの投稿、データベースのクエリ、オンラインサービスからのデータ取得など) [30]。
- ユーザーアカウントへのコネクタ: ユーザーは自分のアプリ(メールやGitHubなど)を接続できます。許可を与えると、エージェントはタスクを達成するためにあなたのメール、カレンダー、その他のアカウントから関連情報を取得できます [31]。例えば、要約を作成する必要がある場合はGmailの最近のメッセージをスキャンしたり、API経由でカレンダーを確認して空き時間を探したりします。
これらのツールにより、AIはタスクに対して最適なアプローチを選択できます。例えば、APIを使ってカレンダーの空き状況を素早く確認し、その後、クリックや人間のような操作が必要なOpenTableの予約ページをナビゲートするためにビジュアルブラウザに切り替えることもあります [32]。テキストブラウザやAPI経由でファイルをダウンロードし、ターミナルでコードを実行して分析や再フォーマットを行い、その結果をビジュアルブラウザで開いてあなたに提示することもできます [33]。これらすべてはエージェントの仮想マシン内で行われ、あなたの実際のデバイスからは隔離されています。つまり、AIが自分専用のコンピュータを持ち、そこであなたの指示を実行しているようなものです [34]。
ユーザー体験: エンドユーザーにとって、ChatGPTエージェントの利用はシンプルです。この機能は、アクセス権のあるユーザー向けにChatGPTのインターフェースに新たに追加された「エージェントモード」から利用できます [35]。タスクを入力してプロンプトを開始するだけ(スラッシュコマンド「/agent」と入力することも可能)で、あとはAIが処理を進めます [36]。作業中は、画面上にエージェントのステップごとの動作がナレーション表示されます。例えば「maps.google.comにアクセス中…『近くのイタリアンレストラン』を検索中…」のように、進行状況を追うことができます [37] [38]。特筆すべきは、いつでもエージェントを中断または誘導できる点です。処理を一時停止して指示を明確にしたり、別のアプローチを取るように求めたりでき、タスクの進行を失うことなく途中で適応します [39]。この協働ループは、AIがあなたの目標に沿うように設計されています。
安全機能: AIの行動を管理する仕組み
AIにオンラインで行動を取らせることは明らかな安全性の懸念を引き起こし、OpenAIもこの新しいモードには「従来のモデルよりも多くのリスク」があることを認めています [40]。これを軽減するために、OpenAIは複数のセーフガードと制限を実装しています:
- 機密性の高い行動に対するユーザーの許可: 「あなたが常にコントロールできます」とOpenAIは強調しています [41]。ChatGPT Agentは、購入、メール送信、予約など重大な結果を伴う行動を行う前に、必ず明確な確認を求めます [42] [43]。ユーザーがこれらの取り消し不可能なステップを承認しなければ、AIが勝手にAmazonで1,000ドル分のガジェットを注文する、といったことを防ぎます。
- 「高リスク」コンテンツ制限(生物/化学): エージェントの強化された能力を考慮し、OpenAIはこれを「高い生物学的・化学的リスク」カテゴリに分類していますが、「決定的な証拠はない」としています(生物兵器の作成に役立つ可能性について) [44] [45]。この予防措置(OpenAIのPreparedness Frameworkの一部)により、追加のガードレールが有効化されています。具体的には、OpenAIはすべてのエージェントプロンプトにリアルタイムのコンテンツ分類器を実行し、生物学や化学に関連しているかをチェックします。該当する場合、エージェントの応答は2つ目の安全モデルによって審査され、危険な指示を提供していないか確認されます [46] [47]。つまり、誰かがこのエージェントを悪用して有害物質を作ろうとした場合でも、システムがそれを検知しブロックするよう設計されています。
- 有害なタスクを拒否するよう訓練: このエージェントは、特定の疑わしいまたは悪意のあるリクエストを拒否するように訓練されています。例えば、明らかに危険または非倫理的な行為、例えば不明な口座への銀行振込や破壊的なコマンドの実行などを求められた場合、拒否します [48]。OpenAIによれば、レッドチームやドメイン専門家が「現実的なシナリオ」でシステムをテストし、これらの拒否を強化したとのことです [49]。
- 長期記憶の無効化: 興味深い制限の一つとして、ChatGPTの長期チャット記憶はエージェントモードでオフになっています [50]。通常、ChatGPTは会話の初期や過去のセッション(有効化されていれば)から情報を記憶できますが、OpenAIは巧妙な攻撃者がエージェントタスク中にこれを悪用し(いわゆるプロンプトインジェクションを通じて)、エージェントに機密データを漏洩させたり、望ましくない行動をさせたりすることを懸念しました [51]。その結果、現在エージェントはステートレス(無状態)で動作し、以前のチャットから情報を引き継ぎません。OpenAIは将来的に安全性が確認できれば記憶機能を再度有効化する可能性がありますが、現時点ではこの「追加の予防措置」により潜在的なデータ漏洩を回避しています [52]。
- 金融取引は禁止: OpenAIはまた、金融操作を現時点では制限しています。例えば、エージェントは送金や株取引などを依頼されても実行しません [53]。実際、「ウォッチモード」と呼ばれるセーフガードがあり、エージェントが特定の機密性の高いウェブサイト(銀行や取引プラットフォームなど)を閲覧している場合、ユーザーがエージェントのブラウザタブから離れると活動を一時停止します。これにより、バックグラウンドでの不正な動作を防ぎます [54]。
- 広範なテストとバウンティプログラム: OpenAIは、このモデルが脅威モデリングとモニタリングの面で「これまでで最も包括的なセーフティスタック」を備えていると謳っています [55] [56]。同社は外部のバイオセキュリティ専門家と協力し、リリース前にドメインスペシャリストによるレッドチームを実施しました [57]。リリースと同時に、OpenAIはリスクを説明する詳細なシステムカードも公開し、外部研究者が脆弱性を報告することを奨励するためにバグバウンティも提供しています [58] [59]。
これらの予防策にもかかわらず、OpenAIはAIがインターネット上で稼働する際に予期しない挙動が発生する可能性があることを認識しています。同社は、エージェントを段階的に改良し、必要に応じてセーフガードを調整すると述べています。現時点では、ユーザーはエージェントの行動を監督するよう勧められています(インターフェースはすべてのステップをナレーションすることでこれを促しています)。「このモデルには従来のモデルよりも多くのリスクがある」とOpenAIは認めており、そのため「慎重に対応し、必要なセーフガードを今実装している」 [60] [61]。
初期の制限: スピードと信頼性
まだ人間のアシスタントを解雇しないでください。 初期のデモやテストでは、ChatGPTエージェントは印象的な能力を示す一方で、顕著な制限も見られました:
- ゆっくり着実に: エージェントはタスクを完了するのに時間がかかることがよくあります。情報を集めるために数分間クリックや閲覧を繰り返し、チャットボットの直接的な回答よりもはるかに長い時間を要することもあります。あるデモンストレーションでは、エージェントがGoogleカレンダーやレストランのサイトを調べて夕食の選択肢を提案するのに約10~15分かかりました [62]。複雑なスライド資料の作成や大規模なリサーチにはさらに時間がかかる場合もあります(OpenAIのスタッフによると、スライド作成タスクのテストでは約25分かかったとのことです) [63]。「たとえ15分、30分かかったとしても、自分でやるよりはかなりのスピードアップです」とFulford氏は主張し、ユーザーはタスクを開始している間に他のことができると指摘しています [64]。それでも、忍耐が必要です。エージェントは即時ではありません。OpenAIのYash Kumar氏は、現在のバージョンでは平均的なタスクに約10~15分かかると見積もっています [65]。
- 時折のトラブル: 他のAIと同様に、エージェントはミスをしたり、タスクで「行き詰まる」ことがあります。初期ユーザーからはさまざまな結果が報告されています。複雑なワークフローでは混乱したり、途中で指示を誤解することもあります。ある初期テスターは、エージェントが「与えた3つのタスクすべてに失敗した…未来の一端を垣間見せてくれたが、現時点ではあまり役に立たない」とコメントしています [66]。これは、この技術が高度であっても完璧ではないことを示しています。OpenAI自身も、エージェントは「まだ初期段階」であり、「まだミスをする可能性がある」と述べています [67]。今後のアップデートで信頼性や推論力の向上が期待されています。
- 基本的な出力品質: PowerPoint/スライド生成機能は現在ベータ版であり、作成されるスライドはかなりシンプルに見えたり、仕上げが必要な場合があります [68]。OpenAIは、まず内容と構成を正確にすることに重点を置き、派手なデザインは後回しにしました。フォーマットが初歩的だったり、スライドのプレビューとエクスポートされたPowerPointファイルに違いが生じる場合があると警告しています [69]。同様に、エージェントはスプレッドシートの編集や数式の維持はできますが、熟練した人間レベルのExcelの達人ではまだありません。OpenAIはすでに、プレゼンテーションでより「洗練された高度な出力」を生み出す次のバージョンのトレーニングを進めています [70]。
- 欧州でのリリースなし(現時点では): 特筆すべきは、ChatGPTエージェントがEUではリリースされていないことです。OpenAIは「欧州経済領域およびスイスでのアクセス有効化にまだ取り組んでいる」 [71]と述べています。他の地域(米国や英国を含む)ではすぐに利用可能になりましたが、欧州のユーザーは無期限に待たされることになりました。OpenAIはEUでの展開時期について明確なスケジュールを示していません [72]。これは規制上の懸念に関連している可能性が高く、EUの厳格なデータおよびAI規制により、OpenAIは自律型エージェントのリリース前に追加のコンプライアンス手順が必要になるかもしれません。現時点では、欧州のユーザーにはこの機能が利用できない旨のメッセージのみが表示されます。
良い点として、OpenAIは新しいエージェントの基盤モデルが以前のバージョンよりもはるかに高性能であると主張しており、これは複雑な処理への対応に期待が持てます。このモデルは、いくつかの難関ベンチマークで最先端のスコアを記録したと報告されています [73]。例えば、「Humanity’s Last Exam」と呼ばれる100以上の分野にまたがる大規模な専門家レベルのテストで41.6%のスコアを獲得しました。これは、OpenAIの従来モデルのスコアの約2倍にあたります [74]。また、非常に難しい数学のベンチマーク(FrontierMath)では、ツールを使って27.4%の正答率を達成し、従来の最高モデルの6.3%を大きく上回りました [75]。これらの進歩は、ツールを使える場合に複雑で多段階の問題を解決する能力が大幅に向上していることを示唆しています。「OpenAIは、ChatGPTエージェントが従来の製品よりもはるかに高性能だと述べている」とTechCrunchは報じています [76]。ただし、より多くのユーザーが実際の環境で限界まで使ってみるまでは、管理されたテスト以外で本当にどれほど「高性能」なのかはまだ分かりません [77]。
利用可能性:ChatGPTエージェントは誰が使える?
OpenAIは当初、ChatGPTエージェントを有料サブスクライバー向けの特典として提供開始します。今週から、ChatGPTのPro、Plus、Teamプラン(いわゆるプレミアム層に相当)向けに機能が有効化されています [78]。Proユーザーが最初(ローンチ当日)にアクセスでき、その後数日かけてPlusおよびTeamサブスクライバーにも提供される予定です [79]。EnterpriseおよびEducationプランの顧客には、問題点が解消され次第「数週間以内」に提供される予定です [80] [81]。無料ユーザー向けの提供時期は発表されていません。追加価値や高い計算コストを考慮すると、当面は有料機能のままである可能性もあります。
階層化されたアクセスとともに、OpenAIは月間使用制限を課しています。Proサブスクライバー(最上位層)は月に最大400エージェントタスクを実行できますが、PlusおよびTeamユーザーは月に40タスクが含まれています [82] [83]。この上限は高コストな処理が無制限に行われるのを防ぐためですが、追加の利用はクレジットシステムを通じて購入できる場合があります [84]。タスクは「エージェンティックプロンプト」ごとにカウントされ、つまりエージェントを何かに使うたびに1回としてカウントされます。
前述の通り、ヨーロッパのユーザーはChatGPT Agentにアクセスできません(ローンチ時点で) [85]。EU以外のユーザーがエージェントモードを切り替えると、この機能が実験的である旨の警告が表示され、その後利用できます。しかしEUユーザーは単純にブロックされます。OpenAIがEEAでのアクセスに取り組んでいるという記述から、遅延の理由はEU規制(おそらくプライバシーやAI法関連)への準拠である可能性が高いです。このジオフェンス付きの展開は、以前のChatGPTの一部機能(ウェブブラウジングなど)が法的な不確実性のため一時的に地域で提供停止されたことを思い起こさせます。現時点では、EU内のユーザーはOpenAIがエージェントを現地要件に適合させるまで待つ必要があります。
AIエージェントの軍拡競争 ― Google、Anthropic、その他
OpenAIの「エージェンティック」AIへの取り組みは、より広範な業界のトレンドである自律型AIアシスタントへの流れの中で行われています。実際、競合他社も独自のエージェント的な機能を強化しています:
- AnthropicのClaude: 昨年、Anthropic(Claudeチャットボットの開発元)は「Computer Use」と呼ばれる機能を導入しました。これは本質的に、Claudeが人間のようにコンピュータを使い、ウェブサイトの閲覧やユーザーのマシン上でのタスク実行を可能にするものです [86]。わずか2か月前(2025年5月)、Anthropicは最新モデルClaude 2(コードネームOpus 4)をエージェンティック機能付きでリリースし、同様に特別なバイオセーフティ対策を有効化して悪用を防止しました [87]。これは、小規模なAIスタートアップでさえ自律型エージェントの力とリスクの両方を認識していることを示しています。
- GoogleのAI拡張機能: Googleは、生成AI(BardやAssistantなど)を直接的なアクションと統合する取り組みを進めています。Gmailでメールの下書きを作成したり、Google Driveのドキュメントを要約したり、実験的な「Duet AI」を使ってブラウザを操作するAIのデモも行われています。The Guardianによると、Googleは最近、ユーザーのタスクを完了するためにアプリ間を行き来できる同様のアシスタント「エージェント」をリリースしました [88]。さらに、先週Googleは、エージェント型AIプロジェクトを強化するために、スタートアップ(Windsurf)から主要スタッフを採用しました [89]。これは、Jarvisのようなアシスタントを構築する競争が激化していることを示しています。
- 他のプレイヤー: Meta(Facebook)やAmazonも、決算説明会でAIエージェントへの野望について言及しており、ビッグテック各社がこれを次の大きな潮流と見なしていることが分かります [90]。例えば、eコマース企業は、AIエージェントがカスタマーサービスのチャットやショッピングリクエストを最初から最後まで対応することを想定しています。注目すべき初期事例として、フィンテック企業Klarnaは2024年初頭、AIカスタマーサービスエージェントが全顧客チャットの3分の2を担当し、約700人分の業務をこなしたと報告しました [91]。この成功事例が企業界隈で「AIエージェント」という言葉を広め、その後多くのCEOがエージェント型AIを目標として掲げるようになりました [92]。
- 過去の実験: OpenAI自身も以前、エージェントに手を出していました。2025年1月、Operatorをリサーチプレビューとしてリリースし、「あなたのためにウェブ上でタスクを実行できるエージェント」と説明されていました [93]。Operatorはウェブサイトをクリックしたりスクロールしたりできました。また、長文の分析を書けるDeep Researchモードもありました。しかし、これらの前身は範囲が限られており、時に不安定でした。他のスタートアップ(Adept AIのACT-1など)も、人間のようにソフトウェア上でコマンドを実行できるエージェントを披露しましたが、いずれも主流製品にはなっていません。初期世代のAIエージェントは複雑なタスクや信頼性に苦戦しました [94]—多くの場合、手厚いサポートが必要でした。テック業界の幹部たちは「何でもできるAIアシスタント」のビジョンを描きましたが、現実は誇大広告に追いついていませんでした [95]。
今、ChatGPT Agentによって、OpenAIはこれら過去の取り組みを一気に飛び越えようとしています。強み(ウェブ閲覧+分析)を組み合わせ、GPT-4レベルの知能を活用することで、ついに壮大なビジョンに近づくエージェントができたと主張しています。「これはエージェント史上最高のUXだ。マジでヤバい。これを超えてみろ!!」と、ある興奮したユーザーはローンチ後に投稿しました [96]。この感想は明らかに大げさですが、AIコミュニティの一部で「J.A.R.V.I.S.」—アイアンマンの架空のAI執事—の現実化に近づいているという興奮を表しています [97]。現時点では、ChatGPT Agentやその仲間たちはまだ理想への初期段階であり、主にリサーチやコーディング、基本的なオンライン作業をこなすにとどまり、本当の意味での自律性には至っていません [98]。しかし、競争の勢いは明らかです。すべてのAI企業が、人々が日常的に使うAIアシスタントを最初に実現しようとしています。
収益化: エージェントはOpenAIに利益をもたらすのか?
ChatGPT Agentのローンチにより、OpenAIは新技術を披露するだけでなく、将来的な収益源にも目を向けています。同社はChatGPTの開発を大きく補助してきました(マイクロソフトが数十億ドルを投資)し、その大人気AIを「収益を生むプロダクト」に変える必要があります [99]。エージェントは、いくつかの方法でその収益化の鍵となる可能性があります:
- サブスクリプションアップセル: 端的に言えば、エージェントモードは有料プランへのユーザー誘導を促すプレミアム機能です。Plus/Pro加入者のみに限定することで、OpenAIはAIアシスタントに業務を任せたいパワーユーザーにとって月額20ドル以上の料金をより魅力的にしています。これは即時的かつ分かりやすい収益化方法であり、より多くの人にChatGPTの利用料を支払ってもらうことが狙いです。
- 取引手数料: OpenAIのCEOサム・アルトマンは、AIを介した商取引から手数料を得る可能性を示唆しています。彼はOpenAIが「アシスタントによって生み出された売上に2%の手数料を課す」ことができると推測しました [100]。つまり、ChatGPTエージェントが商品購入やホテル予約を手伝った場合、OpenAIが(加盟店やアフィリエイトリンク経由で)少額の手数料を得る可能性があります。このモデルにより、AI主導のショッピングや予約が収益源となります。最近のエージェントのデモでは、ユーザーを小売のチェックアウトまで案内する様子が示され、OpenAIが将来的にアフィリエイトや紹介手数料を組み込むのではという話題がすぐに広まりました [101]。
- スポンサー付き結果/広告: AIアシスタントは新たな広告プラットフォームとなる可能性があります。エージェントが商品やレストランを提案する場合、ブランドは推薦されるために料金を支払うのでしょうか?「広告やスポンサー付き表示の何らかの形は不可避に思える」とアナリストのニアム・バーンズは述べ、「AI企業に対する製品収益化の圧力が高まっている」と指摘しています。 [102] 前例として、検索エンジンは広告で収益を上げているため、検索を代替するAIも同様になるかもしれません。しかし、OpenAIはChatGPTエージェントの推薦においてスポンサー付きコンテンツを現在使用していないと否定しています [103]。同社は、エージェントには有料のプロダクトプレースメントが含まれておらず、「それを変更する予定もない」と述べています。 [104] 現時点では、結果はユーザーの条件とAIの判断のみに基づいているはずです。それでも、アシスタントエコシステムが成熟すれば、将来的な広告モデルの可能性は残されています。
- エンタープライズサービス: OpenAIは、エージェントをエンタープライズ向けソフトウェアソリューションの一部として提供することで収益化することも可能です。例えば、企業がChatGPT Agentを自社の内部ツールに統合したり、カスタマーサポートを担当させたりするために料金を支払うかもしれません。OpenAIはすでにMicrosoftと継続的なパートナーシップについて契約交渉中であり、将来的には高度なエージェントがMicrosoftの製品に組み込まれることも想像できます(これが間接的にOpenAIに収益や有利な条件をもたらす可能性があります) [105]。「エンタープライズでの利用ケース」は、プロダクトリードのYash Kumarによれば、エージェント設計の大きな考慮事項だったとのことです [106]。つまり、OpenAIは企業がこの技術をどのように活用し(そして対価を支払うか)について考えている可能性が高いということです。
短期的には、OpenAIの焦点はエージェントの改良とサブスクリプションの促進にあると考えられます。しかし最終的に、エージェントが約束通り有用なものとなれば、取引やワークフロー全体を促進することも可能になり、OpenAIはそこから何らかの価値を確実に得ようとするでしょう。同社は、ユーザーの信頼(製品を推薦するエージェントが偏りなく感じられることが信頼の前提)と収益化のバランスを取る必要があります。その方法は注視されるでしょう。アナリストのBurnsは、「もしエージェントがあなたのために商品を見つけてくれるなら、『そのシステムが商品を見つけるプロセスには何が関与しているのか?アシスタントに取り上げてもらうためにブランドが支払うような商業契約があるのか…?』」と考察しています [107]。OpenAIは現時点では否定していますが、経済的なインセンティブは存在します。
専門家の反応と展望
ChatGPT Agentの登場は、専門家や初期ユーザーから興奮と慎重なコメントの両方を呼び起こしています。イーサン・モリック(Whartonの教授で、教育分野でAIを活用した実験で知られる)は、初期アクセスを得た少数グループの一人でした。彼の評価は前向きでした。「ChatGPT agentは、AIが実際の仕事をこなすための大きな前進だと思います。この段階でも、自律的にリサーチを行い、Excelファイル(数式付き!)やPowerPointなどを組み立てるのが上手です。」 [108]。モリック氏は、さまざまなエージェントの能力が「一体化しつつある」様子が垣間見えたと述べています(まだ完璧ではないにせよ) [109]。他のAI研究者も同様の意見を示し、ChatGPT Agentがタスクを連鎖させ、従来は多くの手作業が必要だった実用的なアウトプットを生み出す点に感銘を受けていました。
同時に、実世界でのテストは始まったばかりだという認識もある。エージェントが混沌としたオープンなインターネットをどれだけ確実に扱えるのか、閲覧中に詐欺や誤情報に騙されずにいられるのか、そして一般ユーザーが本当に役立つと感じるかどうか――これらはまだ解決されていない問題だ。「実世界でどれほど有能かは、まだ分からない」とTechCrunchは指摘している。過去のエージェントは予期せぬ状況に直面すると脆弱だったからだ [110]。また、AIにより多くの主体性を与えることへの社会的な懸念もある。許可チェックがあっても、AIが奇妙またはリスクのある判断を下す事例は必ず出てくるだろう。OpenAI自身のシステムカードも、こうした自律性には「新たなリスク」があると認めており、それらを軽減するための継続的な研究を約束している [111] [112]。
現時点では、ChatGPT Agentの導入は、AIが単なる支援的なテキスト生成から実際のタスク実行へと進化する上での大きな節目となっている。これは、「チャットボット」から「エージェント」へのパラダイムシフトの一部だ――つまり、AIシステムがデジタル世界で自ら行動し、目標を達成することができるようになるということだ。単なる会話だけではない。「今、エージェントは最も話題のバズワードだ」とWIREDは書いている。それだけ多くの企業がこのビジョンを追いかけているからだ [113]。OpenAIはこの新たな領域にしっかりと旗を立て、ChatGPTの人気と親しみやすさを活かして、エージェントを大衆(少なくとも有料ユーザー)に広めようとしている。
要点: 対象となるChatGPTユーザーであれば、今や面倒だったり複雑なタスクの一部をAIのヘルパーに任せ、その作業をステップごとに見守ることができる。まるで決して眠らない勤勉なインターンがいるような、少し魔法のような感覚を味わえる一方で、AIが自律的にウェブを巡回する様子にはやや不安も覚える。このリリースは、一般の人々がAIエージェントをどのように使うかという壮大な実験の始まりだ。ある初期ユーザーはこう語っている: 「自律的にうまくやってくれる…エージェントがどのようにまとまってきているかが分かる」 [114]。今後数ヶ月で、ChatGPT Agentが本当に利便性や生産性の約束を果たすのか、そして増え続けるライバルAIアシスタントと比べてどうなのかが明らかになるだろう。一つ確かなのは、「行動する」AIの時代が、単なる会話を超えて、正式に始まったということだ。
出典:
- Booth, R. (2025年7月17日). The Guardian – OpenAI、ファイルやウェブブラウザを操作できるパーソナルアシスタントを発表. [115] [116] [117] [118] [119]
- OpenAI. (2025年7月17日). ChatGPTエージェントの紹介:研究と実行の架け橋 (公式OpenAIブログ) [120] [121] [122] [123]
- Field, H. (2025年7月17日). The Verge – OpenAIの新しいChatGPTエージェントはコンピュータ全体を操作し、タスクを代行できる. [124] [125] [126] [127]
- Zeff, M. (2025年7月17日). TechCrunch – OpenAIがChatGPTで汎用エージェントを発表. [128] [129] [130] [131]
- Rogers, R. (2025年7月17日). WIRED – OpenAIの新しいChatGPTエージェントはすべてをこなそうとする. [132] [133] [134] [135]
- Techmeme. (2025年7月17日). ChatGPTエージェントのローンチに関する技術ニュースの集約(Ethan Mollickのコメントを含む) [136]
References
1. www.theguardian.com, 2. www.theguardian.com, 3. techmeme.com, 4. www.theverge.com, 5. www.theguardian.com, 6. openai.com, 7. techmeme.com, 8. techcrunch.com, 9. openai.com, 10. www.theverge.com, 11. www.theverge.com, 12. www.theguardian.com, 13. www.wired.com, 14. www.wired.com, 15. openai.com, 16. openai.com, 17. openai.com, 18. openai.com, 19. openai.com, 20. www.wired.com, 21. openai.com, 22. techmeme.com, 23. www.theverge.com, 24. www.theverge.com, 25. www.wired.com, 26. www.wired.com, 27. openai.com, 28. openai.com, 29. openai.com, 30. openai.com, 31. openai.com, 32. openai.com, 33. openai.com, 34. openai.com, 35. openai.com, 36. www.theverge.com, 37. openai.com, 38. openai.com, 39. openai.com, 40. www.theguardian.com, 41. www.theguardian.com, 42. www.theguardian.com, 43. www.theverge.com, 44. www.theguardian.com, 45. www.theverge.com, 46. techcrunch.com, 47. techcrunch.com, 48. www.theguardian.com, 49. openai.com, 50. techcrunch.com, 51. techcrunch.com, 52. www.wired.com, 53. www.theverge.com, 54. www.theverge.com, 55. openai.com, 56. openai.com, 57. openai.com, 58. openai.com, 59. openai.com, 60. www.theguardian.com, 61. www.theguardian.com, 62. www.theguardian.com, 63. www.wired.com, 64. www.theverge.com, 65. www.wired.com, 66. techmeme.com, 67. openai.com, 68. openai.com, 69. openai.com, 70. openai.com, 71. openai.com, 72. www.theverge.com, 73. techcrunch.com, 74. techcrunch.com, 75. techcrunch.com, 76. techcrunch.com, 77. techcrunch.com, 78. techcrunch.com, 79. openai.com, 80. openai.com, 81. www.theverge.com, 82. www.wired.com, 83. www.wired.com, 84. openai.com, 85. www.theguardian.com, 86. www.theverge.com, 87. www.theverge.com, 88. www.theguardian.com, 89. www.theverge.com, 90. www.theverge.com, 91. www.theverge.com, 92. www.theverge.com, 93. www.theverge.com, 94. techcrunch.com, 95. techcrunch.com, 96. techmeme.com, 97. www.theverge.com, 98. www.theverge.com, 99. www.wired.com, 100. www.theguardian.com, 101. www.theguardian.com, 102. www.theguardian.com, 103. www.theguardian.com, 104. www.theguardian.com, 105. www.wired.com, 106. www.wired.com, 107. www.theguardian.com, 108. techmeme.com, 109. techmeme.com, 110. techcrunch.com, 111. openai.com, 112. openai.com, 113. www.wired.com, 114. techmeme.com, 115. www.theguardian.com, 116. www.theguardian.com, 117. www.theguardian.com, 118. www.theguardian.com, 119. www.theguardian.com, 120. openai.com, 121. openai.com, 122. openai.com, 123. openai.com, 124. www.theverge.com, 125. www.theverge.com, 126. www.theverge.com, 127. www.theverge.com, 128. techcrunch.com, 129. techcrunch.com, 130. techcrunch.com, 131. techcrunch.com, 132. www.wired.com, 133. www.wired.com, 134. www.wired.com, 135. www.wired.com, 136. techmeme.com