昨今の生成AI界隈における新たなムーブメントとして着目されるのがAIエージェントである。すでにAIエージェントというワードを冠したサービスも続々発表されており、各社がしのぎを削っている状況だ。一種の“バズワード”化していると言ってもいいだろう。

AIエージェントとはどのような技術なのか。LLM(Large Language Model)との違いや、LLMにはないメリットとは何か。本稿では、AIエージェントのアーキテクチャや技術面の詳細について、具体例を交えながら解説する。

現段階における「AIエージェント」の定義

実はAIエージェントという言葉自体は最近生まれたものではない。いわゆるLLMブームが到来するもっと以前から、AIエージェントという言葉は一般的に使われていた。ただ、当時のAIエージェントという言葉に明確な定義があったわけではない。AIという技術に対するイメージの一つとして、曖昧に使用されていたのが実情である。

そんな中で起きたのが、LLMのムーブメントだ。今や、AIと言えば真っ先にLLMをイメージされる方も多いのではないだろうか。そして、そのLLMの進化系として語られるようになったのが、現在におけるAIエージェントである。

注意すべきは、現在においてもAIエージェントの正確な定義は定まっていないということ。現在はまだ、従来のLLMとの違いなどから、AIエージェントの定義が形作られている最中なのだ。

では、現段階におけるAIエージェントの定義とは何か。

従来のLLMが「人の指示に基づいてタスクを完了するAI」であるとすれば、AIエージェントは「複雑なタスクを自律的に実行するAI」である。

AIエージェントは、目的達成のために、RAG(Retrieval-Augmented Generation)やFunction Calling(ファンクションコーリング)など、生成AIに関連したツールを活用する。それも、人が「何のツールを使うのか」をわざわざ指示しなくても、目的を達成するために何が必要かを自律的に考え、あらゆる手段を駆使するのだ。誤解を恐れず言えば、「LLMよりも、より人らしくなった存在」がAIエージェントだと表現できる。

LLMとAIエージェントの違い

LLMとAIエージェントの違いについて、もう少し詳しく見ていこう。

そもそも、LLMはプロンプトという形でユーザーから指示を受け、“会話”を通してタスクを完遂するツールである。自然言語で指示することができ、それが曖昧な指示であっても、文脈を踏まえて回答できるのがLLMの強みだ。

ただ、裏を返せばLLMは「“会話”しかできない」とも言える。膨大なデータから解を導き出し、テキストで回答することはできるが、予備知識を必要とするような複雑なタスクについては対応できないのだ。

例えば、「自社のデータベース内にある売上データや市況を分析し、来期に注力して営業すべき既存顧客をリスト化する」というタスクがあったとする。

人間であれば、まず自社データベースにアクセスし、商品やサービスの特徴、売上などのデータを抽出。その上でCRMから顧客のデータを拾い上げ、市場や競合各社の状況なども加味した上で、来期注力すべき顧客をリスト化するだろう。

LLMに同様の作業をやらせようと、「来期注力すべき顧客のリストを作って」と指示しても、適切に実行することは難しい。なぜなら、LLMは自社のデータベースやCRMにアクセスできないため、必要なデータを持っていないからだ。

すると、どうなるか。おそらく的はずれな分析と顧客リストが返ってくるか、あるいは分析に必要な情報を要求されるだろう。それに対して、プロンプトで商品やサービスの特徴、既存顧客リストなどの情報を提供することで、ようやくLLMはまともな分析を始めるはずだ。

つまり、LLMに複雑なタスクをやらせるためには、こちらから必要な情報を与えたり、都度指示を出したりと、手取り足取りサポートしなければならないのである。

一方、AIエージェントであれば「来期注力すべき顧客のリストを作って」と指示するだけで、まるでベテラン担当者が作成したような適切な顧客リストを作成してくれるのだ。

AIエージェントの“正体”

AIエージェントは、人のように複数のツールを使いこなし、複雑なタスクを完遂できる存在と述べた。ただし、前述したようにAIエージェントの定義は今もまだ曖昧で、「何のツールを使うとAIエージェントなのか」なども決まっているわけではない。

ただし、LLMだけではAIエージェントとは呼べない。LLM自体は検索などの機能を持たないし、仮に機能を備えたとしても、「それをいつどのように使うのか」を理解していないからだ。

GoogleがKaggleで公開しているホワイトペーパーでは、AIエージェントのアーキテクチャと構成要素を説明する図が示されている。これを見るに、「LLMにRAGやAPIコールなどの外部ツール機能を加えた上で、それらをどのように使いこなすのかというオーケストレーションを可能にしたアーキテクチャ」がAIエージェントの“正体”だと言えそうだ。

ただし、それはあくまで「Googleが考えるAIエージェントの仕組み」である。何度も言うが、AIエージェントの定義は定まっておらず、各社がそれぞれ異なるAIエージェントのアーキテクチャを作り上げているのが現状だからだ。

とはいえ、上述のようなアーキテクチャによって可能となる「より人らしく、自律的に考えて行動するAI」がAIエージェントの最も一般的なイメージであることは間違いないだろう。

AIエージェントの自律的な行動を支える「Function Calling」

AIエージェントの肝となる、「外部機能の自律的な活用」を可能とするための技術の一つが「Function Calling」だ。

AIエージェントは、ユーザーから何らかのリクエストを受けた場合、「そのリクエストはどのファンクション(機能)で対応できるのか」を判断する。

仮に、「グルメサイト内を検索するAPIをコールするファンクション」をAIエージェントが持っていて、ユーザーが「今日の夜、イタリア料理を食べたいんだけど、おすすめのレストランは?」と質問したとする。

すると、AIエージェントはユーザーの質問に関連するファンクションとして、「グルメサイト内を検索するAPIをコールするファンクション」を呼び出し、グルメサイト内を検索するというわけだ。

なお、このFunction Callingの実行はサーバ側で行ってもいいし、ユーザー側で行ってもいい。例えば、「グルメサイト内を検索するAPIをコールするファンクション」のように、グルメサイトがAPIとして提供しているファンクションであればサーバで実行することになるだろう。

一方、ユーザーのコンピュータ内に保存されているデータを参照するような場合は、ローカルでコマンドを叩いてアプリを呼び出すわけだから、ユーザー側で実行することになる。AIエージェントにとっては、必要な情報が得られればいいわけだから、サーバ側でもユーザー側でも、Function Callingはどちらで実行しても構わないのだ。

この「ユーザー側のファンクションも扱える」という点は、特にAIエージェントらしい機能と言えるかもしれない。

なぜなら、情報を取得するだけでなく、アプリを立ち上げて作業するといったことも可能だからだ。

仮に「Excelを立ち上げて旅行の予定を作成して」とAIエージェントに指示すれば、AIエージェントはユーザーのPCにインストールされているExcelを起動し、実際にファイルを作成する。これは、テキストで応答するだけのLLMでは実現できないAIエージェントならではの仕事ぶりである。

「ReAct」の仕組み

ここまでに解説した内容を基に、具体的にAIエージェントの思考と作業のプロセスを追ってみよう。

Googleが公開しているAIエージェントの資料では、「ReAct」と呼ばれるアーキテクチャが示されている。

ReActにおけるAIエージェントの作業プロセスは次の通りだ。

  1. Question(質問):ユーザーがプロンプトでリクエストを行う。例えば、「次の週末、ピクニックをするのに良い場所を調べて」と入力したとする。
  2. Thought(思考):ユーザーのリクエストに対して思考する。例えば、「ピクニックをするなら天気の情報が重要だろう」と判断する。Thoughtでは、Chain-of-Thoughtや、Tree-of-thoughtsといったアーキテクチャを活用する。
  3. Action(行動):思考と判断に基づいて、アクションを実行する。例えば、「週末の天気を調べるために天気予報APIをコール」する。
  4. Observation(観測):アクションの結果を確認する。結果によっては「Thought」のステップに戻り、再び思考とアクションを行う。例えば、「天気が良くない」という結果が出たなら、その結果に基づいて「交通機関を提案する」という新たなThoughtを行う。
  5. Final answer(最終回答):ここまでのステップで出た回答をまとめてユーザーに提示する。ピクニックの例で言えば、「週末の天気、おすすめの場所、おすすめの交通機関」など、さまざまな提案を行う。

Chain-of-ThoughtとAIエージェント

ReActにおけるAIエージェントの作業プロセスの「Thought」で、Chain-of-Thoughtなどを活用すると述べたが、そもそもChain-of-ThoughtはAIエージェントとは異なるものだ。

Chain-of-Thoughtはあくまでもプロンプトのテクニックの一つであり、プロンプトエンジニアリングと呼ばれる手法だ。このアプローチでは、ユーザーがプロンプトをステップごとに区切って行うことで、複雑なタスクをAIに実行させる。ポイントは、プロンプトエンジニアリングにおけるChain-of-Thoughtは「人が思考のステップを明示する」ということだ。

一方、AIエージェントはChain-of-Thoughtのアーキテクチャに基づき思考を行うが、その後の行動の結果によっては再度思考に戻ったり、APIをコールしたりと、より複雑で多様な動き方をする。

人間が仕事をする様子に例えるなら、「先輩に業務の各ステップを細かく聞きながら作業する」タイプと、「目的を伝えられた後は、先輩に聞かず勝手にステップに分けて作業する」タイプの違いのようなものである。むろん、後者がAIエージェントである。

「Deep Research」に見るAIエージェントの特長

ここで一つ、代表的なAIエージェントとされているツールを紹介しておこう。OpenAI社のChatGPT上で使用できるDeep Research機能である。

2025年2月2日にリリースされたDeep Researchは、「あらゆるトピックについて詳細な分析情報を取得」することを目的に開発されたAIエージェントだ。

例えば、「製造業における特定のサービスの活用事例」についてDeep Researchにレポート作成を依頼したとしよう。すると、Deep Researchはまずインターネット上を検索し、必要な情報を収集する。

情報が集まったらDeep Researchは分析を開始する。ここまでは従来のLLMと関連ツールの組み合わせでも可能な作業だ。AIエージェントであるDeep Researchの特筆すべき点はここからである。分析を行ったものの、収集した情報だけでは不足していると判断した場合、Deep Researchは再度検索を行って足りていなかった情報を探しにいくのだ。

すなわち、「検索して考え、また検索して考える」という思考のサイクルをAIエージェントは行えるのである。

このように、人の追加指示を待たずに自律的に考えて行動し、タスクの目的を達成できるのがAIエージェントの特長と言える。

AIエージェントでどのLLMを使用するか?

AIエージェントを構築する際、どのLLMを使用するかは非常に重要な選択である。OpenAIは現在、「GPT-4o」や「GPT-4.5」といったモデルを「GPTモデル」と呼び、高速でコスト効率が高く、特定のタスクをシンプルに処理されるのに向いているとしている。

一方、「o3」や「o4-mini」といったモデルは「推論モデル(Reasoning model)」と呼ばれる。Deep Researchのベースになっているのは、この「推論モデル」だ。

これらは複雑なタスクに対して、より長く考えるようトレーニングされており、大量のあいまいな情報に基づく意思決定などに適している。

どちらが優れているというわけではなく、使い分けることが重要だが、ことAIエージェントとなると適しているのは推論モデルである。

AIエージェントは単なる「LLM+外部機能」ではない

ここで、普段から生成AIを使用している方は次のような疑問を抱くかもしれない。

「Deep Researchを使わなくても、ChatGPTのo3だけでも同じようなタスクができるのでは」と。

実は、最近のChatGPTはデフォルトの状態でRAG能力を備えており、プロンプトに対して検索を行い、回答を生成するようになっている。つまり、サービスとしての「ChatGPT o3」は、「推論モデルであるo3+RAG機能」という構成でできているのだ。

ここで、一つ補足しておきたい。本来、LLMは検索能力を持たないモデルを指す。だから、「最近のLLMは検索もできる」という表現は厳密には誤りで、「最近のLLMは、LLMにRAG機能を備えたサービスになっている」とするのが正しい。

これを踏まえた上で、たしかにサービスとしてのo3だけでも「検索し、考え、さらに検索する」といった自律的に見える行動をとれるのは事実だ。

この点については、Deep Researchやo3の裏で動いているアーキテクチャが公開されていないため、はっきりしたことは言えない。ただ、o3はあくまでも単なる推論モデルであり、Deep Researchとは明確に区別されている。仮に両者に同じタスクを投げた場合、回答にどれほどの違いが出るかはやってみないとわからない。タスクによってはほぼ同じ成果が得られるかもしれないし、まったく異なる結果になる可能性もある。

とはいえ、OpenAIが両者を別物としてリリースしていることを考えると、AIエージェントと呼べるのはやはりDeep Researchのほうだと言えるだろう。

RAG機能やAPIコールをDeep Researchが持っていることは言うまでもないが、それ以外にも、おそらく推論モデルが持たない「思考の戦略」を与えられていると予想されている。この思考の戦略があるおかげで、推論モデルが対応できないような複雑なタスクに対して、AIエージェントは正しく思考し、結論を導き出せるのだ。

AIエージェントの今後の展望

AIエージェントがさらに普及すると、今後の企業活動はどう変わるのか。確実に言えるのは、「大量のデータを基に複雑なタスクを実行する」という仕事は、人ではなくAIエージェントが行うようになるということだ。

AIは大量のデータを人間よりもはるかに短時間で分析できるし、言語の壁も関係ない。さらに、AIエージェントは「どうすれば、そのデータを使って最終的なタスクを達成できるか」まで判断できる。

これまで人が時間をかけて行っていた作業はAIエージェントが代替し、人はその結果を基により高度な提案や判断を行うのが主な仕事になっていくはずだ。

AI関連の注目ホワイトペーパー

調査レポートから判明:CDP導入で92%の企業が目標を達成! これからの顧客データ活用成功のカギはCDP×AIにあり!
SUBARUがAI開発を支えるストレージ基盤を導入! 先進運転支援システムにAI技術を融合する取り組みが加速
Arm対応の最新版Llama 3.2 LLMにより、あらゆる環境でAI推論を高速化・拡張

AI関連のオススメ記事

RAGで企業は何を実現できるのか? 基礎知識と活用メリット
LLMとは? 生成AIとの違いや企業の活用事例を解説
ローカルLLMのメリット/デメリット、“使いどころ”を分かりやすく解説
ファインチューニングとは? メリットや注意点、活用シーンを解説
プロンプトエンジニアリングとは? 例文を見ながら基本を学ぶ
生成AIはクリエイティブ活動にどのような影響を与えるか - 活用例や懸念点、今後の展望は?
AI導入のためのPoCでつまずかないコツとは?
機械学習とディープラーニングの違いを徹底解説
AIと機械学習の違いを理解して、業務効率化や新規事業創出に役立てよう
生成AIとは? 技術の基本、活用事例からリスクまで解説
AIで未来の社会はどう変わるのか? AIを生かす革新技術は? - ガートナー・池田氏
AI活用でビジネス変革を実現するには? 押さえておきたい基本と活用事例
AIエージェントの基本を知る - ビジネス活用の可能性と課題とは?
ハルシネーションとは? 生成AI活用におけるリスクと対策を解説