前回は「ChatGPTは何がすごいのか」について解説しました。ざっくりおさらいすると、ChatGPTのすごさは次のようにまとめられます。

  • 回答の生成精度が非常に高い
  • 1つのモデル(AI)であらゆるタスクを処理できる
  • 自然言語で指示を出せる

ChatGPTのような対話型のAIはこれまでにも数多く存在していました。にもかかわらずChatGPTがこれだけのムーブメントを巻き起こしたのは上記のポイントでずば抜けていたから……というのは前回お話した通りです。

ここで1つの疑問が浮かびます。

なぜChatGPTは上記のような特徴を持ち得たのでしょうか。

ChatGPTとは一体何者なのでしょうか。

本連載を1冊にまとめました!
【限定eBook】AI研究家がやさしく解説! ChatGPT活用“はじめの一歩”
>> ダウンロードはこちら

ChatGPTは2022年に“突然”出現したわけではない

一般的にChatGPTが世に出たのは2022年11月だと認識されています。その認識は「半分正しい」と言えます。

なぜ半分なのかと言うと、ChatGPTの言語モデルである「GPT」はもっと以前から開発されていたからです。そう、ChatGPTは何も2022年に突然出現したわけではないのです。

ここは少し説明が必要でしょう。

あまりにもChatGPTという名称が有名になったため、一般的には「ChatGPT=言語モデル(AI)」だと思われがちです。しかし、実際にはChatGPTとは「GPTという言語モデル(AI)がチャット形式で使えるパッケージ」なのです。

現在、ChatGPTの基になっているGPTのバージョンは「GPT-3.5」と「GPT-4」です。無料版では「GPT-3.5」が、有料版では「GPT-4」が使われています。

3.5や4といった数字でなんとなく想像がつくかもしれませんが、GPTには「GPT-3」や「GPT-2」、そして最初のモデルとして「GPT」があります。

この初期GPTが開発されたのは2018年のことですが、当時AI研究者や開発者の間で話題になったにもかかわらず、一般的にはほとんど知られていない存在でした。

その理由は2つあります。

1つ目の理由は、初期のGPTはそれまでのテキスト生成AIよりも高い性能を持ってはいましたが、現在のChatGPT(の中身であるGPT-3.5やGPT-4)ほどではなく、自然な対話をするにはまだ性能が足りなかったこと。

もう1つの理由は、GPTがチャット、つまり会話形式ではなく、人が入力した内容に応じてタスクを実行・出力する形式だったことです。

裏を返せば、ChatGPTがこれだけ一般の人々の間で話題になったのは、「チャット形式を採用し、会話のように見せながらタスクを実行できること」と、「初期モデルよりも性能が圧倒的に上がり、自然な会話に見えるかたちで出力を行えること」が可能になったからだと言えます。

ChatGPTは本質的な意味で「会話」をしていない

ここで、少し気になった方がいるかもしれません。私は先ほどから、ChatGPTとのやり取りのことを「会話」と明言せず、「会話に見える」と曖昧な表現を使っています。

おそらく、ここがChatGPTで大きく誤解されがちな点だと思います。

ChatGPTは、人と本質的な意味で「会話」をするAIではありません。もっと言えば、ChatGPTは人が入力した文章を理解してもいません。

おかしいですよね。

例えば、ChatGPTのチャット欄に「お客様が注文した商品が届かずお怒りです。お詫びのメールを書きたいのでひな型を考えてください」と入力すれば、ChatGPTは解答欄にしっかりとしたお詫びメールのひな型を返してくるでしょう。一見すると、こちらの文章の意図を読み取って会話しているかのように見えます。

しかし、違うのです。

ChatGPTは、ただ「続きを考えている」だけなのです。

ChatGPTの画期的な仕組み

この点を理解するには、ChatGPTの基になるGPT-3.5というAIの仕組みを知る必要があります。

GPT-3.5は「大規模言語モデル(LLM:Large Language Model)」と呼ばれ、Web上のあらゆる文章を学習しています。そして、その学習した文章を基に「これまでの単語の並びから、次の単語の出現確率を予測」して文章を生成しているのです。

例えば、「お客様にはご迷惑とご不便をおかけしております」という文章を生成するとします。

すでに「お客様にはご迷惑と」まで生成されているとしましょう。ChatGPTはその後ろに続く単語の候補と出現確率を学習したWebのデータを基に計算します。仮に「ご不便」という単語の出現確率が70%、「お慶び」が15%、「ご用件」が5%だったとしましょう。ChatGPTはここで70%の出現確率を持つ「ご不便」をチョイスし、さらにその後も同様に予測を繰り返して、最終的に「お客様にはご迷惑とご不便をおかけしております」という文章を生成するわけです。出現確率を基に予測し、ランダム性もあるため違う候補が選ばれることもあります。ChatGPTに同じ質問をしても違う回答が返ってくることが多いのはこれが理由です。

もちろん、これはここで説明するために簡略化した解説であり、実際にはもっと複雑な処理を行っています。ただ、基本的な考え方はこの通りです。

いくらWeb上のデータを膨大に学習したとはいえ、これまでの単語の並びから次の単語の出現確率を予測するだけで、こんなにも自然な文章が作れるのかと驚かれるかもしれません。

これは本当にその通りで、私たちAI研究者や開発者も、このやり方でこれほど自然な文章が生成できるとは想像していませんでした。膨大な学習データと学習方法の進化、扱えるパラメータ数が大規模になったことで、ChatGPTが誕生し得たのです。

ChatGPTは「人が入力した文章の続き」を生成している

さて、私が先に「ChatGPTは、人と本質的な意味で会話をしているわけではない」とお伝えした理由は、もうおわかりですね。ChatGPTは人が入力した文章を理解して回答しているわけではありません。「人が入力した文章の続きの単語を予測して文章を生成している」のです。

こう言い換えてもいいでしょう。

ChatGPTの入力欄に人が打ち込んでいる文章とはすなわち、ChatGPTが生成する文章の最初の部分を人が代理で入力しているに過ぎない、と。

質問を入力するとそれらしい回答が返ってくるのは、ChatGPTが質問を理解して答えているわけではありません。膨大なデータを学習した結果、「質問のような文章の続きには、回答のような文章が続く確率が高いと予測している」だけなのです。

なんだ、質問に答えているわけではないのか……とがっかりしたでしょうか?

しかし、気を落とす必要はまったくありません。ChatGPTの仕組みはどうあれ、その性能の高さに疑う余地はありません。質問をすれば、高精度な回答が返ってくる“ように見える”のであれば、別にそれで構わないと私は思います。重要なのは結果なのですから。

それに、もしかすると我々人間の会話もChatGPTと同じ方法で実現しているのかもしれません。私たちは普段の会話の中で、その回答に至った思考をいちいち考えません。ChatGPTは意味を理解しているわけではないと書きましたが、人もどうやって意味を理解しているかわかっていないわけです。そう考えると、ChatGPTのこの方法が意味を理解する本質である可能性も捨てきれないでしょう。

こうしたChatGPTの仕組みを理解することで、ChatGPTとどのように付き合うべきなのか、どう使いこなすべきなのかが見えてきます。

次回はChatGPTを活用するメリットと課題について解説します。