ChatGPTは、人間との流暢な“会話”ができることでメディアでも注目される技術となっています。ChatGPTの出現は、今までの機械と人間の関わり方を大きく変える転換点だと言えるでしょう。ChatGPTでは、人間の入力した言葉をそのまま受け取り、その回答として自然な文章を出力します。これは、従来のAIやコンピュータプログラムとは一線を画したものです。
今回は、「言葉を介したAIとのコミュニケーション」という切り口からChatGPTを見ていきます。
→連載「ChatGPT入門 - 初めてのAIチャット活用」の過去回はこちらを参照。
AIとの最初のコミュニケーションは「プログラミング」
歴史をさかのぼってみると、AIは当初、機械しか理解できない機械言語での入力しか受け付けませんでした。そのため、人間から機械に命令を出すときには人間がその命令内容を決まった形式のコードに落とし込み(プログラミングして)、コンパイルという処理を通して機械言語に変換するプロセスが必要でした。一連の作業は誰でもできるわけではなく、プログラミングの知識を持った人間のみが行えるものだったのです。
しかし、ChatGPTでは、そのようなプログラミングの知識を持った人間でなくても、AIに命令や質問ができるようになりました。これは、AIの大きな進化と捉えられると思っています。
人間にとって、言葉は何かものを伝えたいときに「最も使いやすいツール」であり、慣れ親しんだコミュニケーション手段でもあります。そのため、ChatGPTのような言葉を媒介にするAIは、その親しみやすさから、従来のコンピュータプログラムよりも利用の難易度が大きく下がったと思われます。
拡大するプロンプトタイプのAI
ChatGPT以外にも、人間の言葉(テキスト)を受け付けるAIは増えています。このテキストベースの指示を「プロンプト」と呼びます。本稿では、さまざまなプロンプトタイプのAIを、以下の2つに分けて紹介します。
- Text-to-Xタイプ:言葉(テキスト)を入力として何か(X)を出力する
- X-to-Textタイプ:何か(X)を入力して言葉(テキスト)を出力する
Text-to-Xタイプ
Text-to-XタイプのAIの一つに、「StableDiffusion」があります。StableDiffusionは、ユーザーが描きたい絵を表現するための言葉を入力するだけで、絵を描いてくれるAIです。例えば、「rainbow lion」と入力すると鮮やかな虹色のライオンを描いてくれるなど、現実には存在しないような物の絵も、とてもリアルに描いてくれます。
「ControlNet」も同様に、ベースとなる画像と言葉を入力すると、ベース画像を基に、言葉を具現化したような画像を生み出すことができます。例えば、何かしら人間のポーズを入力し、「dancer」という言葉を同時に入力することで、同じポーズのダンサーの画像が出力されます。
X-to-Textタイプ
人間の音声(発話)を文章に書き起こす技術や、画像を言葉で表現するイメージキャプショニングのような技術なども、以前から研究されています(2022年9月にOpenAIが発表した「Whisper」ものその一つです)。このような技術は、「テキスト以外のデータをテキストにする技術」という意味で、プロンプトベースコミュニケーションに繋がると捉えられます。今後、AIとのコミュニケーション手段に応用されることも考えられるでしょう。
AIを活用して作られる、新しいAI
AIを構成する学習データを構築するのは、大変骨の折れる作業です。10個や100個のレベルであればまだしも、1000個や10000個、場合によってはそれ以上のデータを作る必要があります。かかる労力は計り知れないものであり、既存のAIなどを利用して新しいデータを作成し、そのデータを基に新しいAIを作成するような研究もあるほどです。
そうした研究成果の一つが「InstructPix2Pix」です。InstructPix2Pixは、画像とプロンプトを入力すると、プロンプトに応じて編集された画像が出力されるAIです。これを実現するために、InstructPix2Pixでは「GPT-3」とStableDiffusionを活用して学習データを作成しています。
InstructPix2Pixの学習アルゴリズムは以下の通りです。
- チューニングされたGPT-3にプロンプトを入力し、一部が変更された文章と、どこが編集されたかを示すInstructionを生成する
- 2つのテキストのペアから、似たような画像をStableDiffusionで生成する
- 一方の画像と、編集テキスト(Instruction)を入力し、ペアとなっている画像を出力するような画像生成モデルを学習する
このようにAIを活用して新しいプロンプトタイプのAIができていく連鎖が生まれることで、プロンプトの活用方法はさらに広がっていくでしょう。こうしたAIによって最初に大きく影響を受けると考えられるのは、創作活動です。専門知識を持たなくても画像の編集ができたり、だれでも頭の中のアイデアをイラスト化したりできる世界が目の前に来ています。
「プロンプトセントリック」なAIの世界はどうなるか?
ここまで紹介してきたように、AIはこれまで考えられなかったようなことが実現可能になってきています。今後、さらに発展していくことも間違いないでしょう。
では、具体的にはどのような方法で発展していくのでしょうか。例えば、新しいタスクに対してチューニングしたり、AI同士を組み合わせたりすることが考えられます。筆者は、ChatGPTなどをはじめとしたAI同士が組み合わさっていくケースが増えるのではないかと思っています。
これまでは、言語処理や画像処理など複数の分野のAIを組み合わせるときは、「特徴量」と呼ばれる形式のデータでAI間のデータ連携がなされていました。特徴量は、入力データをAIが変換した数値の羅列で、人間が理解できるものではありませんでした。
ChatGPTをはじめとした人間の言葉をインタフェースとするプロンプトタイプのAIの出現により、今後はプロンプトがAI同士のインタフェースになっていく可能性もあります。つまり、下図のように、さまざまな分野のAIをつなぐときに、人間の言葉(≒プロンプト)で接続されるイメージです。人間の言葉をそのまま入力と出力に使うので、人間の介入によってさらに優れたAI活用が実現可能となります。
例えば、「若い男性のスピーチビデオを作って」と入力すると、初めにスピーチのテキスト文が自動で生成され、そのテキストに合わせた動画と音声がそれぞれ作成され、それらが組み合わさって音声付きの動画が出来上がるようなAIが実現できるのではないかということです。
AI同士の接続部分で人間の言葉をやりとりするのであれば、人間がその内容に文字通り“口出し”して、出力をコントロールすることが可能になります。「Visual ChatGPT」と呼ばれる技術は、ChatGPTを介してプロンプト入力が可能な画像生成AIを利用することで、会話をしながら画像の生成や編集が可能です。同技術では、AI同士が繋がるパイプラインに近い動きをしています。
筆者は、このようにプロンプトを中心としたプロンプトセントリックなAIの世界観が訪れるのではないかと予測しています。
求められるのは「AIとのコミュニケーション能力」
ChatGPTをはじめとしたプロンプトタイプのAIが増えると、期待通りの答えを出させるために、AIとのコミュニケーション能力の重要性が高まるでしょう。
実際に今のAIは複雑なことができる分、内部も複雑になり、どのようなロジックで回答を出しているのか人の理解が追いつけていないのが現状です。そのため、意外な単語や言い回しがAIに響いたりすることも考えられます。このように人間側がAIに入力するプロンプトを工夫して出力をコントロールするテクニックが、第2回でも紹介した「プロンプトエンジニアリング」です。
人間同士が会話する際、相手の頭の中まで見ることはできません。どのような言葉を選び、どのような口調で、どのような順番で聞き出すかが、重要な要素になります これからはAIと向き合うときも、人間と向き合うような感覚で会話するスキルが求められるのではないでしょうか。「この前はこういう聞き方であんな回答を出してくれたから、今回も前と同じ感じで聞いてみよう!」とか、「この前の聞き方はまずかったから、今回は逆にこうしてみよう」といったように、対人と同じような思考で会話する世界も遠くはないと思います。また、良いプロンプトは使い回せるので、AIとより上手に会話するためのプロンプト集がノウハウとして出回っていくことでしょう。
そういう意味では、人間のコミュニケーション範囲がさらに広がることになるため、これからますますコミュニケーションスキルは重要になっていくはずです。
* * *
ChatGPTは、人がこれまでよりも簡単にAIと会話することを可能にした技術です。今後は、さらに会話しやすい、プロンプトベースのAIが増えていくと考えられます。そのときに必要なのは、いかに上手にAIの答え(出力)を引き出せるかです。プロンプトエンジニアリングをはじめとする「AIとのコミュニケーション能力」が、活用を成功させる“鍵”となることでしょう。