対話型AI「ChatGPT」にシンプルに「ガリバー旅行記の感想文を書いて」と頼むと、中学生の感想文なら良い点がとれそうだけど、可もなく不可もなくといった結果を出してくれる。「ガリバー旅行記について、大学レベルの読書感想文を上品な散文で書いてください」に変更したら、同じ内容を洗練された表現で、風刺が強調されるよう構成した文章に書き換えてくれた。さらに私が書いた文章を参考に文体にとり入れてもらったら、自分の声の録音を初めて聞いた時のような、ちょっと気恥ずかしい気分になる文章に仕上がってきた。
昔に比べたら、今のWeb検索は本当に便利だ。関連するキーワードを適当に入れるだけで、Google先生が検索目的やコンテキストを推測して精度の高い結果を表示してくれる。でも、Web検索の黎明期はそうではなかった。検索サービスに検索の意図を分かってもらえるようにキーワードを選び、それでも“それじゃない”結果であったり、結果リストを何ページもチェックしてようやく目的の情報を見つけられたりるなど、ひと苦労だった。そのため、検索クエリ作りの専門家(研究者)が活躍していた。
話題のChatGPTのような生成AIは今、Web検索の黎明期のような時期にある。スムーズに対話できるようになって、対話から目的の情報を入手したり、創造をサポートしてもらえたりするようになったのは驚きに値する。でも、今日のWeb検索を使うような感覚で適当に頼むと、可もなく不可もなくといったレスポンスしか得られない。冷蔵庫にある残り物で晩ご飯のメニューを考えてもらうぐらいならそれでも十分だが、創造のための手段、マーケティングやカスタマー体験の向上などビジネス分野での活用、教育のためのツールなどで活用するなら、高質な結果を得るために、AIがユーザーの目的を理解してくれるように指示(プロンプト)を工夫しなければならない。
例えば、画像生成AI「Midjourney」のコミュニティで見つけたプロダクト・マーケティングに使えそうな仕上がりの画像は、下のような非常に詳細で複雑なプロンプトで生成されていた。
a flatlay of objects, including a dufflebag, compass, journal, two shoes and waterbottle, snack, tablet computer, in the style of wes anderson for a rainbow camp scout. Rendered in Octane, trending in artstation, cgsociety, 8k post-processing highly detailed,Junji Murakami, Mucha Klimt, Sharandula, knolling photography, Hiroshi Yoshida, Tom Bagshaw, Ross Tran, Artgerm,Craig Mullins,dramatic, Junji Murakami, Wes Anderson,lighting rendered by octane engine, 8K arstation, cinematic lighting, intricate details, 8k detail post processing, hyperealistic, octane rend, unreal engine 5, photorealistic Wes Anderson Style, photorealistic, Junji Murakami, Mucha Klimt, Sharandula, Hiroshi Yoshida, Tom Bagshaw, Ross Tran, Artgerm,Craig Mullins,dramatic, Junji Murakami, Wes Anderson Style, lighting rendered by octane engine,characters 8K symmetrical arstation, ,cinematic lighting, intricate details, 8k detail post processing, hyperealistic, thereclaimedseries on artstation, trillian42reclaimedseries in artstation, reclaimed series in artstation, octane rend, Zdzisław Beksiński style, unreal engine 5, Wes Anderson style, "moonrise kingdom", Wes Anderson style, "moonrise kingdom"
新世代の生成AIの台頭とともに、米国で今「プロンプトエンジニアリング」の需要が急騰している。AIプロンプトの最適なエンジニアリングを教える大学の講義は大人気で、独学で学ぶためのオンラインコースやガイドも次々に登場し、プロンプトエンジニアを目指す人たちが利用できるリソースやツールも急増している。雇用市場も熱を帯びており、大規模言語モデル(LLM)のスタートアップであるAnthropicは条件を満たす人材に17万ドルを超える初任給を提示している。
プロンプトエンジニアは、目的に関連する重みを持つ言葉や単語を選び、具体例や参考画像なども示しながらAIに見通しを与え、LLMの癖も踏まえて調整し、LLMから最適な結果を引き出す。
プロンプトを高次のプログラミング言語と見なすこともできる。機械語からより直感的な高級言語へ、数十年にわたる抽象化の歴史を経て、プログラミングは汎用性を制限しすぎることなく複雑さを隠し、開発者が望ましい結果を得るために重要なことに集中できる環境を整えてきた。ただし、その出力が定義されるのではなく確率的であるという点でプロンプトエンジニアリングとプログラミングは異なる。Anthropicは、プロンプトエンジニアリングを「プログラミング、インストラクション、ティーチングのハイブリッド」と表現している。
生成AIの進化でより良い出力が得られやすくなった一方で、目的を満たす有用な出力を安定して生成させるのは今も難しい。プロンプトエンジニアリングはその橋渡し役になり、よくデザインされたプロンプトによってそれを可能にする。生成AIの今後の可能性とその力を引き出せる人材のニーズから、「今世紀で最も重要なジョブスキル」とする業界ウォッチャーも現れている。
ただし、プロンプトエンジニアリングに関しては多くの懐疑派も存在する。
2週間ほど前に、OpenAIのCEO、サム・アルトマン氏が「チャットボットのペルソナに対して優れたプロンプトを作成することは高レバレッジなスキルであり、自然言語を少し使ったプログラミングの初期の例です」とツイートした。
writing a really great prompt for a chatbot persona is an amazingly high-leverage skill and an early example of programming in a little bit of natural language
— Sam Altman (@sama) February 20, 2023
同氏は昨年9月に出演したポッドキャストでも「5年後にまだプロンプトエンジニアリングが行われているとは思いません」と述べている。AIシステムがユーザーの意図を読み取り、テキストでも音声でも自然な言語によるインタフェースでタスクを任せられるようになるというのがLLMの開発に携わる人達の見通しだ。誰でも今のプロンプトエンジニアリングに相当するやり取りを行えるようになる。今は引く手あまたでも数年後は分からない、だから「高レバレッジなスキル」なのだ。
それほど遠くない将来に、生成AIから有用な出力を得るために詳細で具体的な入力を必要とする段階を超える。その後も人とAIシステムのコミュニケーションが重要であることに変わりはないだろう。だが、出力の質を左右するのは今のようなプロンプトエンジニアリングではなく、人のアイデアの質と自身が求めていることの理解になりそうだ。