Google Geminiに限らず生成AIは嘘をつくことがある。では逆に嘘をつきにくい使い方はあるのかと言えば、そういった使い方もある。翻訳などはそうだ。すでに翻訳元の文章があるため、そこから大きく外れるような翻訳が行われるケースは少ない。原文が曖昧だったり情報が不足していると誤訳が発生することはあるが、比較的嘘は生成されにくい(性能的にただの誤訳はある)。ただし、生成AIによる翻訳は既存の機械翻訳とは異なる動きをすることも知っておきたい。今回はこうした使い方を取り上げる。
連載「Google Geminiの活用方法」のこれまでの回はこちらを参照。
これまでの機械翻訳は決定論的な動き
Google Chrome、Microsoft Edge、Apple Safariといった主要なWebブラウザには翻訳機能が備わっている。母国語以外の言語が使われているWebページであってもこうしたWebブラウザの翻訳機能を使うことで読むことができる。Google翻訳のようなサービスと使ってもいい。
今回は、先日発表された「Gemini 1.5 Pro」に関する次のWebページをサンプルとして取り上げる。
-
Gemini 1.5 Pro Now Available in 180+ Countries; with Native Audio Understanding, System Instructions, JSON Mode and more - Google Developers Blog
このWebページを読むケースを考えたい。Google Chromeの翻訳機能を使っても良いが、ここではスクリーンショットで翻訳していることを示したいので、Googleの提供している「Google 翻訳」を使ったサンプルを取り上げる。
上記Webページの最初の2段落の英文をGoogle翻訳で日本語に翻訳すると、次のようになる。
2 か月も前に、開発者が試用できるように、次世代の Gemini 1.5 Pro モデルを Google AI Studio で利用できるようにしました。 私たちは、コミュニティが画期的な 100 万個のコンテキスト ウィンドウを使用してデバッグ、作成、学習できることに驚きました。現在、Gemini 1.5 Pro を、パブリック プレビュー版の Gemini API を介して 180 か国以上で利用できるようにしています。これには、史上初のネイティブ オーディオ(音声)理解機能と、ファイルの処理を容易にする新しい File API が搭載されています。 また、開発者がモデルの出力をより詳細に制御できるよう、システム命令や JSON モードなどの新機能もリリースします。 最後に、同等のモデルよりも優れたパフォーマンスを発揮する次世代のテキスト埋め込みモデルをリリースします。 Google AI Studio に移動して API キーを作成またはアクセスし、構築を開始します。
若干ニュアンスがどうかなという個所はあるものの、ざっと読むのには十分なクオリティーではないかと思う。このWebページを閉じて、もう一度Google翻訳を開いて同じ文章を翻訳にかけると次のようになる。
2 か月も前に、開発者が試用できるように、次世代の Gemini 1.5 Pro モデルを Google AI Studio で利用できるようにしました。 私たちは、コミュニティが画期的な 100 万個のコンテキスト ウィンドウを使用してデバッグ、作成、学習できることに驚きました。現在、Gemini 1.5 Pro を、パブリック プレビュー版の Gemini API を介して 180 か国以上で利用できるようにしています。これには、史上初のネイティブ オーディオ(音声)理解機能と、ファイルの処理を容易にする新しい File API が搭載されています。 また、開発者がモデルの出力をより詳細に制御できるよう、システム命令や JSON モードなどの新機能もリリースします。 最後に、同等のモデルよりも優れたパフォーマンスを発揮する次世代のテキスト埋め込みモデルをリリースします。 Google AI Studio に移動して API キーを作成またはアクセスし、構築を開始します。
生成された翻訳文章が1回目と2回目で同じである点に注目したい。Google翻訳が実際にどのような仕組みで翻訳を行っているかをユーザーが知る術はないのだが、同じ原文に対しては同じ翻訳文が生成されるという動作になっているとみられる。
このように従来の機械翻訳サービスは入力に対して必ず一意な翻訳結果が生成されることが多い。決定論的な動きだ。
生成AIの翻訳は非決定論的な動き
これに対して生成AIは異なる動きを見せる。生成AIはその構造上、同じ入力に対して必ずしても同じ出力をするとは限らない。これは生成AIを使った翻訳にも言うことができる。従来の機械翻訳と違い、生成AIを使うときにはこの点に注意する必要がある。
ここでは次の指定をGoogle Geminiのプロンプトに入力することにする。
「次の英文を日本語に翻訳してください。
Less than two months ago, we made our next-generation Gemini 1.5 Pro model available in Google AI Studio for developers to try out. We’ve been amazed by what the community has been able to debug, create and learn using our groundbreaking 1 million context window.
Today, we’re making Gemini 1.5 Pro available in 180+ countries via the Gemini API in public preview, with a first-ever native audio (speech) understanding capability and a new File API to make it easy to handle files. We’re also launching new features like system instructions and JSON mode to give developers more control over the model’s output. Lastly, we’re releasing our next generation text embedding model that outperforms comparable models. Go to Google AI Studio to create or access your API key, and start building.」
結果は次のようになる。
2か月も経たないうちに、次世代のジェミニ 1.5 Pro モデルを Google AI Studio で開発者が試用できるようにしました。革新的な 100 万トークンのコンテキストウィンドウを利用して、コミュニティがデバッグ、作成、学習を行ってきた成果には驚かされています。本日、ジェミニ API を通じて 180 か国以上でジェミニ 1.5 Pro のパブリックプレビューを開始します。 これには、初のネイティブ音声(スピーチ)理解機能と、ファイルを簡単に扱えるようにする新しいファイル API が搭載されています。 また、開発者がモデルの出力に対してより詳細な制御を行うことができるように、システムインストラクションや JSON モードなどの新機能も搭載しています。 最後に、従来のモデルを凌駕する次世代のテキスト埋め込みモデルもリリースします。 Google AI Studio にアクセスして API キーを作成または取得し、開発を始めましょう。
まず、Google翻訳の出力した翻訳とは異なる翻訳がなされている点に注目したい。Google翻訳とGoogle Geminiが実際にどのように翻訳しているのかユーザーが知る方法はないのだが、翻訳結果からはこの2つが別のシステムであることを推測させてくれる。
Google Geminiによる翻訳は最初の文節が誤訳だ。これは今後のバージョンで改善されることを期待したい。それ以外の部分はざっと読むのに十分なクオリティーだし、文節のいくつかはGoogle翻訳よりも自然な翻訳が行われている。
そして注目したいのはここからだ。右上の「+チャットを新規作成」をクリックしてスレッドを新しくしてから、再度先ほどとまったく同じ指示をプロンプトに入力すると次のようになる。
2か月も経たないうちに、次世代のジェミニ 1.5 Pro モデルを Google AI Studio で開発者が試用できるようにしました。革新的な 100 万トークンのコンテキストウィンドウを利用して、コミュニティがデバッグ、作成、学習を行ってきた成果には驚かされています。本日、ジェミニ API を通じて 180 カ国以上でジェミニ 1.5 Pro のパブリックプレビューを開始します。 これには、初のネイティブ音声(スピーチ)理解機能と、ファイルを簡単に扱えるようにする新しいファイル API が搭載されています。また、開発者がモデルの出力をより細かく制御できるように、システムインストラクションや JSON モードなどの新機能も導入します。最後に、従来のモデルを凌駕する次世代のテキスト埋め込みモデルもリリースします。Google AI Studio にアクセスして API キーを作成または取得し、開発を始めましょう。
一見すると同じ翻訳結果が表示されたように見えるが、詳しく見ていくと赤線で示した部分が異なる翻訳になっていることが分かる。これは誤訳というわけではなく、翻訳のバリエーションと捉えることができる範囲での書き換えのようだ。
同じことをもう一度行ってみると次のようになる。
2か月も経たないうちに、次世代のジェミニ 1.5 Pro モデルを Google AI Studio で開発者が試用できるようにしました。革新的な 100 万トークンのコンテキストウィンドウを使用して、コミュニティがデバッグ、作成、学習を行ってきた成果には驚かされています。本日、ジェミニ API を通じて 180 か国以上でジェミニ 1.5 Pro のパブリックプレビューが開始されます。 これには、初のネイティブ音声(スピーチ)理解機能と、ファイルを簡単に扱えるようにする新しいファイル API が搭載されています。また、開発者がモデルの出力に対してよりきめ細かい制御を行えるように、システムインストラクションや JSON モードなどの新機能もリリースします。最後に、従来のモデルを凌駕する次世代のテキスト埋め込みモデルもリリースします。Google AI Studio にアクセスして API キーを作成または取得し、開発を始めましょう。
1回目の翻訳結果と比較して異なっている部分に赤線を引いてある。先ほどと同じ部分が異なる翻訳になっている部分もあれば、それ以外の部分で異なる言い回しが使われていることもある。
これは生成AIを使った翻訳を行う際の大きな特徴だ。まったく異なる翻訳結果になるわけではないのだが、まったく同じ翻訳結果にもならない。これは生成AIの構造上の特性であり、翻訳結果が毎回異なるという結果になる。
生成AIの特徴を活かして使う
Google Geminiで翻訳を行った場合には同じ英文であっても毎回異なる翻訳文が生成される。これは逆に言えば、生成された翻訳文の言い回しがしっくりこなかった場合には、繰り返し同じ指示を出すことで異なる翻訳を得ることができるので、しっくりくるものが生成されるまで繰り返し翻訳を行わせるといった使い方ができることも意味している。
また翻訳の性能そのものに関してはまだ改善の余地があるように見える。機械翻訳や生成AIを使った翻訳は便利ではあるもののパーフェクトではないことは知っておく必要がある。読んでいて不自然さを感じるときはちゃんと原文を確認した方が良く、原文が読めないときには他の機械翻訳や生成AIサービスを使ってチェックを行った方が良いだろう。誤訳があることも知った上で活用することが大切だ。
Google ChromeやMicrosoft Edge、Apple Safariを使っている場合にはWebブラウザの翻訳機能を使うことが多いと思うが、PDFの英文であるとか資料の英文を翻訳する用途にはGoogle Geminiのような生成AIも役立てることができることを覚えておこう。