山田祥平のニュース羅針盤(516) 「W4翻訳イヤホン」実際に使ってわかった運用上のポイント

リアルタイムモバイル翻訳に特化した製品群で知られるTimekettle社の2025年最新モデル「W4 AI翻訳イヤホン」をメーカーから借りて試してみた。

この製品は骨伝導センサーによる声紋認識を実装し、100デシベルの環境でも音声を正確にキャプチャできるそうだ。電車が通過するときのガード下や、地下鉄の構内、騒々しい工場の中でも精度の高い音声キャプチャが可能だという。

42言語と95種類のアクセントに対応し、その翻訳精度は、メーカー説明によると平均98％に達するとのことだ。

ステムを備えた「W4 AI翻訳イヤホン」。直販サイトでの価格は52,000円とそれなりにいい値段だ

通常は一般的な完全ワイヤレスイヤホンとして機能し、音楽などを楽しむためにも使えるスティック形状のインナーイヤー型イヤホンだ。そしてスマホアプリとの組み合わせで、通訳機能を使えるようになる。

同社の大規模言語モデルを使ったAIクイック翻訳と、さらに文脈を深く理解した翻訳ができるAI高精度翻訳の2つの翻訳方法が用意されている。翻訳結果はAIによって要約させることもできる。

2種類の翻訳モードを備えたインナーイヤー型イヤホン

翻訳には「二人での会話」と「傍聴通訳」の2つのモードが用意されている。

「二人での会話」では左右のイヤホンの片方を自分が、もう片方を相手が耳に装着し、それぞれのイヤホンから互いの言語を相手の言語に通訳した結果が再生される。発声については耳につけたイヤホンが骨伝導でキャプチャする。

一方「傍聴通訳」はセミナーや講演のように一方的に相手がしゃべるような場面で、その言語を自分の言語に翻訳する。ユーザーは両方、または片方のイヤホンを耳につけて使う。このとき、相手の声はスマホのマイクが拾うことになる。

「傍聴通訳」の途中で相手に相手の言語で何かを伝えなければならない場合は、発言モードに切り替えると、自分のイヤホンのマイクが声を拾い、スマホのスピーカーがその翻訳結果を再生する。

通訳とはいうが、相互翻訳されたテキストを自動音声で再生するものなので、日本語に翻訳された結果の文字列は正しくても、その読みが違っていたりすることもある。しかしご愛敬で済ませられる程度だ。

リアルタイム翻訳の精度は「けっこう使える」

その仕事ぶりを体験してみると、自動通訳も、けっこう使えるようになってきたと実感する。

最近ではアップルのAirPodsとiPhoneの組み合わせで、対面での会話をリアルタイムでライブ翻訳する機能が話題になったりしている。この製品ではシチュエーションに応じて、相手に自分の所有物としてのイヤホンを渡すことで、より精度の高い音声キャプチャをすることができ、その結果、精度の高い翻訳結果を得られるようにしている。

1on1の会話では便利な機能だが、イヤホンを渡す前に、除菌ウェットティッシュできれいに拭いてみせるくらいの気遣いは必要かもしれない。

左右のイヤホンをケースに収納したところ。人間工学に基づいたデザインで、ステム先端のマイクが自然に口元を向くようになっている

翻訳結果はイヤホンから再生されると同時に、文字としてスマホのアプリ画面に表示される。

スマホの画面の文字情報だけで十分だと思っても、必ず、イヤホンに電源が入った状態にしておく必要がある。

ケースは左右独立していて、重ね合わせるとマグネットで吸着し、電源が切れる。この状態ではアプリの翻訳機能を使うことはできない。もっともスマホのマイクが相手の声を拾うモードでは、スマホの画面を見るのが難しいので翻訳結果は音声に頼らざるを得ないかもしれない。

音声キャプチャの精度が翻訳の精度も決める

この製品が骨伝導センサーを使ってまで、イヤホンマイクによる音声キャプチャの精度を高めようとしているのは、キャプチャの精度が翻訳結果に強く影響を与えることを同社がよくわかっているからだろう。

スマホの内蔵マイクも、ノイズキャンセルなどの機能によってキャプチャ精度は高まっているはずだが、それでは足りないと考えたにちがいない。

しかも、多くのスマホは裸で使われることがまれだ。たいていの場合、ケースに覆われて使われ、場合によってはマイク孔が音声を拾うことを邪魔してしまうこともある。それが翻訳結果に悪影響を与える可能性もあるわけだ。だからこそ、骨伝導でより正確な音声をキャプチャしようというチャレンジはまちがっていないといえる。

だが、講演会場などでステージに登壇している話者にイヤホンの装着を頼むのは難しいし、外国語話者の観光ガイドにイヤホンをつけてほしいとお願いするのもやっかいだ。ガイドさんが受け入れてくれればいいが、1対多のコミュニケーションなのが普通なのでなかなか難しいだろう。

せっかくの骨伝導センサーだが、使ってその恩恵を得られる機会は限られているかもしれない。骨伝導センサーを最大限に活かし双方の話者が恩恵を得られるシーンが1対1の「二人での会話」に限定されるというのは残念だ。

また、日本語は文末決定性という特徴がある。文末に多くの情報を集約する言語だ。英語や中国語のように、文頭から意味が順次確定していく言語では、日本語ほど文末決定性が強くない。

つまり最後まで聴かないと日本語への正確な通訳ができにくいので、どうしても翻訳速度が遅くなってしまう。