10月3日、日本HPが東京国際フォーラムで開催したイベント「HP Future of Work AI Conference 2025」で、日本語音声認識技術とローカルSLM(小規模言語モデル)をテーマにしたパネルディスカッションが実施された。

パネリストは、AI音声認識エンジン「AmiVoice」開発で知られるアドバンスト・メディア SDX事業部 DX推進 グループ長 永井一次氏、生成AI活用コンサルティングや生成AI受託開発をてがけるWEEL 代表取締役 田村洋樹氏、生成AIの業務適用や研修などをてがけYouTuberとしても知られるWorkstyle Evolution 代表取締役CEO 池田朋弘氏の3名。ファシリテーター は、日本HP エンタープライズ営業統括 営業戦略本部 本部長 松本英樹氏が務めた。

AmiVoiceエンジンでローカルSLMを動作させ、要約業務を劇的に高速化

パネルディスカッションのテーマは「日本語音声認識技術とローカルSLM連携で、ビジネスや業務がどう変わるのか?〜法人や自治体の潜在ニーズと開発アイディアのディスカッション〜」。AI PCを中心に、業務でどのような活用できるのかについて、アドバンスト・メディ ア永井一次氏、WEEL 田村洋樹氏、Workstyle Evolution 池田朋弘氏が議論した。

ファシリテーターの日本HP 松本英樹氏は、まず音声認識と生成AIを考える際のポイントについて「生成AIは世の中のデータの1%も学習しておらず、それ以外のデータはみなさんの会社、皆さまの頭の中にあります。その最初のアウトプットが会話や発話です。また、知と知のコンビネーションがイノベーションであり、まさに音声認識と生成AIという技術の組み合わせがイノベーションをもたらしています」と指摘した。

  • 日本HP エンタープライズ営業統括 営業戦略本部 本部長 松本英樹氏

    日本HP エンタープライズ営業統括 営業戦略本部 本部長 松本英樹氏

その音声認識と生成AIの組み合わせでさまざまな取り組みをしているのがアドバンスト・メディアの永井氏だ。永井氏はAmiVoiceの特徴や用途について、こう話した。

「AmiVoiceのエンジンにも、生成AIで注目されたTransformerやEnd-to-End(E2E)などの学習方法を取り入れながら、さまざまな環境で最先端のエンジンをクラウドとローカルで利用できるようにしています。また、領域特化型の言語モデルを作成し、同音異義語や固有名詞などの問題で音声認識がうまくいかないケースをカバーできます。汎用、医療、金融、保険、コールセンター向けにカスタマイズしたエンジンを提供しています。さらに、アクセントやイントネーションなど会話スピードに左右されない自然な話し言葉を認識できます。強力なノイズ除去技術で耐雑音性能があり、議事録作成の用途だけでなく、工場や倉庫など騒音環境でのデータエントリーなどさまざまなシーンで利用されています」

  • アドバンスト・メディア SDX事業部 DX推進 グループ長 永井一次氏

    アドバンスト・メディア SDX事業部 DX推進 グループ長 永井一次氏

同社は日本HPのAI PCを使ったローカル環境での議事録作成の検証にも取り組んでいる。永井氏は、オフラインで音声を認識し要約する様子をデモで見せながら、以下のように解説した。

「32GBのRAMを搭載したPCで議事録作成ソフトを使った約5分の音声の認識と要約を検証しました。古いPCでは認識に2分52秒、要約に2分32秒かかっていたところ、AI PCでは認識は10秒ほどの削減でしたが、要約では約1分の時間を削減できることを確認しました」

カスタマイズしたローカルSLMとAI PCを利用することで、議事録作成にとどまらず、工場などさまざまなシーンで劇的な効率化が期待できるという。

可視化、構造化から知見化のフェーズへ、生成AIと音声認識で企業の取り組みが加速

Workstyle Evolutionの池田氏は、クラウドの生成AIと同様の処理をオフラインで実施できることには大きな可能性があると指摘した。

「ローカルで辞書をみながらリアルタイムで整形できるので、AI PCを側に置いて音声を認識させながら作業を行うといったシーンが想定されます。インターネットがなくてもできるとことがポイントです」(池田氏)

  • Workstyle Evolution 代表取締役 CEO 池田朋弘氏

    Workstyle Evolution 代表取締役 CEO 池田朋弘氏

実際、老舗のAmiVoiceが生成AI対応に積極的なように、音声認識と生成AI市場は急拡大している。その理由について池田氏はこう語った。

「音声は記録し保存しているものの、それを業務に活用できている企業は少ないということが背景にあります。例えば、コールセンターで記録されているが使えていない、営業現場で録音しているが使えていないなどです。優秀な文字起こしがあれば、構造化データに変えて、コールセンターでどんなクレームが多いのか、営業に対してお客さんからどんなニーズが多いのかを分析できる。重要になるのが『データのもと』になる文字データです。動画や音声から文字データを作ることもできますが、時間がかかったり精度が低かったりする。そこで需要が高まっているが音声認識技術です」(池田氏)

国内における音声認識のニーズは、多岐にわたる。AmiVoiceを導入するユーザー企業の事例としては、自治体や民間企業での議事録作成や文字起こしのほか、コールセンターでの応対記録、医療現場での電子カルテの入力や介護記録の保存、製造・物流でのオフラインでのデータエントリーなどが多いという。池田氏は、音声認識の活用フェーズは3つに分かれるとし、こう述べた。

「可視化から、構造化、知見化へと進みます。可視化や構造化はこれまで多くの企業が取り組んできましたが、これから求められるのは知見化です。AIを使うことで、エースの営業マンの話し方や話しの流れといった暗黙知を形式知にできます。逆にジュニア営業マンがどこでつまずきやすいのかを確認して差分を見ながら改善し知見化していく。そうした取り組みが今後増えていくと思います」

人事の面談、窓口応対、業務コンサルでのヒアリングなどでも適用できる。実際、現場の様子を動画として記録し、それをAIで分析して、可視化から、構造化、知見化までを進める先進事例もあるという。「画像認識や音声認識の技術が向上すると、そうした知見化の取り組みはさらに加速する」と、池田氏は強調した。

音声ログを1日中記録して、いつでも部下に対応する「AI上司」も作成可能に

WEELの田村氏も、システム開発などの際にクライアントとのヒアリングで音声認識を活用しているという。

「まずは(先ほどの議事録作成のデモのように)、現在の音声認識技術が固有名詞や専門用語の変換もミスもないことに驚きます。議事録は2分を1分に短縮とのことで、音声が長くなればその分、10分、20分と時間の削減が見込めます。私もシステム開発の場でお客様と話しながら、その場で要件整理して、As Is、To Beのフロー化をしていますが、それでもかなり驚かれます。音声認識技術が進むと、ローカルかつリアルタイムでそうしたヒアリングや要件整理をできるようになります」(田村氏)

  • WEEL 代表取締役 田村洋樹氏

    WEEL 代表取締役 田村洋樹氏

永井氏によると、AmiVoiceでは、クラウドとローカルで同じ音声認識エンジンを利用でき、精度も変わらないという。ネットワークを使わないことで、レスポンスが安定したり、ネットワークがない場所でも利用も可能になったりといったメリットが得られる。また、利用料も従量課金が多いクラウドよりも有利になる。逆にクラウドのメリットは、学習をすばやく反映しやすい点だという。

「クラウドを使った音声認識や文字起こしのシステムに、OpenAIのWhisperがあります。Whisperは1分当たり0.006ドルかかります。これは1時間の商談で50円程度です。営業が何十人いて、1週間に何百回と商談をすると、膨大な金額になる。そこで昨年、ローカルで使えるモデルも試してみました。ただ『悪くはないかな』といった精度でした。その意味でも、先ほどのAmiVoiceとAI PCを使ったデモや、今日ブースで展示されている音声認識での精度はすばらしいと感じました」(田村氏)

  • 日本語認識におけるクラウドとローカルの違い

    日本語認識におけるクラウドとローカルの違い

田村氏はそのうえで「音声認識技術」「ローカルSLM」「活用シーン」の組み合わせによって、新しい可能性が広がると指摘し、こう展望した。

「音声認識とローカルSLMは、『リアルタイムでの人のサポート』がポイントです。営業中に若手をサポートする仕組みをローカルのAIで作りましたが、小さなモデルで軽快に動くため素早くサポートできました。ローカルでも相当のことができるようになっています。音声はテキストよりも情報量が多く、活用へのニーズは高い。音声ログを1日中蓄積して分析し続けることはクラウドでは難しいですが、ローカルなら可能です。すると『田村は部下にこう言っている』という知見をAIが抽出し、リアル田村がいないときに、AI田村が部下に対応するといった使い方も可能になります」(田村氏)

MRの営業日報を音声で入力することで有益な情報を蓄積できるようになった

また、池田氏は、音声とテキストの情報量の違いについて、次のようなエピソードを明かした。

「リサーチ会社も運営していますが、アンケートに回答してもらうときに、インタビューして話を聞くのと、フォームに書いてもらうのでどのくらいフィードバックに差がでるのか調べたことがあります。聞くのは手間がかかるので、フォームに書いてもらうのがいいのですが、フォームとインタビューでは情報量に5倍くらい差がありました。実際に話すといろいろなフィードバックをしてくれているのに、フォームになると入力が面倒ではしょった言葉しか書いてくれないのです。『特に問題なし』で終わることも、聞いてみると大きな問題があることも。裏を返せば、AIが賢くなったことで、テキストだけでは伝え切れていないことを音声で伝えやすくなっているともいえます。音声認識は、その解決策の1つです」(池田氏)

これに対し、永井氏はユースケースを挙げて、こう説明した。

「MRの営業日報は、面談の後クルマの中で書いたり、帰社してから書いたりと手間がかかるもので、どうしても内容が薄くなっていたそうです。そこで音声認識を使って、医療関係者とのやりとりを音声で記録して文字にしたり、面談の後にスマートフォンに向かって内容を話したりしてデータ化することに取り組みました。すると有益な情報がたまり出したのです」(永井氏)

また、田村氏も音声記録を日々実践しているという。

「商談や会議のあと、振り返りの音声メモをその場ですぐに追加します。AIは情報を付加することで精度を上げられます。例えば、議事録の要約をする際に『○○という構成でアウトプットして』とメモとして指示を出します。その際、60分の会議だったら会議を終える最後の1分くらいで『今回の要点は○○でした』と話しておく。すると、AIがその情報を読み取って精度のよいアウトプットをしてくれます。内容をはっきり覚えているうちに、会議が終わらないうちに記録することがポイントです。これはTIPSとしてみなさんにおすすめします」(田村氏)

最後に、松本氏が日本HPのAI PCの特徴として「HPのAI PCには、音テクノロジー企業であるPolyの技術が組み込まれており、スピーカー、マイク、音認識の性能が非常に高いです。AmiVoiceとの相性も良く、ローカルSLM、音声認識、活用シーンを組み合わせながらイノベーションを起こすきっかけになります」と紹介し、ディスカッションを締めくくった。

  • 音声認識技術とローカルSLMを連携してできること

    音声認識技術とローカルSLMを連携してできること