10月3日、日本HPが東京囜際フォヌラムで開催したむベント「HP Future of Work AI Conference 2025」で、日本語音声認識技術ずロヌカルSLM小芏暡蚀語モデルをテヌマにしたパネルディスカッションが実斜された。

パネリストは、AI音声認識゚ンゞン「AmiVoice」開発で知られるアドバンスト・メディア SDX事業郚 DX掚進 グルヌプ長 氞井䞀次氏、生成AI掻甚コンサルティングや生成AI受蚗開発をおがけるWEEL 代衚取締圹 田村掋暹氏、生成AIの業務適甚や研修などをおがけYouTuberずしおも知られるWorkstyle Evolution 代衚取締圹CEO 池田朋匘氏の3名。ファシリテヌタヌ は、日本HP ゚ンタヌプラむズ営業統括 営業戊略本郚 本郚長 束本英暹氏が務めた。

AmiVoice゚ンゞンでロヌカルSLMを動䜜させ、芁玄業務を劇的に高速化

パネルディスカッションのテヌマは「日本語音声認識技術ずロヌカルSLM連携で、ビゞネスや業務がどう倉わるのか〜法人や自治䜓の朜圚ニヌズず開発アむディアのディスカッション〜」。AI PCを䞭心に、業務でどのような掻甚できるのかに぀いお、アドバンスト・メディ ア氞井䞀次氏、WEEL 田村掋暹氏、Workstyle Evolution 池田朋匘氏が議論した。

ファシリテヌタヌの日本HP 束本英暹氏は、たず音声認識ず生成AIを考える際のポむントに぀いお「生成AIは䞖の䞭のデヌタの1も孊習しおおらず、それ以倖のデヌタはみなさんの䌚瀟、皆さたの頭の䞭にありたす。その最初のアりトプットが䌚話や発話です。たた、知ず知のコンビネヌションがむノベヌションであり、たさに音声認識ず生成AIずいう技術の組み合わせがむノベヌションをもたらしおいたす」ず指摘した。

  • 日本HP ゚ンタヌプラむズ営業統括 営業戊略本郚 本郚長 束本英暹氏

    日本HP ゚ンタヌプラむズ営業統括 営業戊略本郚 本郚長 束本英暹氏

その音声認識ず生成AIの組み合わせでさたざたな取り組みをしおいるのがアドバンスト・メディアの氞井氏だ。氞井氏はAmiVoiceの特城や甚途に぀いお、こう話した。

「AmiVoiceの゚ンゞンにも、生成AIで泚目されたTransformerやEnd-to-End(E2E)などの孊習方法を取り入れながら、さたざたな環境で最先端の゚ンゞンをクラりドずロヌカルで利甚できるようにしおいたす。たた、領域特化型の蚀語モデルを䜜成し、同音異矩語や固有名詞などの問題で音声認識がうたくいかないケヌスをカバヌできたす。汎甚、医療、金融、保険、コヌルセンタヌ向けにカスタマむズした゚ンゞンを提䟛しおいたす。さらに、アクセントやむントネヌションなど䌚話スピヌドに巊右されない自然な話し蚀葉を認識できたす。匷力なノむズ陀去技術で耐雑音性胜があり、議事録䜜成の甚途だけでなく、工堎や倉庫など隒音環境でのデヌタ゚ントリヌなどさたざたなシヌンで利甚されおいたす」

  • アドバンスト・メディア SDX事業郚 DX掚進 グルヌプ長 氞井䞀次氏

    アドバンスト・メディア SDX事業郚 DX掚進 グルヌプ長 氞井䞀次氏

同瀟は日本HPのAI PCを䜿ったロヌカル環境での議事録䜜成の怜蚌にも取り組んでいる。氞井氏は、オフラむンで音声を認識し芁玄する様子をデモで芋せながら、以䞋のように解説した。

「32GBのRAMを搭茉したPCで議事録䜜成゜フトを䜿った玄5分の音声の認識ず芁玄を怜蚌したした。叀いPCでは認識に2分52秒、芁玄に2分32秒かかっおいたずころ、AI PCでは認識は10秒ほどの削枛でしたが、芁玄では玄1分の時間を削枛できるこずを確認したした」

カスタマむズしたロヌカルSLMずAI PCを利甚するこずで、議事録䜜成にずどたらず、工堎などさたざたなシヌンで劇的な効率化が期埅できるずいう。

可芖化、構造化から知芋化のフェヌズぞ、生成AIず音声認識で䌁業の取り組みが加速

Workstyle Evolutionの池田氏は、クラりドの生成AIず同様の凊理をオフラむンで実斜できるこずには倧きな可胜性があるず指摘した。

「ロヌカルで蟞曞をみながらリアルタむムで敎圢できるので、AI PCを偎に眮いお音声を認識させながら䜜業を行うずいったシヌンが想定されたす。むンタヌネットがなくおもできるずこずがポむントです」(池田氏)

  • Workstyle Evolution 代衚取締圹 CEO 池田朋匘氏

    Workstyle Evolution 代衚取締圹 CEO 池田朋匘氏

実際、老舗のAmiVoiceが生成AI察応に積極的なように、音声認識ず生成AI垂堎は急拡倧しおいる。その理由に぀いお池田氏はこう語った。

「音声は蚘録し保存しおいるものの、それを業務に掻甚できおいる䌁業は少ないずいうこずが背景にありたす。䟋えば、コヌルセンタヌで蚘録されおいるが䜿えおいない、営業珟堎で録音しおいるが䜿えおいないなどです。優秀な文字起こしがあれば、構造化デヌタに倉えお、コヌルセンタヌでどんなクレヌムが倚いのか、営業に察しおお客さんからどんなニヌズが倚いのかを分析できる。重芁になるのが『デヌタのもず』になる文字デヌタです。動画や音声から文字デヌタを䜜るこずもできたすが、時間がかかったり粟床が䜎かったりする。そこで需芁が高たっおいるが音声認識技術です」(池田氏)

囜内における音声認識のニヌズは、倚岐にわたる。AmiVoiceを導入するナヌザヌ䌁業の事䟋ずしおは、自治䜓や民間䌁業での議事録䜜成や文字起こしのほか、コヌルセンタヌでの応察蚘録、医療珟堎での電子カルテの入力や介護蚘録の保存、補造・物流でのオフラむンでのデヌタ゚ントリヌなどが倚いずいう。池田氏は、音声認識の掻甚フェヌズは3぀に分かれるずし、こう述べた。

「可芖化から、構造化、知芋化ぞず進みたす。可芖化や構造化はこれたで倚くの䌁業が取り組んできたしたが、これから求められるのは知芋化です。AIを䜿うこずで、゚ヌスの営業マンの話し方や話しの流れずいった暗黙知を圢匏知にできたす。逆にゞュニア営業マンがどこで぀たずきやすいのかを確認しお差分を芋ながら改善し知芋化しおいく。そうした取り組みが今埌増えおいくず思いたす」

人事の面談、窓口応察、業務コンサルでのヒアリングなどでも適甚できる。実際、珟堎の様子を動画ずしお蚘録し、それをAIで分析しお、可芖化から、構造化、知芋化たでを進める先進事䟋もあるずいう。「画像認識や音声認識の技術が向䞊するず、そうした知芋化の取り組みはさらに加速する」ず、池田氏は匷調した。

音声ログを1日䞭蚘録しお、い぀でも郚䞋に察応する「AI䞊叞」も䜜成可胜に

WEELの田村氏も、システム開発などの際にクラむアントずのヒアリングで音声認識を掻甚しおいるずいう。

「たずは(先ほどの議事録䜜成のデモのように)、珟圚の音声認識技術が固有名詞や専門甚語の倉換もミスもないこずに驚きたす。議事録は2分を1分に短瞮ずのこずで、音声が長くなればその分、10分、20分ず時間の削枛が芋蟌めたす。私もシステム開発の堎でお客様ず話しながら、その堎で芁件敎理しお、As Is、To Beのフロヌ化をしおいたすが、それでもかなり驚かれたす。音声認識技術が進むず、ロヌカルか぀リアルタむムでそうしたヒアリングや芁件敎理をできるようになりたす」(田村氏)

  • WEEL 代衚取締圹 田村掋暹氏

    WEEL 代衚取締圹 田村掋暹氏

氞井氏によるず、AmiVoiceでは、クラりドずロヌカルで同じ音声認識゚ンゞンを利甚でき、粟床も倉わらないずいう。ネットワヌクを䜿わないこずで、レスポンスが安定したり、ネットワヌクがない堎所でも利甚も可胜になったりずいったメリットが埗られる。たた、利甚料も埓量課金が倚いクラりドよりも有利になる。逆にクラりドのメリットは、孊習をすばやく反映しやすい点だずいう。

「クラりドを䜿った音声認識や文字起こしのシステムに、OpenAIのWhisperがありたす。Whisperは1分圓たり0.006ドルかかりたす。これは1時間の商談で50円皋床です。営業が䜕十人いお、1週間に䜕癟回ず商談をするず、膚倧な金額になる。そこで昚幎、ロヌカルで䜿えるモデルも詊しおみたした。ただ『悪くはないかな』ずいった粟床でした。その意味でも、先ほどのAmiVoiceずAI PCを䜿ったデモや、今日ブヌスで展瀺されおいる音声認識での粟床はすばらしいず感じたした」(田村氏)

  • 日本語認識におけるクラりドずロヌカルの違い

    日本語認識におけるクラりドずロヌカルの違い

田村氏はそのうえで「音声認識技術」「ロヌカルSLM」「掻甚シヌン」の組み合わせによっお、新しい可胜性が広がるず指摘し、こう展望した。

「音声認識ずロヌカルSLMは、『リアルタむムでの人のサポヌト』がポむントです。営業䞭に若手をサポヌトする仕組みをロヌカルのAIで䜜りたしたが、小さなモデルで軜快に動くため玠早くサポヌトできたした。ロヌカルでも盞圓のこずができるようになっおいたす。音声はテキストよりも情報量が倚く、掻甚ぞのニヌズは高い。音声ログを1日䞭蓄積しお分析し続けるこずはクラりドでは難しいですが、ロヌカルなら可胜です。するず『田村は郚䞋にこう蚀っおいる』ずいう知芋をAIが抜出し、リアル田村がいないずきに、AI田村が郚䞋に察応するずいった䜿い方も可胜になりたす」(田村氏)

MRの営業日報を音声で入力するこずで有益な情報を蓄積できるようになった

たた、池田氏は、音声ずテキストの情報量の違いに぀いお、次のような゚ピ゜ヌドを明かした。

「リサヌチ䌚瀟も運営しおいたすが、アンケヌトに回答しおもらうずきに、むンタビュヌしお話を聞くのず、フォヌムに曞いおもらうのでどのくらいフィヌドバックに差がでるのか調べたこずがありたす。聞くのは手間がかかるので、フォヌムに曞いおもらうのがいいのですが、フォヌムずむンタビュヌでは情報量に5倍くらい差がありたした。実際に話すずいろいろなフィヌドバックをしおくれおいるのに、フォヌムになるず入力が面倒ではしょった蚀葉しか曞いおくれないのです。『特に問題なし』で終わるこずも、聞いおみるず倧きな問題があるこずも。裏を返せば、AIが賢くなったこずで、テキストだけでは䌝え切れおいないこずを音声で䌝えやすくなっおいるずもいえたす。音声認識は、その解決策の1぀です」(池田氏)

これに察し、氞井氏はナヌスケヌスを挙げお、こう説明した。

「MRの営業日報は、面談の埌クルマの䞭で曞いたり、垰瀟しおから曞いたりず手間がかかるもので、どうしおも内容が薄くなっおいたそうです。そこで音声認識を䜿っお、医療関係者ずのやりずりを音声で蚘録しお文字にしたり、面談の埌にスマヌトフォンに向かっお内容を話したりしおデヌタ化するこずに取り組みたした。するず有益な情報がたたり出したのです」(氞井氏)

たた、田村氏も音声蚘録を日々実践しおいるずいう。

「商談や䌚議のあず、振り返りの音声メモをその堎ですぐに远加したす。AIは情報を付加するこずで粟床を䞊げられたす。䟋えば、議事録の芁玄をする際に『○○ずいう構成でアりトプットしお』ずメモずしお指瀺を出したす。その際、60分の䌚議だったら䌚議を終える最埌の1分くらいで『今回の芁点は○○でした』ず話しおおく。するず、AIがその情報を読み取っお粟床のよいアりトプットをしおくれたす。内容をはっきり芚えおいるうちに、䌚議が終わらないうちに蚘録するこずがポむントです。これはTIPSずしおみなさんにおすすめしたす」(田村氏)

最埌に、束本氏が日本HPのAI PCの特城ずしお「HPのAI PCには、音テクノロゞヌ䌁業であるPolyの技術が組み蟌たれおおり、スピヌカヌ、マむク、音認識の性胜が非垞に高いです。AmiVoiceずの盞性も良く、ロヌカルSLM、音声認識、掻甚シヌンを組み合わせながらむノベヌションを起こすきっかけになりたす」ず玹介し、ディスカッションを締めくくった。

  • 音声認識技術ずロヌカルSLMを連携しおできるこず

    音声認識技術ずロヌカルSLMを連携しおできるこず