社会は常に変化しています。これをネガティブに捉えるか好機と捉えるかで、企業の成長は大きく左右されることとなります。1988 年の設立以来 30 年連続で増収を続けているエヌ・ティ・ティ・データ (以下、NTTデータ)は、"社会の変化を好機と捉えた経営戦略" によって持続的成長を遂げてきた企業です。

既存市場の拡大、新規市場の創出、これらをグローバル規模で加速するためには、次代の市場ニーズを見定めて、それにソリューションを対応させていかなければなりません。この実践にあたっては、意思決定プロセスを迅速化することが不可欠です。絶えず市場をリサーチし、各エリアのニーズに即して技術開発、ソリューション開発を行う。そして、これを適切に顧客へ提供するための戦術を練り、実行する。NTTデータでは日々、海外グループ会社とのテレカンファレンスを通じてこうした会話や意思決定がなされています。これを迅速化すべく、同社は 2018 年、AI を活用した「会議支援システム」を開発。Cognitive Services と Microsoft Teams を利用することで、会議の理解度が向上するといった効果を生み出しています。

AI によってテレカンファレンスの意思決定を支援する

51 か国、185 都市に拠点を有し、グローバル規模でビジネスを展開する NTTデータ。同社は、2019 年 5 月に発表した新中期経営計画にて、「信頼されるブランドの浸透」を掲げた「Global 3rd Stage」の到達に向け、グローバルで質の伴った成長を目指しています。

株式会社NTTデータ 技術開発本部 エボーショナルITセンタ 部長の武田 光平 氏は、同計画の詳細についてこう述べます。

「当社は、ローカルプレゼンスの向上によるグローバルブランドの確立を基本方針に据え、"リマーケティングのさらなる深化" と"技術革新による価値創造" に取り組み、連結売上高 2 兆円超を達成しました。更なる成長を実現するためには、お客様への提供価値最大化に向けて、デジタルトランスフォーメーションの加速や当社グループのグローバル連携に取り組む必要があります」(武田 氏)。

海外ブループ会社含めグローバルで一体となりデジタルビジネスを拡大する、地域特性に合わせお客様へ価値を提供する、全社員が共通の価値観のもと組織力を高める。このためには、コミュニケーションの円滑化による意思決定の迅速化は欠かせません。武田 氏は、「新中期経営計画の初年度に当たり、新たな目標を見据えた取り組みを進める必要があります。」とし、現在、意思決定プロセスの革新を目的とした取り組みを進めていると明かします。

これに続けて株式会社NTTデータ 技術開発本部 エボーショナルITセンタ シニア・エキスパートの石浦 大樹 氏は、AI を活用した「音声会議支援システム」を例に挙げて詳細を述べます。

「当社では日々海外拠点とのテレカンファレンスが行われています。テレカンファレンスでは英語を使いますが、同じ英語であっても国が違えば発音や表現が異なるため、相手が伝えたい内容を正しく理解できないことがあります。伝える側も同様に正しく伝えられているか分からず、意思疎通の阻害要因となります。そのために、当社では音声をリアルタイムにテキスト化し参加者間で共有できる『音声会議支援システム』を開発しました」(石浦 氏)。

  • 株式会社NTTデータ 技術開発本部 エボーショナルITセンタ 部長 武田 光平 氏(左)。株式会社NTTデータ 技術開発本部 エボーショナルITセンタ シニア・エキスパート 石浦大樹 氏(右)

    株式会社NTTデータ 技術開発本部 エボーショナルITセンタ 部長 武田 光平 氏(左)。株式会社NTTデータ 技術開発本部 エボーショナルITセンタ シニア・エキスパート 石浦大樹 氏(右)

実用可能な AI モデルを構築すべく、Cognitive Services を利用

NTTデータが開発した音声会議支援システムでは、会議アプリから入力された音声に対し、音声認識技術を適用することでテキスト化し、結果をリアルタイムに表示します。また、このテキストをアプリ利用者の望む言語に翻訳することもできます。本システムでは IP 電話をはじめとする既製の会議アプリの音声を入力とすることができるため、これまで慣れ親しんだ会議アプリを使い続けることができます。更に、会話から書き起こしたテキストは利用者の PC に加えチャット アプリケーション上でもリアルタイムに表示することが可能。会話の途中で聞き漏らした際に後追いできることやテレカンファレンス後の議事メモとして利用できます。また、会議出席者が自身の PC にアプリをインストールすればよく、テレカンファレンスの相手側に新たな操作をお願いすることなく利用できます。

石浦氏は、「技術開発本部では自ら技術開発する一方で、技術のプロフェッショナルとして多種多様な技術を横並び比較・評価し、用途に応じてベストなものをお客様提案するラボ活動をしています。」とした上で、今回の取り組みでは迅速に実用可能な音声認識モデルを構築するために Cognitive Services を利用したことを明かします。

「Cognitive Services は高精度な学習済みモデルをはじめから用意しているため、日常会話であれば、音声認識機能 (Speech to Text) を利用するだけで音声をテキスト化することができます。しかし、社内会議では部門名やプロジェクト名など独自の用語が頻出するため、一般的な音声認識機能では対応できません。そこで、用語を登録するだけで弊社専用の音声認識モデルを構築することができる Custom Speech Serviceを採用しました。これにより短期に実用レベルの音声認識モデルを開発できました」(石浦 氏)。

  • 音声会議支援システムの概念図

    音声会議支援システムの概念図

Speech to Text には、同じ英語でも「インド英語」など各国の発音を教師データとした音声認識モデルが用意されています。このためアクセントの違いなどに影響されず会話をテキスト化できます。また、社内用語など一般的ではない用語についても Custom Speech Service によって学習させることができ、通常では認識でない用語も正しく認識させる事が可能となります。
―石浦 大樹 氏: 技術開発本部 エボーショナルITセンタ シニア・エキスパート
株式会社NTTデータ

構築した AI モデルを早期にサービス化することが可能

短期に実用レベルの音声認識モデルが構築できるというCognitive Services の特徴は、ここまで述べた通り NTTデータにおいて高く評価されました。ですが、"AI の認識精度" という括りでみると、市場にある各サービスにはそう大きく差が無いと言います。

武田 氏は、「数社の AI サービスを対象にして精度を比較しましたが、各社が多大な研究投資を行っていることもあり、どのサービスも優秀な精度を有していました。そのため、いかにして早期に社内の既存コミュニケーション手段と連携できるかを、私たちは重視したのです。」と説明。この連携という視点でも、マイクロソフトのクラウド サービスには大きな利点があったと続けます。

「当社では働き方変革推進のため、Microsoft Teamsを活用しています。Cognitive Services は Microsoft Teams を始めとするOffice 365 とシームレスに連携できるため、本システムの構築を早期に進めることができました。更に、現在はリアル タイムでテキスト表示するだけですが、Text Analytics などを活用すれば、会議の音声から人では気づけない新たな洞察を得ることができるかもしれません」(武田 氏)。

  • 音声会議支援システムでは、Cognitive Servicesによる音声認識結果が Microsoft Teamsにリアルタイムに表示される

    音声会議支援システムでは、Cognitive Servicesによる音声認識結果がMicrosoft Teamsにリアルタイムに表示される

テレカンファレンスに限らず、会話を介した全ての意思決定を迅速化していく

NTTデータは音声会議支援システムの第一次開発を2018 年 6 月に開始し、同システムの実証実験を通した機能改善に取り組んでいます。現時点では 1 対 1 でのテレカンファレンスのみへの対応となっていますが、武田 氏はそれだけでも効果が生まれていると言います。

「ユーザーからは、"議論が中断しなくなった" "積極的に意見が言えるようになった" といった好意的なフィードバックを受けています。各国で英語の使われ方が微妙に異なるために、従来のテレカンファレンスでは 自分が聞き取った内容が正しいのかという疑問が少なからず生じていたのだと思います。実際、テレカンファレンスが終わった後に日本人の参加者同士が "さっきの会話ってこういう意味だったよね?" と確認し合う姿はこれまで何度か見られましたから。これが解消されることにより、テレカンファレンスの理解度はぐっと高まっていくでしょう。また、Microsoft Teams 上のデータは記録として残るため議事録作成時の手助けとなることを期待しています」(武田 氏)。

実証実験において課題が無かったわけではありません。石浦 氏は、ユーザーから挙げられた改善点を改修することで、同システムの有用性をより高めていきたいと語ります。

「テレカンファレンスは複数人で行われる場合が多いため、まずはここへ対応するために話者を識別する機能を実装したいと考えています。そのため各ユーザーの音声データを少数用意するだけで認識モデルが構築できる Speaker Recognition を評価したいと考えています」(石浦 氏)。

テレカンファレンスだけでなくあらゆる会話において今回構築した仕組みが活用できると考えています。グローバルにおけるコミュニケーションを円滑にすることで、ビジネスのスピードをいっそう高めていきます。
―武田 光平 氏: 技術開発本部 エボーショナルITセンタ 部長
株式会社NTTデータ

NTT データは新中期経営計画にて、お客様への提供価値の最大化に向けて、デジタルトランスフォーメーションのさらなる加速や、グローバルシナジーの最大化に取り組みます。AI を活用して意思決定の迅速化を図る本取り組みは、グローバルシナジー最大化を体現するプロジェクトだと言えるでしょう。グローバルでの質を伴った成長に向けた同社の歩みは、これからますます加速していくに違いありません。

[PR]提供:日本マイクロソフト