ソースネクストは3月19日、米OpenAIが提供する生成AI「GPT-4」を活用した文章要約機能(β版)を開始したと発表しました。

文字起こし機能を搭載するAIボイスレコーダー「Automemo(オートメモ)」シリーズおよびスマートフォン向け「オートメモ」アプリで利用できるサービスで、オートメモで文字起こしした文章を、「要約」「決定事項」「共有事項」を含めた議事録として要約するものです。

  • ソースネクストは文章要約機能の説明会を開催。その文字起こし(写真左側)とその要約(写真右側)

要約機能はβ版として提供され、月額無料の「お試しプラン」のユーザーは月1回まで、月額プラン(月額1,480円)と年額プラン(年額12,800円)のユーザーは月5回まで無料で利用できます。β版終了後は、要約機能を利用できる新しい文字起こしプランを開始予定とのことです。

なお説明会では、文字起こしサービスを無料で10時間まで使える「文字起こしAIオートメモ 無料体験チケット」が配布されました。

AIボイスレコーダーのオートメモシリーズがなくても、スマホアプリで録音や音声認識、Webアプリで要約機能を試せる(無料ユーザーは月1回まで)ので、興味がある人は以下のシリアル番号を使って試してみてください。登録期限は2024年4月末までで、登録から1カ月間有効とのことです。

レコーダーだけでなくスマホアプリ、パソコンでの録音も可能

新しい要約機能を紹介する前に、オートメモの主要機能である録音から文字起こしまでの流れをざっと紹介しましょう。

オートメモは2020年12月に発売した「オートメモ」から、AIボイスレコーダーとしてはこれまでに3モデルを発売しており、現在はタッチパネル搭載の「AutoMemo S」と、シンプルな操作性の「AutoMemo R」という2モデルをラインアップしています。

2022年8月には、元々音声データと文字起こしテキストの管理アプリだったスマホ向け「オートメモ」アプリでの録音が可能になり、AIボイスレコーダー製品がなくても文字起こしサービスを利用できるようになりました。

  • AIボイスレコーダーの「Automemo」シリーズと、スマホ向け「Automemo」アプリ、パソコン向けWebアプリ「Automemo Home」で録音や文字起こしが行えます

2023年8月には、話者の自動判別やテキスト編集が可能なWebアプリ「AutoMemo Home(オートメモ ホーム)」の提供を開始。2024年1月にはパソコンでの録音が可能になり、ZoomやMicrosoft Teamsなどを使ったオンライン会議の内容も録音して文字起こしできるなど、サービスの幅を広げてきました。

  • 2024年1月にはPC録音機能もリリースされ、オンライン会議の録音や文字起こしにも対応

ユーザーアカウント数は、2023年2月時点の約6万から2024年3月18日時点で13万アカウントを突破するなど、ここ1年で一気に伸びているとのことです。

  • オートメモのアカウント数の推移

商品企画を担当するソースネクスト 企画ディビジョン ブランドディベロップメントグループ グループマネージャーの辻正鷹氏は「法人での導入実績は1,000社を超えており、銀行や新経済連盟、マクアケなどさまざまな会社で議事録作成などにご活用いただいております」と語りました。

  • 商品企画を担当するソースネクスト 企画ディビジョン ブランドディベロップメントグループ グループマネージャーの辻正鷹氏

  • 東証コンピュータシステムでは、営業電話の発言がコンプライアンスに抵触するかどうかを確認するため、通話録音内容の文字起こしにオートメモのエンジンを活用。総務業務のDXサービスを提供するエイチでは、議事録作成サービスにオートメモのエンジンを活用しているとのことです

“理想の議事録”に近付けるためにAIが調整を重ねる

ソースネクストのCTO(最高技術責任者)を務める川竹一氏は、オートメモシリーズで活用しているAIの処理内容について解説しました。

  • ソースネクスト CTO(最高技術責任者)の川竹一氏

現在、オートメモの音声認識エンジンのコアには米OpenAIが開発した「Whisper(ウィスパー)」のオープンソース版をカスタマイズして使っているとのことです。ただし製品としてはWhisperだけでなく、10以上のAIを組み合わせていると川竹氏は話しました。

「録音データからノイズキャンセリング機能でノイズを取り除き、音量を最適化します。その後はAIで人間の声が入っている部分を検出しますが、文字起こしを行うと同時に別のAIで誰が話しているのかを判定します。文字起こした結果、残念ながら『ハルシネーション(幻聴)』が生じる場合があります。例えば『ご視聴ありがとうございました』のように、(実際には言ってなくとも、AIが)勘違いして入ってしまうことがあるので、そういったものをルールベースで除去し、その後また別のAIで改行や句読点を打つなど文章を整形します。また、音声をそのまま流すと聞きにくいことがあるので、人間の声が聞きやすいように強調するAIも入っています。最終的に話者判別のデータと一緒にして、皆さんにお届けしています」(川竹氏)

  • オートメモのAI活用の流れ(ピンク色の下部は、AI翻訳機「ポケトーク」シリーズでのみ使用)

今回開発したAI要約機能は、米OpenAIが開発した生成AI「GPT-4」を利用しています。簡単に言うと「以下の文章を400文字程度で要約してください」というプロンプト(命令)をGPT-4に投げかけると、指定した形で要約されるのですが、「商品レベルで本当に実用的に使えるものを作るために、試行錯誤をかなり繰り返しました」と川竹氏は語りました。

生成AIを活用するためには、欲しい結果を導き出すためのプロンプト作り、いわゆる「プロンプトエンジニアリング」が重要なカギを握ります。また、当然そのためには、導き出したい結果、つまり「理想的な議事録」も必要になります。

「当社のマネージャーやリーダークラスの人に、『この人の議事録の要約が素晴らしい』と思う人を出していただき、その人の議事録を徹底的に研究しました。そこから『理想的な会議の要約』を作りました」(辻氏)

「GPT-4が生成した要約と、人間が作った“理想の要約”をAIがいくつかの項目で採点・評価し、“理想の要約”にスコアが近くなるよう、プロンプト自体をAIにもう一度書かせます。それを何回も繰り返し、プロンプトをAIが改善し続けました。スコアが変わらなくなったら、いろいろな録音データでもよい要約ができるようになり、今回のリリースに至りました」(川竹氏)

  • AI要約機能の開発の流れ

実際に行われた説明会を要約してみた。概要はわかりやすいが物足りない点も

今回開催された、要約機能を紹介するソースネクストの説明会を、オートメモで録音して文字起こしから要約まで行ってみました。その結果を画像で紹介しましょう。

  • Automemo Homeの画面。話者ごとに「A」「B」「C」と表示されていたので、編集機能で話者の名前を付けました。右上のメニューから「要約する」を選ぶと要約ができます

  • 30分強の説明会を要約したところ、約7分で要約が完了しました

今回提供をスタートした要約機能は「全体の要約」、「決定事項」、「共有事項」の3パートに分かれて提供されます。辻氏によると、それぞれの役割はこのような感じです。

「『要約』は、この会議がどういう目的で、どういう内容に対して議論されたのかを概要としてまとめています。『決定事項』は会議の中で意思決定されたことで、『共有事項』は会議の中で交換された情報です。こういった形で構造化して要約サマリーを出すことで、1分もあれば中身がパッと分かるところまでまとまっているのではないかなと思います」(辻氏)

  • 要約文だけを抜き出したもの

さらに話者ごとに話した内容も要約されます。

「会議をしている中で、誰がどんな発言をしたのかは意外と重要です。グループインタビューでも誰がどういう意見を持っていたのかは情報として非常に有用だと思います。また、会議中に意見が変わることもあり、そういった時系列も追うことができます」(辻氏)

  • 話者ごとの発現を要約したもの。箇条書きでまとめられ、誰がどんな発言をしたか一目でわかる

今回の説明会を文字起こししたところ、約12,000文字になりました。要約文は約400文字で、話者ごとの要約は合計約900文字でした。筆者のように記事などの文章執筆を生業にしている人間からすると、要約がザックリしすぎていて物足りない部分もあり、より具体的な内容がわかるよう、文字数を指定できる選択肢もあったほうがよいと感じました。

そういう指摘は質疑応答時にも出ており、辻氏は「可能性としては十分あると思いますし、ぜひやりたいなと思っていますが、第一弾として今回は一般的な会議をターゲットとしました」と語りました。しかし、同社が目指す「全自動」とのバランスが難しいといいます。

「そのうち、タブでどんな要約をしてほしいかを選択し、それに合わせて要約するとか、『2,000文字程度に要約してください』と指定できるようになる可能性もあります。そういった選択肢はユーザーからのフィードバックで改善していきたいと思っています。ただ、難しいのは『全自動』とのバランスです。選択させようとすればするほど、ユーザーに考えさせるひと手間が発生してしまうので、どこまでユーザーに選択させるのかはせめぎあいなのかなと」(辻氏)

筆者はオートメモシリーズを初代モデルから使っていますが、音声認識の精度は当初に比べてかなりアップし、話者の自動判別なども含めて便利になってきたことを実感しています。

今回の要約機能は一般的な会議の議事録向けなので、筆者の仕事用途としては使う頻度が少なそうでしたが、ソースネクストが考える“理想の議事録”に近い要約を自動的に行ってくれる点は“刺さる”ビジネスパーソンも多いのではないでしょうか。