●AI連載シリーズ
【連載】AI活用で初心者もお手軽動画編集
【連載】柳谷智宣のAIトレンドインサイト
【連載】ゼロからLLMプロンプトエンジニアリング
【連載】ChatGPT入門 - 初めてのAIチャット活用

生成AI×音声認識の現在地

近年、生成AIの発展に伴い、音声認識技術の進化は目覚ましいものがある。従来は音声を正確に認識し文字化するには、多くのノイズ処理や専門的な機材、そして人手による修正が必要だった。しかし現在では、生成AIを基盤とした音声処理モデルが登場し、ほぼリアルタイムで実用レベルの文字起こしが可能だ。これは、音響認識技術と自然言語処理モデルの融合による成果と言える。

こうした背景にはTransformerをはじめとするディープラーニングのモデル構造の洗練、クラウドコンピューティングによる計算資源の拡大、大規模言語モデル(LLM: Large Language Model)の文脈理解能力の向上がある。特に同音異義語や専門用語の適切な認識といった「意味」を前提とした変換精度が、実用性の飛躍的向上につながっている。

こうした流れを受け、各社から音声AIサービスが次々と登場しているが、本連載では「Notta」を取り上げる。Nottaはリアルタイム処理と後処理の両方において高度なAI機能を提供し、文字起こしを超えた「業務ツール」として活用されている。

競合としてはOtter.ai、Fireflies.ai、tl;dvなどがある。これらはグローバル対応や自動要約機能などに優れている。日本語精度、ユーザーインタフェース(UI)の洗練という点では、日本市場を見据えたNottaに利点が多いように見える。

本連載では、NottaのAI機能を取り上げ、技術的な仕組みと使い勝手、そして業務への応用可能性を検証する。第1回ではその基盤となる「リアルタイム文字起こし技術」を取り上げる。

Nottaの強みとは

Nottaは、AI音声認識技術を基盤としたクラウドベースの文字起こし・情報整理ツールだ。ユーザーが録音した音声やアップロードした音声ファイルを高精度で文字化し、さらに要約や翻訳、キーワード抽出などの後処理もワンストップで実行できるという特徴がある。UIはWebベースで、PC・スマートフォンどちらからでもアクセス可能な柔軟性を持っている。

このサービスは、単に音声を文字に変換するだけでなく、業務プロセス全体の中で「記録・共有・再利用」のハブとして機能することを前提に設計されている。例えば、文字起こしと同時に要点を抽出し会議の要約を作成するAI要約機能は、議事録作成の自動化という点で評価が高い。

対応言語数の多さも際立つ。Nottaは日本語、英語、中国語、スペイン語、ドイツ語、ポルトガル語など、文字起こしで58言語言語に対応し、起こしたテキストの翻訳は42言語に対応している(執筆時時点)。言語ごとに最適化された音響モデルと自然言語処理モデルを適用しており、英語・日本語だけでなく、中国語、韓国語、スペイン語など、多様な国際会議でも実用性が高い。

連携性も強力だ。ZoomやGoogle MeetなどのWeb会議サービスとの統合によって、会議予定に基づき自動で録音・文字起こし・要約が行えるほか、NotionやSlack、Google Driveといった外部サービスとシームレスに連携し、記録を自動共有することができる。

フリープラン(無料プラン)から始めることができ、必要に応じてプレミアムプラン、ビジネスプラン、エンタープライズプランと拡張できる。機能制限や使用時間の差はあるがAI文字起こし・要約の基本機能はフリープランでも試せるため、まずは試してほしいサービスだ。

Nottaのリアルタイム文字起こし技術

Nottaの中核的な強みはリアルタイムの音声文字起こし機能にある。ユーザーが話した内容を、ほぼ遅延なく画面上に文字として表示していく処理速度と、98%を超える精度が特徴だ。このリアルタイム処理は、会議やインタビューのように即時性が求められるシーンで役に立つ。

精度の高さは、Nottaが単なる音の変換だけでなく、文脈と意味を考慮する自然言語処理AIを組み込んでいるからこそ実現できるものだ。文中の言い間違い、言い直し、曖昧な発音に対してAIが補正を行い、人間らしい自然な文章に仕上げていく設計になっている。

対応する音声ソースも幅広い。次のような複数の入力経路を提供している。

  • PCやスマートフォンのマイクからの直接録音
  • MP3やWAVなどの音声ファイルのアップロード
  • Zoom会議やGoogle MeetといったWeb会議の録音データ
  • YouTube動画のURL貼付けによる自動転写

リアルタイム文字起こしと録音ファイルのアップロード処理をシームレスに切り替え可能な点も便利だ。会議中にリアルタイムで見ながら記録することも、会議後に録音ファイルをまとめて処理することも、どちらのワークフローにも対応している。

Nottaのリアルタイム文字起こしは音声情報を「逃さず・漏らさず・すぐ使える」形で記録するための実用的なツールだ。音声情報を扱う業務のなかで生産性向上に寄与する。

Nottaの基本的な使い方

Nottaの操作はシンプルで直感的であり、初めてのユーザーでも数分で基本操作を理解できる。まず、WebブラウザでNotta (https://www.notta.ai/)にアクセスし、アカウントを作成した後、ダッシュボードから「録音開始」ボタンを押すことで、すぐにリアルタイム文字起こしがスタートする。この段階でマイクの設定や音声入力の選択も自動で行われる。

  • https://www.notta.ai/にアクセスし、「録音開始」ですぐに使いはじめることができる

    https://www.notta.ai/にアクセスし、「録音開始」ですぐに使い始めることができる

  • 録音を開始するタイミングでどの言語の文字起こしをするかを指定する

    録音を開始するタイミングでどの言語の文字起こしをするかを指定する

録音が進むと、話した言葉が即座に画面上に表示され、視覚的にも記録が確認できる。リアルタイム文字起こし中は、話者の切り替えや発話の一時停止も反映され、後の編集作業を想定した整形が同時に行われる。録音終了後は、自動でデータが保存され、文字起こし内容の編集・共有・要約といった次のステップへ進むことができる。

  • リアルタイム文字起こしのようす

    リアルタイム文字起こしの様子

  • 録音完了後の画面

    録音完了後の画面

英語の会議を録音しながら文字起こしを行い、さらに文字起こしと同時に日本語への翻訳も行うなら「リアルタイム翻訳」機能を有効化する。この機能を使うとリアルタイムに文字起こししながら翻訳も同時に表示させることができる。慣れない言語での会議の理解を助ける上でも有益な機能だ。

  • リアルタイム翻訳の機能を使うと、文字起こしと同時に翻訳も行われる

    リアルタイム翻訳の機能を使うと、文字起こしと同時に翻訳も行われる

既存の音声ファイルを利用する場合は、「ファイルのアップロード」機能を使えばよい。ここではMP3、WAV、M4Aといった主要な音声形式に対応しており、アップロード後すぐにAIによる処理が始まる。処理時間はファイルの長さに比例するが、30分の音声でおおむね数分~数十分以内に全文の文字起こしが完了する(話者判別を有効化し、対象人数を増やすと処理時間が長くなる)。

  • 録音ではなくファイルのアップロードから文字起こしを行うこともできる

    録音ではなくファイルのアップロードから文字起こしを行うこともできる

Web会議連携機能も見逃せない。Googleカレンダーと連携させれば、ZoomやGoogle Meetの予定を自動で検出し、Notta Botが会議に参加・録音・要約まで行ってくれる。ユーザーは会議後にログインするだけで、全文とサマリーが整った議事録をすぐに確認・共有できる。

  • カレンダーサービスとの連携機能

    カレンダーサービスとの連携機能

文字起こし結果は、PDF/Word出力、URL共有、Notion投稿など複数のフォーマットでエクスポートできる。用途に応じて必要な形式で情報を再利用できる点も、実務における導入のしやすさを高めている。

  • 文字起こしの結果は複数のフォーマットでダウンロードできる

    文字起こしの結果は複数のフォーマットでダウンロードできる

  • 文字起こしの結果はNotionなど外部サービスと連携することもできる

    文字起こしの結果はNotionなど外部サービスと連携することもできる

モデル構成と「二言語同時認識」

Nottaの高精度文字起こしを支える技術的中核は、自動音声認識(ASR: Automatic Speech Recognition)モデルと大規模言語モデル(LLM: Large Language Model)との協調処理にあると考えられる。

ASRは音声波形から音素・単語を抽出する音響的処理を担い、LLMはそこから得られたテキストに対し、文法や文脈に応じた補正・整形を加える。この二層構造が、従来の音響モデル単体では実現できなかった高精度な認識を可能にしている。

日本語においては、語順の柔軟さや同音異義語の多さといった言語的特性が、従来の音声認識モデルでは対応困難な要素だった。例えば、「会(かい)」「買い(かい)」「甲斐(かい)」のように同じ音でも意味が異なる語を、LLMは前後の文脈から自動的に推定・補正する。これにより、専門用語や固有名詞を含むビジネス文脈にも対応できる。

さらにNottaは、複数言語が混在する会話への対応も進化させている。2024年6月に導入された「二言語同時翻訳機能」機能により、1つの会話中に日本語と英語が混在するようなシーンでも、それぞれの言語に適したモデルが自動で切り替えられ、自然な形で文字起こしがなされるようになった(参考「新機能「二言語同時翻訳機能」をリリースしました !」)。

この機能は、次の場面で効果を発揮する。

  • 外資系企業の会議で、日本語の説明に英語の補足が挟まるケース
  • 海外パートナーとのZoom会議におけるバイリンガル進行
  • インタビューにおいて通訳が介入する場面
  • アップロードするときに「2か国語文字起こし」を選択し、言語も指定する

    アップロードするときに「2か国語文字起こし」を選択し、言語も指定する

  • 英語の日本語の両方が文字起こしされたサンプル

    英語の日本語の両方が文字起こしされたサンプル

こうした複雑な言語状況でも、手動で言語を切り替える必要なく正確な記録が得られる。

Nottaの音声認識システムは単一構造ではなく、AIエンジン群がタスクごとに連携するアーキテクチャとなっており、発話の意図や文脈を深く理解するための「意味ベース」の設計思想が随所に見られる。

まとめ

今回はNottaのリアルタイム文字起こし機能を中心に、その技術的構造と実用性について説明した。ASRとLLMの協調によって実現された高精度な音声認識、そして二言語同時翻訳機能によるグローバル利用への対応力は、現在のAI音声認識技術の最前線に位置づけられるものだ。

音声入力の柔軟性やUIの分かりやすさ、そして会議アプリとの連携機能など、単なるツールとしての利便性も極めて高い。日本語における精度の高さと、意味単位での構文理解という点において、他の競合製品と比較しても十分な差別化要素を持っている。

音声データを「即・見える化」し、「すぐ共有」できる点は、会議・取材・打ち合わせといった多様な現場において作業効率や情報管理の質を飛躍的に向上させる。情報が音声のまま埋もれることなく、ナレッジとして再利用される環境が整うことは業務改善の大きな一歩となる。

導入のハードルも低く、まずはフリープランから試して効果を体感し、その後ニーズに応じて上位プランへ移行するという運用も現実的だ。中小企業から大企業まで、幅広い組織が導入を検討できる拡張性を備えている。

次回は、Nottaのもう一つの強力なAI機能である「AI要約」に焦点を当て、どこまで人手を減らし、正確かつ有用な議事録が生成されるのかを取り上げる。