説明書を読まなくても使い方がわかるのが、iPhoneの魅力であり強みです。しかし、知っているつもりでも正しく理解していないことがあるはず。このコーナーでは、そんな「いまさら聞けないiPhoneのなぜ」をわかりやすく解説します。今回は、『録音したスピーチを文字にする機能はありますか?』という質問に答えます。

***

録音したスピーチやインタビューの様子を文字にする……「文字起こし」や「テープ起こし」と呼ばれる作業がiPhoneでできないか、ということですね? 残念ながら、iPhoneにそのような機能はありませんが、工夫することでそれに近い処理は実現可能です。

利用する機能は、iOSに標準装備の「音声入力」です。『メモ』などのアプリを起動して文字入力可能な状態にしておき、ソフトウェアキーボード(日本語キーボード)のマイクキーをタップしましょう。iPhoneに話しかけると、内蔵マイクで集音したデータがクラウドへ送信され、日本語変換されたテキストがカーソル位置に次々と入力されていきます。英語キーボードでこの処理を行えば、英語で話しかけた内容が入力されます。

音声入力機能は内蔵マイクで直接集音した言葉しか認識しません。録音済データは対象にできないため、リアルタイムのスピーチ/会話以外はテキスト化が困難です。Siriと共通の音声認識エンジンを利用するため認識精度はかなり高いものの、人間の言葉以外の音が大きかったり話のペースが速かったりすると変換ミスは増えます。たとえば、ラジオ番組の内容を文字起こしすることは、現状の音声入力機能には期待できないでしょう。

しかし、録音内容を人力で読み上げるという方法があります。いろいろな音のなかから会話だけを聞き取る人間の能力はかなりのものですから、それを自分がゆっくり/はっきり話しなおすことで音声入力を行うのです。2台のスマートフォン/タブレットまたはパソコンが必要になりますが(1台は録音データ再生用/もう1台は音声入力用)、『ボイスメモ』などのアプリで再生位置を調整しながら文字起こしするよりスピーディーに作業が進みます。

実際にこの方法で文字起こししている人間から助言するとすれば、「一気に作業する」ことでしょうか。細かい誤認識・変換ミスは気にせず、どんどん録音内容を自分の口で話しなおすのです。キーボードを利用した文字起こしは、発言内容を微妙に変えてしまいがちですが、こうすれば録音したスピーチ/会話をかなり忠実に再現できます。

  • 録音した内容を自分で聞き取り同様に発音するという人力作業ではあるものの、文字起こしの精度とスピードは高まります