Windowsには、音声を扱う機能がある。通常、コンピューターで音声を扱う機能は、大きく2つに分かれる。1つは、マイクなどから入力した音声を認識して、テキスト（文字コード）に変換する「Speech To Text（STT）」の機能である。これは、一般に「音声認識」機能などと呼ばれる。

もう1つは、テキストを音声として発声する「Text To Speech（TTS）」機能だ。こちらは、一般に「音声合成」などと呼ばれる。また、画面上のテキストを読み上げるソフトウェアを一般に「スクリーン・リーダー」と呼ぶ。過去には、サードパーティからWindows用のスクリーン・リーダーが出荷されていたこともある。

Windowsでは、2007年のWindows Vistaに最初に音声関連機能が搭載された。このときの音声認識機能は、「Windows Speech Recognition（WSR）」と呼ばれる。日本語版は、「Window音声認識」という。

Windows音声認識は、音声でWindowsを制御する「Windows Voice Command」。音声入力（ディクテーション）のための、「Windows Voice Typing」（音声入力）の2つの機能からなる。

Windows Voice Commandは、「音声入力を停止」のような定型文のみを受け付け、音声でWindowsの操作を可能にする。いくつかのコマンドは、複数の言い回しに対応しているが、完全な自然文を受け付けるわけではない。

Windows Voice Typingは、声をテキストに変換して入力を行う。また、Windows Voice Commandにも対応しており、テキスト編集時に音声で指示（選択、削除など）を可能にする。

また、音声合成機能は「ナレーター」と呼ばれ、こちらもWindows Vistaに搭載された。ただし、当時は、日本語の音声合成機能がなく、日本語版Windows Vistaでは、日本語を発声することができなかった。筆者の記憶では、Windows 7（2009年）では、ナレーターで日本語を発声することが可能になった。

Windows 11 Ver.22H2（2022年）では、Windows Voice Accessが追加された。これは、音声コマンドと音声入力を統合した音声認識システムである。2023年には、Windowsの音声認識システムは、Voice Accessとなることが発表され、2024年9月には、WSRは非推奨の機能となり、以後の開発が行われないことになった。

なお、画面などを読み上げるText To Speech機能は、ナレーターがそのまま使われる。ナレーターの開発は現在も続いている。

Windows 11のアクセシビリティや音声機能の新機能や改良に関しては、Windows Voice Accessのみが対象になっている。Windows Speech Recognitionでは開発が行われていない。この点からいうと、日本語版Windowsの音声機能は、Windows 10のままといえる。ある意味、日本語版のWindowsの音声認識能力は、現状のまま性能向上の可能性がないといえる。

ただし、Copilotには、音声入力機能があり、Windows Speech Recognitionのままでも自然文による質問は可能だ。この点を考慮すると、日本語版のWindowsの音声機能では、音声によるテキスト入力や音声コマンドが旧来のままという欠点が残っている「だけ」ともいえる。

今回のタイトルネタは、堀晃の「遺跡の声」（1976年。創元SF文庫収録）である。開発が終了したWSRを遺跡にたとえた。この作品は、当初、単作としてSFマガジンで発表されたが、のちに「太陽風交点」として連作が始まる。創元SF文庫版は、宇宙遺跡調査員である主人公とその助手となった結晶生命体「トリニティ」この２人の遭遇する事件を描く、一連の作品からなる。

このトリニティと主人公は音声で会話する。十分な常識、コンテキストに必要な知識を持つなら、会話が冗長とはならないと思われる。そうなると、音声によるコミュニケーションは、長年一緒に仕事した同僚との会話のように効率的なものになりそうだ。コンピュータとの音声コミュニケーションには、そういう可能性がある。