ディープラーニングで進化する「ATOK 2017」
ATOKシリーズを担当するジャストシステム CPS事業部 開発部 下岡美由紀氏は、来年で35周年を迎えるATOKに、ディープラーニングを活用した新エンジンを搭載したことを明らかにした。
ここで少しATOKを振り返ると、最初の転換期となった1993年リリースのATOK 8は、AI変換を搭載。50万におよぶ用例を人力で整理、変換精度を高めている。次の転換期は2007年リリースのATOK 2007だ。機械学習を用いた統計によって、自然言語処理機能「ハイブリッドコア」を備えた。
だが、下岡氏によれば、それでも足りない部分が残っていたそうだ。そして今回は、ディープラーニングで抽出し、これまで組み込めなかった日本語の特徴を再現する「ATOKディープコアエンジン」を搭載した。その結果、ジャストシステムの調査によれば、約30%の誤変換を削減できたとのこと。ジャストシステムは「新規利用者はもちろん、既存利用者や(一度ATOKから)離れた利用者にも試していただきたい。必ず大きな変化に気付くと確信している」(田食氏)と、自信を見せている。
ATOKディープコアエンジンの具体的な特徴だが、大量の日本語文章を分析し、人力では見出せなかった特徴を拾い上げた結果を、既存エンジンの計算方法と組み合わせることで変換効率を向上させた。そこにはジャストシステムのこだわりも含まれている。一例として、インターネット上のテキストから抽出した統計情報だと「変身」が上位に来るのだが、日本語文章の作成場面においては「返信」の利用頻度が高い。こうした事例も考慮し、第1候補を調整している。
また、文節区切り位置の決定、同音語選択の決定、文節区切り学習後のチューニングも行われた。ただし本機能はWindows版に限られ、macOS版は今後の対応、Android版は多くの課題が残っているため研究開発に留まっている。
ATOK 2017はこのほかにも、あらかじめ備えている機能をサジェストする「インプットアシスト」を搭載する。また、プレミアム版は一太郎2017 プレミアムと同じく5つの辞典・辞書を追加し、関連語のリンクや誤用を指摘する機能を新たに備えた。
ATOK Passport利用者向け新機能として、Android for ATOKからの単語アップロード機能もアナウンス。ただし、詳細は後日の発表だ。また、2016年12月1日から35周年を記念して、キャンペーンサイトを開設。このサイトにて、35種類の辞書からユーザーが1つを投票し、得票数1位の辞書を無償で提供する。
例年の発表会では、出席した報道陣にベータ版が配布されるのだが、今回はWindows 7時代の古いPCでもATOK 2017が快適動作するパフォーマンスチューニングに時間を要しているという理由で、ATOK 2017ベータ版の配布は見送られている。機会を見て、新エンジンを備えたATOK 2017を含む一太郎 2017の新機能を読者諸氏にご報告したい。
阿久津良和(Cactus)