Google

Googleは10月20日(米国時間)、「Google Developers Japan: Budou: 日本語のための自動折り返し制御ツール」において、日本語テキストの折り返しを意味のある単語単位で折り返しするように変換する技術「Budou」を発表した。この技術により、Cloud Natural Language APIを利用して日本語テキストを解析し、意味のある単語単位で改行が実施されるようになると説明がある。

現在主に使われている日本語テキストは語の区切りに空白を挟む必要性が低く、すべてつなげて表記することが多い。これは日本語が漢字、ひながら、カタカナ、アルファベットといった複数の表記体系の組み合わせで記述されるため、語の区切りを空白で明示しなくても区切りを認識できる率が高いことに理由がある。

一方、英語のような表記体系を持った言語は空白を使って語の区切りを指定しないと区切りを認識することが難しいため、空白による区切りは必須となっている。日本語でもすべてひらがなで記述したり、すべてローマ字で記述したりするケースでは、空白を使って語の区切りを明示しないとかなり読みにくいものになる。

英語など空白による語の区切りを必須とする言語では、この空白を改行場所として高い優先度を持たせることで、語の途中で改行が行われることを極力避けるようにすることが多い。一方、そうした必要性の低い日本語は意味のある単語の途中であっても改行が行われる。

「Budou」はGoogleの持つデータを使って日本語テキストを意味のある語の単位に分割し、意味のある語の途中で改行されることを防ぎ、英語のように単語の間で改行が実施されるようにしてくれる。