東京大学(東大)は5月30日、自然言語をある決まったルールに従って確率的に文字列を生成する系として単純化した「Random Language Model」(RLM)と呼ばれる数理モデルにおいて、同モデルで不連続にそれまでとは系の振る舞いが変わる「相転移」が起こる(幼児が言語を獲得すると解釈されている)と予想されていたのに対し、今回の研究において、相転移は実際にはなく、連続的に変化していくだけであることを証明したと発表した。

同成果は、東大大学院 総合文化研究科 広域科学専攻の中石海大学院生、同・福島孝治教授らの研究チームによるもの。詳細は、米国物理学会が刊行する物理とその関連する学際的な分野を扱うオープンアクセスジャーナル「Physical Review Research」に掲載された。

地球上には7000とも8000ともいわれる言語が存在し、それぞれ多様な特徴を持つ。しかし、どんな言語であっても必ず文法というルールに従っていると考えられており、言語をある決まった規則に従って文字列を生成するものとして単純化し、あらゆる言語を統一的に記述することを試みるのが「形式文法理論」だという。

さらにこの枠組みを拡張し、確率的に文字列を生成する数理モデルを考えることも可能だという。このモデルは多数の文字や文法規則が互いに相互作用しながら確率的に振る舞う物理系と見なすことができ、その振る舞いは統計力学と呼ばれる物理学の一分野の立場から解析することが可能とされている。

2019年にカナダ・トロント大学のEric De Giuli博士が発表したRLMは、このような自然言語の数理モデルの1つであり、博士自身は、RLMは、幼児が秩序だった言語を身につける言語獲得に対応するものとして解釈されるとしている。

そして博士は、シミュレーションによってこのモデルを解析して「相転移」が起こることを予想していた。その予想によれば、RLMにおいてモデルの乱雑さを制御するパラメータを連続的に動かしていくと、ある点よりも前では無秩序な文字列が生成され、それよりも後では秩序だった文法構造を持つ文字列が生成されるとする。この相転移が、無秩序で意味をなさない幼児の「言語」が文法に基づく成熟した言語になる言語獲得に対応すると解釈したのだという。

しかし、先行研究ではこのような相転移の証拠を明確には示していなかったという。そこで研究チームは今回、相転移の有無を確かめるべくRLMをより詳細に調べることにしたとする。

解析の結果、RLMを特徴づける多くの性質が、文法構造における文字の出現確率から導けることが判明したほか、この出現確率を数学的に解析できることが見出されたという。その解析から、先行研究の予想に反して相転移は存在しないことが証明されることとなり、RLMには確かに無秩序な領域と秩序を持つ領域が存在するが、それらの間に明確な境界はなく、両者は徐々に移りかわることがわかったとしている。

先行研究にならい、言語獲得に対応づけてこれを解釈するならば、幼児の無秩序な「言語」と成熟した言語の間に質的な違いはなく、前者から後者への変化は連続的なものであるということになるとする。

なお、数理モデルの解析と物理現象との対比によって自然言語を理解するDe Giuli博士の研究は、自然言語に対する新たな科学的アプローチの可能性を示すものとして、物理学者たちの間で注目を集めた。RLMについて、相転移という物理学的に重要な現象の有無を厳密に確かめた今回の研究は、このアプローチからの研究として初めて具体的な科学的成果を上げたといえると研究チームでは説明している一方で、RLMは単純化されたモデルであり、自然言語のすべての側面を捉えているわけではないともしており、より多くの側面を反映するRLMよりも、複雑なモデルで相転移などの興味深い現象が現れるかどうかは、依然として未知だという。そのため今後、より複雑なモデルの提案と解析が蓄積されることで、自然言語の物理学ともいうべき研究が発展していくことが期待されるとしている。