インフォマティクス、自然言語処理モデルRoBERTa日本語版を公開

インフォマティクスは4月6日、ディープラーニングを用いた言語モデルであるRoBERTa（A Robustly Optimized BERT Pretraining Approach）の日本語版事前学習モデルを公開した。

同社が今回公開した自然言語モデル「RoBERTa」は、2019年にFacebook AI Research（現Meta AI Research）が公開したモデルだ。特定の問題には特化しないため汎用性が高く、同モデルを活用することでさまざまな自然言語処理システムを効率的に実現できる。

無償のOSS（オープンソースソフトウェア）として提供するため、学習時間とコストの削減が見込める。ライセンスはApache 2.0であり、商用または非商用を問わずに利用できるとしている。

通常の自然言語モデルは対象となる言語で用いられる単語の意味や文法などをAIが学習した後、スパムメール判定やSNS投稿、口コミの分析など個別の例ごとに課題をAIが学習する2段階のプロセスが必要だ。対象言語を理解させるプロセスには大量のデータと学習時間が必要だが、「RoBERTa」はこの段階に対応するため短期間での処理が可能となる。

自然言語処理とは、われわれが日常的に読み書きなどに使用している言葉を処理するための技術であり、SNS（ソーシャルネットワーキングサービス）への不適切な投稿の監視や翻訳、口コミの分析などに使用できる。