NTTコミュニケーションズ(以下、NTT Com)は2月19日、生成AI向けデータ構造化技術「rokadoc(ロカドック)」および生成AI向けガードレール技術「chakoshi(チャコシ)」のパブリックベータ版を公開することを発表し、オンラインで説明会を開いた。「rokadoc」のパブリックベータ版ではドキュメント構造化機能を、「chakoshi」のパブリックベータ版ではテキストの安全性判別機能をそれぞれ試用できる。
生成AI・RAG向けデーnタ構造化技術「rokadoc」
「rokadoc」は、図表なども含めて企業が保有する社内データを生成AIが扱えるデータに変換する技術。企業はPDFファイルやHTMLファイル、画像を含む文書など非構造化データを多く保有しており、生成AIを利用しても期待する回答精度が得られない課題があった。「rokadoc」を活用することで、生成AIを用いた企業内のナレッジを検索した時の回答精度向上が期待できるという。
同技術はWord、PowerPoint、Excel、PDF形式のファイルに対応しており、構造化データとして変換したテキストは任意の生成AI技術で利用できる。
具体的には、独自のレイアウト解析技術によりテキストや画像を区分けすると同時に、画像からは説明文(キャプション)を生成する。