ヤフー(Yahoo! JAPAN)は4月18日、AI(人工知能)・自然言語処理技術の1つである分散表現の学習時間を短縮化する技術「yskip」を、オープンソースソフトウェア(OSS)として公開した。研究用途に加え、商業用途でも利用可能。

分散表現とは、単語をベクトルで表現する自然言語処理領域のAI技術の1つであり、大量のテキストデータから多様な単語の関係性を機械学習し、単語同士の意味の相違を機械的に推定できるという。同社では、ユーザーの興味関心情報と記事や広告のマッチングの裏側の技術として活用している。

検索キーワードやSNSのつぶやきなど、インターネットサービス上のテキストデータを活用する場合は、分散表現の学習モデルの頻繁な更新が求められ、その際には新しいデータに加えて、学習済みデータも合わせて学習し直す必要があり、都度学習時間を要するなど非効率だったという。

このような課題を受け、新しいデータのみの学習で全データで学習する場合と比べ、学習時間を短縮化しつつ、同等精度を維持する分散表現技術であるyskipを開発し、GitHub上にOSSとして公開した。

同社は、Twitterに投稿されたツイートを検索できる「リアルタイム検索」の裏側でyskipを用い、サービスの質の向上に役立てている。OSSとして公開することで、今後は広くAIエンジニアや研究者が利用し、サービス開発や研究開発の効率化に活用できるという。

なお、yskipは代表的な分散表現学習法であるskip-gram model with negative sampling(SGNS)を拡張した技術であり、yskipと従来の学習法であるSGNSを分散表現の精度を測定するために使われている5種のデータセットで検証したところ、同等精度で学習可能であることを実証した。

  • yskipとSGNSの比較検証結果

    yskipとSGNSの比較検証結果

詳細については、2017年9月に開催した自然言語処理領域で権威のある国際会議(トップカンファレンス)である「EMNLP2017」において、論文として発表し、開発者による技術解説記事を「Yahoo! JAPAN Tech Blog」でも公開している。

同技術は、導入後の特許侵害の発生リスクを抑え、安心して利用してもらうため、同社が特許権を取得している。研究用途に加え、商業用途も含め、特許権のライセンスを無償提供する形で、OSSとして公開。OSS公開を通じて、同技術のさらなる利便性向上を図り、データサイエンス領域の研究者・エンジニアコミュニティへ貢献する考えだ。