IBMは米国時間2021年5月11日、55種類以上の開発言語で利用可能な約1,400万のサンプルコードを通じて、AI(人工知能)の学習を推進する大規模なデータセット「Project CodeNet」をGitHubで公開したことを公式ブログで明らかにした。対応する開発言語はC++、C、Python、Javaが主要ながらも、COBOLやPascal、FORTRANといったレガシーな開発言語もサポートする。

  • GitHub上のProject CodeNetページ

    GitHub上のProject CodeNetページ

開発者はサンプルコードからメタデータを抽出し、AI手法の調査や追跡、コード修正などに利用可能。IBMは「豊富なプログラムが多数の言語で記述されているが、Project CodeNetはソース間翻訳のベンチマークデータセットとして機能する。(視覚データを認識するための大規模データセットである)ImageNetが(2/3次元画像処理などを自動化する)コンピュータービジョンをコード化できると考えた」とプロジェクトの特徴を説明した。

IBMのR&D部門であるIBM Researchは米国時間2021年5月5日に、異常の検出や診断、対応をリアルタイムで自動化する「IBM Watson AIOps」などを発表しているが、Project CodeNetを含むAI for Code資産を活用して、某自動車製造企業は1年間を要していたJavaのコード移行を約4週間に短縮し、25種類以上のクラウドネイティブなマイクロサービスの実現に成功している。