ソフトバンクは6月28日、AI(人工知能)を活用したサービスを開発する企業やAIを研究・開発する学術機関向けに、教師データを作成するアノテーションを代行するサービスを開始することを発表した。

  • アノテーション代行サービス「TASUKI Annotation」の画面イメージ

    アノテーション代行サービス「TASUKI Annotation」の画面イメージ

アノテーションとは、精度の高い教師データを作るために、対象物の色塗りなどのデータ加工のことで、AI開発には欠かせない工程だ。AIモデルが学習できていない非構造化データに、位置情報やラベルなどを使ってデータに意味を付与する。

  • アノテーションとはAI開発に欠かせない工程

    アノテーションとはAI開発に欠かせない工程

総務省の調査によると、AI開発においてアノテーションに費やす時間は、全体の63%を占めている。なぜなら、データの作成に膨大な工数が発生するからだ。一般的なアノテーションは、対象を一つずつ手作業でラベルを付ける。また開発に必要なデータは、数千~数万枚が相場だ。

  • データ作成に膨大な工数が発生する

    データ作成に膨大な工数が発生する

また、アノテーションは事前の要件定義が困難で「誰かに頼む」ことが難しいことも、作業時間を削減できない要因という。例えば、人を対象にアノテーションを行う場合、「画面から見切れている」「小さく写っている」「陰になってよく見えなくなっている」人を、対象にするか否かは、作業者によってまちまちであることが多い。

さらに、教師データは品質が命であるため、ノイズ(見切れ、余白、対象不正)が少ないデータを作る必要があり、人手だとどうしても時間がかかってしまう。

今回、ソフトバンクが提供を開始する代行サービスは「TASUKI Annotation (タスキアノテーション)」。開発現場における上記の課題解決を目的として、ソフトバンクの社員のエンジニアが発案したサービスという。

  • 「TASUKI Annotation (タスキアノテーション)」ビジネスモデル

    「TASUKI Annotation (タスキアノテーション)」ビジネスモデル

同サービスは、教師データの作成作業そのものをAIで半自動化し、AIの知識を持つスタッフが、データの品質チェックや顧客のフォローアップを行いながら、教師データの作成を代行する。例えば、手動で行うと110秒かかる作業が、AIの自動化により2秒に短縮されるという。

また、Webサイトでの質問に回答していくだけで発注が完了する機能や、ユーザーと代行スタッフが直接やりとりできるチャット機能もあり、効率的な作業を実現できるとのこと。

  • 作業者と依頼者をつなぐチャット機能

    作業者と依頼者をつなぐチャット機能

加えて、ユーザーからの回答内容に基づき、独自のデータ作成マニュアルが自動生成されるため、依頼書作成の負担も軽減できる。さらに、チャット上で作業中のデータをひも付けられるため、実際のデータを見ながら要件や品質の確認、急な方針変更などにも対応するという。

同サービスは汎用的な教師データセットも販売する。ユーザー独自の教師データに加えて、汎用性な既存のデータの活用を組み合わせることで、AIの開発期間の短縮につなげる。また同社は、品質の高いデータを提供するため、作業者の抜き打ちテストも行っているという。

同サービスは、すでにソフトバンクやソフトバンクのグループ会社で、複数のAIの開発プロジェクトにおいて活用されている。あるプロジェクトでは、数百人の手書き文字の収集とデータ加工の正解率を28.7%向上させたという。

なお同サービスの提供に際して、初期導入費用や固定管理費などはかからず、基本的に1ラベルにつき7円で提供するという。例えば、1枚につき50ラベル存在する画像1万枚分のアノテーションで350万円といった具合だ。

同社は今後、AIを活用した新しい機能の実装や、さまざまなパートナー企業とのデータ連携などを検討していく考えだ。