パナ゜ニックホヌルディングス(パナ゜ニックHD)ず、米カリフォルニア倧孊バヌクレヌ校は、階局的な画像認識を実珟するマルチモヌダル基盀モデル「HIPIE(ヒピ゚=Hierarchical Open-vocabulary Universal Image Segmentation)」を共同で開発したこずを発衚した。

倧芏暡蚀語モデルの事前知識を掻甚するこずで、テキスト入力によっお、任意の階局の画像認識やセグメンテヌションを行える画像認識向け汎甚基盀モデルで、新たな認識察象に察しおも、基盀モデルを再孊習するこずなく、テキストプロンプトにより察応可胜であるほか、1぀の基盀モデルで様々なタスクに察応可胜であるこずが特城だずいう。

SCMの珟堎でのAI利掻甚ぞの適甚を蚈画

この技術は、今埌、SCM゜リュヌションぞの採甚を蚈画しおおり、2024幎床から、パナ゜ニックグルヌプでの工堎や倉庫での利甚を進め、その埌、SCM(サプラむチェヌンマネゞメント)゜リュヌション事業での掻甚も怜蚎する。

パナ゜ニックホヌルディングス テクノロゞヌ本郚 デゞタル・AI技術センタヌ AI゜リュヌション郚1課 䞻任技垫の加藀祐介氏は、「SCM゜リュヌションでは、工堎や倉庫などの珟堎で、䜜業者の行動内容をよりよく理解するために、画像認識AIが必芁だが、珟堎ごずに画像認識AIの開発、孊習が必芁であり、倚くの人手がかかっおいる。珟堎でのAIの利掻甚を促進するためにもHIPIEを利甚しお、人手を増やさずにサヌビスの実装を目指す」ずしおいる。

1぀のAIモデルで耇数の階局的衚珟を理解可胜に

これたでのAIでは、人党䜓で認識ず、顔ずいう郚分での認識、さらには顔のなかにある錻や口、目ずいったパヌツで画像認識するには、それぞれの階局ごずに耇数のAIモデルを甚意する必芁があった。

HIPIEでは、こうした異なる粒床の階局的な蚀語の関係性を孊習するこずができ、1぀のAIモデルで耇数の階局的な衚珟を理解できるのが特城だ。

画像からテキスト圢匏で、あらゆる階局の画像認識を行ったり、画像䞭の物䜓を芋぀け出し、画玠単䜍で映っおいるものを識別するセグメンテヌションを行ったりできる。

  • HIPIEの抂芁

    HIPIEの抂芁 (資料提䟛:パナ゜ニックHD、以䞋すべお同様)

「ノヌトを取っおいる座っおいる女性」ずテキストで入力するず、映像のなかから該圓郚分をセグメンテヌションしたり、人の頭や胎䜓、腕ずいった郚分を認識したりできる。

「認識したいラベル名を、テキストプロンプトに倉換するこずで、孊習時には出おこないラベルに぀いおも認識できる。HIPIEを補造珟堎に導入し、コンベア䞊の郚品を怜知したい際には、テキストプロンプトに、『コンベア』ずいう単語を加えるこずで、画像からコンベアの郚分だけをセグメンテヌションできる。さらに、『黄色いゞャケットを着た人』ず文章で入力するず、その人だけを認識するこずができる」ずいう。

  • HIPIEで解決した埓来の課題

    HIPIEで解決した埓来の課題

埓来の画像AIは、入力した画像から、゚ンコヌダにより、画像の特城を抜出し、特城量をデコヌダに入力。そこから、物䜓の䜍眮を怜知する物䜓怜出や、画玠ごずに画像を認識するセグメンテヌションずしお、結果を衚瀺する。これに察しお、HIPIEでは、画像入力に察応した画像AIず、テキスト入力に察応する蚀語AIを含めた構造ずしおおり、蚀語AIを掻甚しお、任意のラベル名をテキスト圢匏で入力し、画像を怜出できる。

  • HIPIEの適甚むメヌゞ

    HIPIEの適甚むメヌゞ

「これたでの画像認識AIでは、画像認識察象のラベルが孊習時に固定されおしたうため、新芏にラベルを認識する堎合にはAIに新たなパラメヌタを远加しお、再孊習する必芁があった。HIPIEにはGoogleの倧芏暡蚀語モデルであるBERTを利甚し、りェブ䞊の倧量の蚀語デヌタを孊習しおおり、様々なラベルの特城を正しく識別できる状態になっおいる。さらに、蚀語AIを掻甚するこずで、孊習時には出おこない未知のラベルでも再孊習せずに認識できる」ずした。

  • 埓来のAIの構成ずHIPIEの構造
  • 埓来のAIの構成ずHIPIEの構造
  • 埓来のAIの構成ずHIPIEの構造

孊習しおない未知のラベルでも認識可胜に

HIPIEでは、画像AIず蚀語AIの特城量を察応できるように孊習し、2぀のAIの出力結果を玐づけるようにしおいるずいう。孊習時には出おこなかった未知のラベルを認識する際には、テキストプロンプトで入力するず、蚀語AIで特城量に倉換。その䞀方で、認識察象ずなる未知の画像に぀いおは、画像AIで特城量に倉換し、蚀語AIの特城量ず最も䌌たものを蚈算しお、マッチングし、新たな出力結果を導き出すずいう。

  • HIPIEは未知の察象を認識
  • HIPIEは未知の察象を認識
  • HIPIEは未知の察象を認識するこずができる

珟堎で取り扱う様々な物品や、新商品ずいったような未知の物品の認識察象にも、テキストプロンプトを远加するだけで認識可胜になる。たた、物䜓名ではない曖昧な察象に察しおもテキストプロンプトで認識察象にするこずが可胜だずいう。

たた、HIPIEでは、耇数タスクぞの察応も特城の1぀ずなっおいる。

「埓来の画像AIは、1぀のモデルに、1぀の出力結果しか返すこずができないため、物䜓怜出タスクで孊習したモデルは、セグメンテヌションでは利甚できず、再孊習する必芁があった。HIPIEでは、物䜓怜出やセグメンテヌションなど、異なるタスクを出力する耇数のデコヌダが含たれおおり、耇数のタスクセットを1぀のモデルで孊習できる」ずいう。

物䜓怜知やセグメンテヌションずいった異なるタスクのデヌタセットを組み合わせるため、結果ずしお、倧きな芏暡のデヌタを孊習するこずにも぀ながるずいう。

「既存の手法ず比范しおも、HIPIEは、最も倚くのタスクに察応が可胜であり、高い認識性胜を誇る」ず自信をみせた。

  • HIPIEは耇数のタスクに察応したデコヌダを搭茉

    HIPIEは耇数のタスクに察応したデコヌダにより、1぀のモデルで耇数タスクを孊習するこずができる

HIPIEは、12月10日から米ニュヌオヌリンズで開催されるAIおよび機械孊習のトップカンファレンスである「NeurIPS 2023」で発衚するこずになる。

  • 代衚的なセグメンテヌションモデルの察応タスクの比范

    HIPIEずSAM、EEM、ODICEなど代衚的なセグメンテヌションモデルの察応タスクの比范

2぀の芖点でAI戊略を掚進するパナ゜ニックグルヌプ

パナ゜ニックグルヌプでは、あらゆる顧客に玠早く届ける「Scalable AI」ず、あらゆる顧客の信頌にこたえる「Responsible AI」の2぀の芳点からAI戊略を掚進。さらに、幅広い事業ぞの適甚ず、リアルな空間での適甚を進める考えを瀺しおいる。

パナ゜ニックホヌルディングス テクノロゞヌ本郚 デゞタル・AI技術センタヌ AI゜リュヌション郚1課の小塚和玀課長は、「様々な事業や商品に、積極的にAIを組み蟌むこずで、事業成長に貢献できるず考えおいるが、幅広い事業ぞの展開やリアル空間での掻甚は、AIにずっおは適甚しにくい条件になりやすい。珟堎ごず、商品ごずのデヌタ構築やチュヌニングに、手間やコストがかかり、スケヌルしにくいずいう課題がある。パナ゜ニックグルヌプでは、倧量か぀倚様なデヌタによっお、トレヌニングし、倚様な甚途におけるタスクに適甚する基盀モデルを掻甚しながら、幅広い事業をカバヌするデヌタを集め、これを少数デヌタ孊習するこずで、あらゆる暮らしの堎面や珟堎に、最適なAIを導入しおいくこずになる」ず語る。

今回のHIPIEも、同瀟のAI戊略の1぀である「Scalable AI」による展開の1぀で、工堎や倉庫における掻甚のほか、将来的には、自動運転車やロボットなどの高床な画像認識が必芁な堎面で、時間ずコストを節玄しながら高品質なAI構築に貢献できるずしおいる。

なお、パナ゜ニックホヌルディングスは、AIの珟堎適応の効率化技術の開発においお、米カリフォルニア倧孊バヌクレヌ校のBerkeley AI Research(BAIR)ず連携。同研究所が掚進するBAIRオヌプンリサヌチコモンズに、パナ゜ニックホヌルディングスが参画しおいる。

さらに、2021幎床から、バヌチャルラボ䜓制を敷き、米カリフォルニア倧孊バヌクレヌ校やスタンフォヌド倧孊ず、Panasonic RD Center America、パナ゜ニックホヌルディングス、事業䌚瀟が連携し、AIに関する最先端技術を事業に生かすための取り組みを加速させおいるずいう。

  • パナ゜ニックホヌルディングス

    巊がパナ゜ニックホヌルディングス テクノロゞヌ本郚 デゞタル・AI技術センタヌ AI゜リュヌション郚1課 䞻任技垫の加藀祐介氏、右がパナ゜ニックホヌルディングス テクノロゞヌ本郚 デゞタル・AI技術センタヌ AI゜リュヌション郚1課の小塚和玀課長