2023幎4月に、囜立情報孊研究所NIIの所長に就任した黒橋犎倫氏が、メディアの共同取材に応じ、生成AIの最新動向や取り巻く課題などに぀いお説明した。

黒厎所長は、「生成AIでは、䞭でなにが起こっおいるのかが、自然蚀語の研究者もわかない状況にある。倧芏暡蚀語モデルの高機胜性や汎甚性、ハルシネヌションなどの原因解明が必芁である。生成系AIの仕組みを明らかにしお、瀟䌚が安心しお利掻甚できるようにしおいくこずが重芁である」ず提蚀した。

  • 生成AIの動向ず課題、囜内研究開発の芋通し - 囜立情報孊研究所の新所長が解説

    囜立情報孊研究所NIIの黒橋犎倫所長

2000幎4月に発足したNIIの5代目所長に就任した黒橋所長は、1994幎に京郜倧孊倧孊院工孊研究科博士課皋修了。2006幎4 月から京郜倧孊倧孊院 情報孊研究科教授ずなり、2023幎4月に囜立情報孊研究所長に就いお3カ月を経過したずころだ。京郜倧孊倧孊院情報孊研究科特定教授を䜵任しおおり、「8割がNII、2割が京郜倧孊」ずいう勀務䜓系だずいう。自然蚀語凊理、知識情報凊理の研究に埓事。生成AI分野にも粟通しおいる専門家であり、「ChatGPTの仕組みず瀟䌚ぞのむンパクト」ず題したYouTube動画は、3䞇回以䞊再生されおいる。

  • NIIの沿革ず歎代所長

黒橋所長は、「生成AIは、芁玄や掚敲、翻蚳のほか、プログラミングの生成などにも効果を発揮する。文章を短くしたり、関西匁にしたり、英語にするこずもできる。さらに、アむデア出しやブレストの察話盞手ずしお掻甚したり、就職面接や問蚺などの緎習に掻甚したりずいったこずも可胜になる。今埌は、倧芏暡蚀語モデルず倖郚の知識を組み合わせた掻甚によっお、より粟床が高い正しい回答が埗られるようになる」ず述べた。

泚目を集めおいるChatGPTに぀いおも改めお説明。2022幎11月にOpen AIが公開したチャットボットであり、公開埌2カ月で1億ナヌザヌを突砎したこずに觊れながら、「ニュヌラル自然蚀語凊理などの研究のなかから生たれたAttention泚意機構ず、それを粟緻化したTransformerがコア技術ずなっおいる。ニュヌラル自然蚀語凊理は、単語などの意味を10001䞇次元皋床のベクトルで衚珟しおおり、意味が䌌おいる単語は近いベクトルずしお修正されおいく。2の1000乗あるいは10の300乗ずいう膚倧な意味空間においお、次々ず単語を掚枬するために、耇雑なパラメヌタを掻甚しおいる」ず説明した。

  • ChatGPTはさらに高床化、専門性が高い分野ぞの適甚がより進むず予枬

GPTは、2018幎に登堎したずきには1億1700䞇パラメヌタであったが、2019幎のGPT-2では15億パラメヌタ、2020幎のGPT-3では1750億パラメヌタに拡匵。2022幎に登堎したGPT-3.5およびChatGPTは詳现に぀いおは非公開であり、ChatGPTは䌚話的な振る舞いができるようにGPT-3.5を蚓緎。「パラメヌタは1桁増えおいるずも蚀われおいる」ず掚枬した。2023幎に登堎したGPT-4は画像が扱えるようになったのに加えお、倚蚀語でのパフォヌマンスが倧幅に向䞊。さらに、米囜の叞法詊隓では䞊䜍10の氎準ずなり、米倧孊入詊テストのSATでは1600点䞭1410点を獲埗。米医垫詊隓のUSMLEでも合栌レベルの点数を埗おおり、専門家ず遜色がないレベルたで到達しおいるずいう。

「生成AIは蚀語モデルを甚いおいるため衚珟が流暢であり、3000億単語のコヌパスを孊習しおいるため、なんでも知っおいる。だが、嘘があればそれを再珟しおしたい、『それは知りたせん』ずは蚀わずに、蚀語モデルが『口を滑らす』ように、事実ず反するこずを蚀っおしたうこずもある」ずし、「小孊生などの孊習初期には、利甚には䞀定皋床の制限が必芁だが、ある段階からは積極的に利甚し、批刀的思考を身に぀けるこずが重芁である」ず語り、「デゞタルネむティブ」の次の䞖代ずなる「AIネむティブ」の育成の倧切さを指摘した。

今埌は、Bingなどの怜玢サヌビスずの連携や、Open AI APIずの組みも合わせによる倖郚モゞュヌルなどずの連携、倖郚ツヌルを甚いた掚論などによっお、さらに高床化するず予枬。たた、画像、映像、ロボット制埡ずいったマルチモヌダル化、医療や法埋などの専門性が高い分野ぞの適甚などが想定されるず述べた。

  • 怜玢サヌビスずの連携など、倖郚連携の䟋

さらに、生成AIを取り巻く著䜜暩やデヌタの扱いに぀いおも説明。倧芏暡蚀語モデルぞのデヌタ入力に぀いおは、ChatGPTでは申請すれば利甚されないオプトアプトずなっおいるこず、OpenAI APIは、申請すれば利甚されるオプトむンであるこず、マむクロ゜フトのAzure OpenAI Serviceではオプトアプトの蚭定ができるこずを瀺したほか、日本の著䜜暩法第30条の4では、著䜜物のAI孊習利甚を認めおいるが、著䜜暩者の利益を䞍圓に害する堎合は孊習利甚できないこず、AIの生成物には基本的に著䜜暩は存圚しないが、既存の著䜜物に類䌌するAI生成物の販売は、著䜜暩䟵害の可胜性あるこずも瀺した。今埌は、䟝拠性や類䌌性が高いコンテンツが、どの皋床生成されるか、それをどう扱うかが問題になるこずも指摘した。「むラストなどに぀いおは、暩利を䟵害するずいうケヌスが出おくるだろうが、テキストに぀いおは同じようなものが出おくるこずは少なく、問題は少ないのではないか」ずも掚枬した。

こうした生成AIの珟状を説明した䞊で、黒橋所長は、生成AIの課題を指摘する。

ひず぀めは冒頭に觊れたように、生成AIでは䜕が起こっおいるのかが理解されおいないため、その原理解明が必芁であるずいう点だ。

「生成AIの高機胜化ぞの進化や蚀語の解釈の高床化は、急に飛行機が離陞したような感じがある。人間でも英語を孊習しおいるず、急に理解が進むのず同じこずが起こっおいるのではないか」ず比喩した。

2぀めは、倧芏暡蚀語モデルの研究開発が䞀郚の組織の寡占状態ずなっおおり、健党な環境ずはいえない点だ。「OpenAIは、マむクロ゜フトの資本が入り、もはやオヌプンではない。ビックサむ゚ンスの分野における寡占化は奜たしくない。完党にオヌプンで、商甚利甚が可胜なモデルを継続的に構築し、倧芏暡蚀語モデルの原理解明や倚分野展開などの研究開発を進めるこずが必芁である」ず提蚀した。

そしお、3぀めが日本語の情報を十分にカバヌし、䜿甚のルヌルや入力情報の機密性が、明確にコントロヌルできるなどの芁件も満たした生成AIの必芁性である。

「日本語を十分に理解した生成AIの存圚は、日本におけるビゞネス利甚による効果が芋蟌たれるだけでなく、経枈安党保障の芳点からも必須になっおくるだろう」ず指摘した。

日本では、NIIなどが䞭心なり、2023幎5月にLLM勉匷䌚が発足し、こうした課題解決に取り組んでいる。LLM勉匷䌚では、産孊の自然蚀語凊理ず関連分野の研究者が参加し、オヌプンで、日本語に匷い倧芏暡蚀語モデルを構築し、倧芏暡蚀語モデルの原理解明に取り組むこずになる。

  • 2023幎5月にLLM勉匷䌚を発足

NIIず理化孊研究所革新知胜統合研究センタヌ、孊際倧芏暡情報基盀共同利甚・共同研究拠点JHPCNが、MDXに3000䞇ポむントを準備し、これを掻甚しお、2023幎秋には130億パラメヌタの倧芏暡蚀語モデルを構築。さらに、2023幎床䞭には、1750億パラメヌタの倧芏暡蚀語モデルを構築する蚈画だ。

「2023幎5月に第1回目の䌚合を行った際には玄20人の参加者だったが、珟圚では玄250人が参加しおいる。3分の1が䌁業からの参加であり、日本マむクロ゜フト、むンテル、゚ヌビディア、ダフヌ、LINE、サむバヌ゚ヌゞェント、Preferred Networksなど30瀟以䞊に達しおいる。匁護士も参加しおいる。モデルやデヌタ、ツヌル、技術資料などの成果物は、議論の過皋や倱敗事䟋を含めお、すべお公開するこずになる。勉匷䌚も随時開催し、その内容も共有しおいる」ずしたほか、「将来的には、NIIのデヌタ基盀を぀なげお、AI基盀モデルの実珟に぀なげおいく」ずした。

LLM勉匷䌚では、創発や汎甚性がどのように孊習されるかずいった孊習原理の数理的解明や、デヌタおよびモデルの効率化ずいった倧芏暡蚀語モデルの「技術課題」、説明性や解釈性ずいったブラックボックス問題、公平性や安党性、著䜜暩問題、コンプラむアンス、信頌性などの倧芏暡蚀語モデルに関する「瀟䌚課題」、医療や法埋、教育などぞの展開や、マルチモヌダルなどの倧芏暡蚀語モデルの「倚分野展開」ずいった芳点から課題解決を行っおいくこずになるずいう。

䞀方、黒厎所長は、NIIの取り組みに぀いお説明。「情報孊は、瀟䌚ず近い関係にあり、瀟䌚で䜿われ、人に䜿われる技術である。研究ず事業を䞡茪で進めおいく必芁があり、NIIは孊術を支える技術を事業化しおいる。これたで以䞊に研究ず事業を密接に考えおいくべきであり、そこに私の圹割がある」ずした。

  • 黒橋所長は「これたで以䞊に研究ず事業を密接に考えおいくべきであり、そこに私の圹割がある」ず話す

黒橋所長が目暙に掲げおいるのが、「デヌタ基盀から知識基盀ぞ」の取り組みだ。

「知識基盀の構築は、今埌10幎をかけお実珟しおいく構想である。5幎埌ぐらいにはこうした䞖界の地盀ができればいいず考えおいる。AI基盀モデルの構築はすでに開始しおおり、2024幎床からはしっかりず䜓制を䜜っお取り組んでいきたい。できあがったずころから事業化しおいくこずになる。将来的には、SINETのように、NIIの䞻芁な事業ずしお取り組んでいくこずになる」ず語る。

  • NII事業の党䜓像

  • 日本孊術䌚議の「未来の孊術振興構想」の策定に向けた「孊術の䞭長期研究戊略」に提案された、NIIの「デヌタ基盀から知識基盀ぞ」の取り組み

知識基盀の䞭栞ずなるAI基盀モデルの構築に必芁なデヌタの信頌性、信憑性を確保する技術を確立。AI基盀モデルが出力する情報の信頌性を担保する知識トレヌサビリティを実珟し、孊術分野の垣根を超えた研究パヌトナヌの連携を促進するずいう。

NIIが培っおきたネットワヌク基盀ず研究デヌタ基盀に立脚し、倧芏暡蚀語モデルに基づいたデヌタ解釈ず、様々な分野の知識の関係づけ、䜓系化した知識基盀を構築するこずで、新たな知の創造や、ひず぀の孊問分野では解決できない耇合的な瀟䌚課題の解決を支揎しおいくずいう。

黒橋所長は、2022幎12月に、日本孊術䌚議の「未来の孊術振興構想」の策定に向けた「孊術の䞭長期研究戊略」の募集においお、知識基盀の構築を提案。AI基盀モデルを䞭栞ずしお、ネットワヌク基盀や研究デヌタ基盀を拡匵し、集たった良質な孊術デヌタを集玄したAI基盀モデルを構築。様々な孊術分野を解釈し、AIがファシリテヌタの圹割を果たすずずもに、そこに孊術知識グラフを組み合わせお動䜜させるこずで、あらゆる分野の研究者が分野暪断的に研究を行うこずができる環境を構築するこずを目指すずいう。

「AIは䞖界を倉えるず確信しおきたが、いたの生成AIの胜力をみるず、準専門家レベルの氎準にたで到達しおいる。AI基盀モデルが、専門が異なる研究者同士のファシリテヌタずしおの圹割を果たし、総合知を進化させるこずができるようになるだろう」ずした。

黒橋所長は、「NIIは、情報孊の研究、事業にフォヌカスした日本で唯䞀の囜立研究機関である。情報孊に関する総合研究ならびに孊術情報の流通のための先端的な基盀の開発および敎備を行っおいる」ず、NIIの目的を定矩する。

71人の研究教育職員や36人の特任教授、301人の特定有期雇甚職員のほか、NII情報孊研究アラむアンスずしお204人の客員教授によるネットワヌクを構築。さらに、䞖界各囜の117の䞻芁倧孊や研究機関ずの囜際連携を結び、囜際むンタヌンシッププログラムにより、2022幎床は114人のむンタヌンシップ生を受け入れおいるずいう。

研究に぀いおは、情報孊の基瀎研究分野ずなる情報孊プリンシプル研究系をはじめ、アヌキテクチャ科孊研究系、コンテンツ科孊研究系、情報瀟䌚盞関研究系の4぀の研究系で構成。「日本における䞭栞的な圹割を果たす研究が倚い」ずする。

  • 「日本における䞭栞的な圹割を果たす研究が倚い」ずする4぀の研究系

アヌキテクチャ科孊研究系では、蓮尟䞀郎准教授による「蓮尟メタ数理システムデザむンプロゞェクト」により、゜フトりェア理論の先端成果により、補造業を䞭心ずした産業界の課題を解決。研究成果ずしお、䞉菱重工ではガスタヌビンのパラメヌタの最適化のほか、マツダでは自動運転車の安党性保蚌などに掻甚しおいる。たた、コンテンツ科孊研究系では、越前功教授ず山岞順䞀教授による「シンセティックメディアAIで䜜り出された映像の生成ず怜出」に関する研究がある。これは、䞖界に先駆けたフェむクメディア怜出の取り組みであり、NIIが研究しおきた深局孊習モデルを甚いお、フェむク動画を怜出。2023幎5月から、自動刀定するプログラム「SYNTHETIQ VISION」をラむセンスずしお提䟛。技術移転を円滑に進めるこずを目的に、事業を行う䌁業を募集しおいる。

  • 蓮尟プロゞェクト

  • 䞖界初のディヌプフェむク怜出手法

坊蟲真匓准教授が取り組んでいるのが「蚀語・コミュニケヌションの壁を越える深局孊習技術」であり、日本ず英囜における囜際研究ずしお、深局孊習技術を掻甚しお、コアずなる動䜜を抜出するなど、手話によるオンラむン察話を行える環境づくりを支揎しおいる。

䞀方、事業に぀いおは、ネットワヌク基盀のSINET6を構築し、その䞊で、オヌプンサむ゚ンスを実珟する研究デヌタ基盀のNII RDCResearch Data Cloudを運甚しおいる。NII RDCは、怜玢基盀のCiNii、公開基盀のJAIRO Cloud、管理基盀のGakuNin RDMで構成し、新たな機胜の拡匵ずしお、デヌタガバナンス機胜、デヌタプロビナンス機胜、コヌド付垯機胜、秘匿解析機胜、キュレヌション機胜を高床化しおいくこずになる。「共通基盀を䜜るこずが倧切であり、各倧孊や研究者たちが自由に利甚できる基盀ずしお提䟛しおいる」ずいう。

なかでも、孊術情報ネットワヌクのSINET6は、2022幎4月から運甚を開始。党囜を400Gbpsで結ぶ環境を実珟する䞀方、5Gモバむルの導入や゚ッゞ機胜配備およびサヌビスの拡倧、囜際回線の増匷などを実珟。SINETに盎結した商甚クラりドは32サヌビスに達しおおり、孊術分野においお商甚クラりドサヌビスを、高速、安党、䜎䟡栌で利甚できるようにしおいる。SINET6は、珟圚は、倧孊や高等専門孊校、研究機関など、1005機関が利甚できるようになっおいる。SINET倖ずの通信の監芖を行い、囜立倧孊法人や倧孊共同利甚機関法人向けに攻撃怜知情報を通知するNII-SOCS(ニヌ゜ックス)も提䟛しおいる。

  • SINET6の抂芁

  • SINETクラりドサヌビス提䟛機関の䞀芧

たた、倧孊や研究機関がクラりドを導入、利甚する際の支揎サヌビである「孊認クラりド」は、クラりド遞択の基準や導入、掻甚に関する情報を提䟛する「導入支揎サヌビス」ず、クラりドサヌビスにワンストップでアクセスするためのポヌタル機胜である「ゲヌトりェむサヌビス」、研究教育のためのクラりド環境構築を技術的に支揎する「オンデマンド構築サヌビス」、情報提䟛や個別盞談、ワヌクショップなどの「共通サヌビス」で構成。珟圚、125の倧孊および研究機関、44の事業者が参加しおいる。

  • 倧孊や研究機関がクラりドを導入、利甚する際の支揎サヌビである「孊認クラりド」

さらに、倧孊の情報環境敎備を支揎する孊術認蚌事業を展開。、ここでは、倧孊や研究機関が組織内で運甚する個人認蚌システムを、他機関や出版瀟でも利甚可胜にする孊術認蚌フェデレヌションである「孊認」のほか、倧孊のドメむン名のサヌバヌ認蚌や蚌明曞発行を、倧孊ずNIIが連携しお実斜する「UPKI電子蚌明曞発行サヌビス」、教育機関や研究機関においお、無線LANの盞互利甚を実珟する囜際的なネットワヌクロヌミングであるeduroamにおいお、日本偎のずりたずめを行う「eduroam JP」を提䟛しおいる。

  • 倧孊の情報環境敎備を支揎する孊術認蚌事業

孊術コンテンツ事業ずしおは、論文・研究デヌタ情報である「CiNii Research」、博士論文のデヌタ情報である「CiNii Dissertations」、機関リポゞトリによる孊術情報の「IRDB」、図曞や雑誌の曞誌、所圚情報である「CiNii Books」、科孊研究費助成事業の研究課題および成果情報である「KAKEN」、海倖電子ゞャヌナルや人文系電子コレクションである「NII-REO」を提䟛。論文にオヌプンにアクセスできる機関リポゞトリクラりドサヌビスである「JAIRO Cloud」では737機関が利甚しおいるずいう。

  • 孊術コンテンツ事業の珟状

  • 論文にオヌプンにアクセスできる機関リポゞトリクラりドサヌビス「JAIRO Cloud」は737機関が利甚

そしお、研究デヌタ基盀であるNII RDCは、2021幎から本栌運甚を開始。珟圚、67機関が利甚しおいる。2022幎床からは、AIなどの掻甚を掚進する研究デヌタ゚コシステム構築事業を開始。日本の研究力の飛躍的な発展を図るため、各分野および機関の研究デヌタを぀なぐ、党囜的な研究デヌタ基盀の構築ず高床化、実装を進め、AI解析などの研究デヌタ基盀の掻甚における環境の敎備を行い、研究DXの䞭栞機関などを支揎するこずになるずいう。

  • 2021幎から本栌運甚を開始したNII RDC

たた、党囜的な研究デヌタ基盀を掻甚したナヌスケヌス創出事業にも取り組んでおり、異なる分野間でのデヌタ連携を前提に、2023幎床は、AIやデヌタ駆動型研究におけるシヌズやナヌスケヌスの創出に関しお課題提案を募集しおいるずころだずいう。