アマゾンウェブサービスジャパンは4月20日と21日に、AWS(Amazon Web Services)について学ぶための年次イベント「AWS Summit Tokyo」を幕張メッセ(千葉県 千葉市)にて開催中だ。2020年の開催以来、新型コロナウイルス感染症の影響を受けて2021年および2022年もオンライン開催となり、リアル会場での開催は実に4年ぶりとなる。
同イベントでは、業種・業界別にさまざまな企業がAWSの活用事例を紹介する事例セッションを設けている。本稿ではその中から、複合機をはじめOA(Office Automation)機器に強みを持つリコーが取り組んだ、「大規模言語AIモデルを活用した顧客価値創造」について紹介したい。
なぜ、ものづくり企業リコーがAI開発?
リコーといえば、複合機などオフィス空間を支えるOA機器の開発とその販売網に強みを持つ。その他、360度カメラ「RICOH THETA」シリーズやPENTAXブランドを展開するなど、ものづくり企業としての印象が強い。
しかし、最近の同社は単なるOA機器メーカーからの脱却を図っており、デジタルサービスを提供する企業への変革を狙っている。これまでに培った製造業のノウハウや技術を生かしながら、デジタルデータを活用して人が働く環境を支えるという。
プリンタやカメラを用いたデジタルサービスは、実は画像認識のようなAIと相性が良い。また、従前のオフィス環境にとどまらず、リモートワークやWeb会議が増える現代の労働環境を支援するためには、音声認識AIなども重要だ。電子帳簿保存法への対応や帳票の仕分けにおいては、自然言語処理AIが役立つ。このように、リコーが事業を展開する「人が働く環境」では、AIを活用できる機会が多い。
第三次AIブームの火付け役ともなった「ディープラーニング」技術を同社が採用したサービス開発は、2015年ころの画像AIを搭載した外観検査向けAIにさかのぼる。以来、時系列データを扱う振動解析AIや、テキストデータを扱う自然言語処理AIを搭載した各種サービスを展開している。
2021年には、文書や画像、音声などの各種データを自然言語処理AIで分析することで業務の効率化を支援する「仕事のAI」の提供を開始した。同サービスはコールセンターなどに集まるVOC(Voice Of Customer:顧客の声)を分類し、その分析業務や顧客対応の効率化を支援する。
このサービスでは、BERT(Bidirectional Encoder Representations from Transformers)モデルの自然言語処理AIを、リコーのクラウド基盤である「RSI(Ricoh Smart Integration)」上で提供している。構築には「Amazon SageMaker Serverless Inference」を採用した。当時はBERTレベルでも大規模言語モデルと言われていたが、ランニングコストを抑えつつ高可用性を実現できたという。
現在同社では、迅速なAI開発と社外へのデータ持ち出しに伴う懸念を解消するためのサービスとして、AI開発プラットフォームを手掛けている。このプラットフォームはユーザー自身がAI開発を自走可能な状況にすることを目的としており、データ分析からAIモデルの開発、サービスへの導入まで、クラウド上で完結できる開発キットを提供する。
AWSの技術を利用してリコーがAI開発を加速
BERT以前の自然言語処理AIは、精度向上のための教師データが必要だった。しかし驚くべきことに、GPT-3以降のGPT系のモデルは教師データを用いた追加学習が不要だ。また、チャットボット型のインタフェースに対応できるうえ、これまでよりも簡単なシナリオとプロンプトで指示を出せるようになっている。
GPT-3以降のモデルの登場を受けて、リコーはプロンプトを用いて操作可能な、業務に適合するAIモデルの提供を目指す。また、同社のAI開発プラットフォームにBERTだけでなくGPT系のモデルも適用し、ユーザー自身がAI開発を自走できるような環境を提供するとのことだ。
同社がGPT-3を搭載したサービス開発に着手したのは2022年初頭のころだ。当時は半導体をはじめ世界的な部品不足が相次ぎ、GPUが手に入りにくい状況だった。また、同社にとってGPT-3クラスの大規模なAIエンジニアリングは未体験だったという。そこで、AWSの開発支援プログラムを利用した。
まずは、AIモデルの開発に必要な「Amazon EC2 P4d インスタンス」の上限緩和申請によりすぐに利用可能となったため、多量のGPUインスタンスを確保できた。AIエンジニアリングについては、Amazon SageMakerをベースとして分散学習環境を構築している。さらに、Amazon Machine Learning Solutions Labによる実装レベルでの支援も受けられたようだ。結果的に、約3カ月間でAIエンジニアリングを終えGPT-3世代のAIモデルを開発できたという。
リコーは現在、音声認識や発話、CGなどの技術を組み合わせたAIアシスタントの開発を進めている。これは、より簡単なAIの活用を実現するためのデジタルヒューマンの提供に資する取り組みだという。このデジタルヒューマンは搭載したインタラクティブサイネージや、メタバース空間内での自動接客などで活用が見込める。
デジタルヒューマンは自然言語処理にGPT-3レベルのモデルを利用するほか、CGや音声認識技術など、膨大なリソースが必要となる。また、デバイスを問わずに利用できるようにするために、ゲーム業界由来の技術「Pixel Streaming」を活用する。演算処理をサーバ側で実行し、ブラウザから閲覧する仕組みとなるが、AWSのプロトタイピングサービスを活用して短期間での開発を実現しているそうだ。
同社は今後について、RLHF(Reinforcement Learning from Human Feedback)やプロンプトエンジニアリングの開発リソース拡大などを通じて、より高度なAIの開発に取り組むとしている。また、GPT-3以降のモデルを活用したAI開発・運用環境を提供する方針だ。
さらに、GPT-3以降のAIの顧客への提供に向けて、AWS TrainiumやAWS Inferentiaなどの深層学習用のチップの適用を検討しているという。AWS Trainiumを搭載したTrn1インスタンスによる学習コストの削減および時間の短縮を狙うそうだ。このインスタンスは従来の学習コストを半減し得る性能が期待できるとのこと。
リコーのデジタル技術開発センター長を務める梅津良昭氏は「従来は1億円かかっていたプロジェクトが5000万円に、5000万円のプロジェクトが2500万円になれば、企業内の決裁権限が1-2つくらい変わるほどのインパクトがあるはず。さまざまな企業のデジタルトランスフォーメーションに貢献できるようにデジタルサービスの開発に注力する」と展望を語っていた。