AWS、4つのレイヤーから成るAIサービスについて説明 - FM和歌山が「Polly」を用いた放送開始

アマゾンウェブサービスジャパンは7月31日、アマゾンウェブサービス(AWS)が提供するAI(機械学習)サービスについての記者説明会を開催した。

説明会では、同社技術統括本部本部長岡嵜禎氏が、さまざまなAWSの機械学習サービスについて広く解説した。同社は、「インフラ」「フレームワーク」「プラットフォーム」「サービス」という4つのレイヤーから機械学習サービスを構成しており、岡嵜氏がこれらのサービスについて「機械学習を手軽に利用してみたい層からヘビーに使いたい層までをカバーしている」と説明するように、ビジネスやユーザーの状況にあわせてサービスを選択することが可能だ。下記では、各サービスについて詳細に見ていきたい。

AWSの機械学習サービスは、インフラ、フレームワーク、プラットフォーム、サービスという4つのレイヤーから構成

「サービス」レイヤー

手軽に機械学習機能を使いたいユーザーに向けた最上層である「サービス」レイヤーには、テキストを音声に変換するサービス「Amazon Polly(Polly)」、画像および顔認識サービス「Amazon Rekognition(Rekognition)」、自動音声認識機能や自然言語理解機能を備えた会話型チャットボット構築サービス「Amazon Lex(Lex)」がある。

これらのサービスはすべて、AWSが提供する深層学習モデルをAPIで簡単に利用できるマネージドサービスであり、独自の機械学習モデルの訓練や開発を行わずに利用することができる。そのため、使用を開始するにあたって、人工知能や深層学習に関する事前知識はほとんど必要ないといえる。

Polly

Pollyは、テキストをリアルな音声に変換するサービスで、人間のような音声で話すことができるアプリケーションを作成することが可能。現在、24の言語で47の声優の音声が提供されている。価格は従量課金制で、100万文字当たり4.0米ドル。Pollyが生成した音声をファイルに保存しておけば、追加料金なしで再利用できる。

国内ではコミュニティFMを放送しているエフエム和歌山がすでに導入しており、Pollyで生成した音声を利用したニュース配信を行っている。具体的には、読売新聞社などからの情報をPolly用に自動整形した後、データベース化し、サーバに保存。社内の放送用PCでサーバから原稿を取り出し、PollyのAPIにアクセスして音声を再生しているという。

地方局ではアナウンサーを確保するのが難しく、災害情報など緊急ニュースを配信する際には人出不足が問題となっているが、Pollyを利用することで、深夜や早朝であってもタイムリーに最新の情報を音声で発信していけることがPolly採用のポイントであったという。

「Amazon Polly」の概要。4月19日にはリップシンクのためのスピーチマーク機能やささやき声の発声機能が追加された

Rekognition

Rekognitionは、深層学習に基づいた画像認識機能をアプリケーションに簡単に実装できるようにするサービスで、画像内の物体やシーン、顔の検出、有名人の認識、不適切なコンテンツの識別が可能となっている。Amazon S3やAmazon Redshift、AWS Lambdaなどと組み合わせることで、アプリケーションに新しい付加価値のある追加機能を作ることができるのが特徴。説明会では国内の事例として、写真サービス「はいチーズ!」を提供する千の取り組みが紹介された。

「はいチーズ!」は、幼稚園、保育園の行事などで撮影された写真をインターネット上で購入できるというもの。同サービスにおいて、カメラマンは園児1人ひとりにフォーカスを合わせた写真を撮るが、大規模な園では200人程度もの園児数になることがあり、ユーザーである家族が実際に写真を購入するにあたっては、大量のデータから自分の子どもの写真を探す必要があった。

この課題解決に向け、顔写真をアップロードすることで同一人物が映った写真を簡単に探せる顔検索機能を実装しようと考えた時に、Rekognitionは、精度やコスト、スピード感の面で魅力的だったという。また、同社のインフラは全面的にAWSを採用していたため、既存の環境と親和性が高かったというのも決め手となった。

Rekognitionの利用価格は、1カ月あたり画像処理100万枚までで1000枚あたり1.00米ドル、100万枚～1000万枚で0.80米ドル、1000万枚～1億枚で0.60米ドル、1億枚超で0.40米ドル。画像処理枚数が増えるほど低価格で利用できる(各APIで1枚以上の入力画像を受信した場合に、画像処理1枚としてカウントされる)。

Amazon Rekognition

Lex

Lexは、自動音声認識と自然言語理解の機能を通じて対話型インタフェースをアプリケーションに構築できるサービス。AWS LambdaやAmazon Cognito、Amazon DynamoDBなどと統合が可能だ。SlackやFacebookなどのモバイルアプリとの連携もできるため、例えば、Facebookページでホテルを予約するようなサービスを作成することもできる。

Facebookページでホテルの予約を行うサービスのデモンストレーション。場所や日にち、泊まりたい部屋の種類などを対話形式で入力していくことで、ホテルを予約することができる

残念ながら現時点で日本語は未対応だが、AWSとしては実現に向けて進めていきたいとしている。価格は従量課金制となっており、音声リクエストで1件あたり0.004米ドル、テキストリクエストで1件あたり0.00075米ドルとなっている。

Amazon Lex

「プラットフォーム」レイヤー

「プラットフォーム」レイヤーは、既存のデータを使用してカスタムの推測モデルを構築したいユーザーが対象となる。同レイヤーにおいて最も簡易的に使えるサービスがAmazon Machine Learningだ。テストデータ分割や評価手法、予測APIの提供などが組み込まれており、機械学習に関する深いスキルや専門知識がなくても、独自のデータを使用してカスタムの機械学習モデルを訓練することができる。

Amazon Machine Learning

一方、Amazon EMRではフルマネージドなHadoopを提供。クラスタの構築から構成変更、破棄まで管理することができる。またApache Sparkや、Mahout、Flinkといった他の一般的なフレームワークを実行することや、Amazon S3やAmazon DynamoDBといった他のAWSデータストア内でデータを操作することもできる。

Amazon EMR

「フレームワーク」レイヤー

高度で最先端のAIシステムを構築したいユーザーに対しては、Apache MXNet、TensorFlow、Caffe、Theano、Torch、Keras、CNTKといった主要なフレームワークをAWS上で利用できるよう、要望があればサポートしていくという形をとる。これが「フレームワーク」レイヤーとなる。特にMXNetについては、オープンソースでありAWS社員もコミッターとして活躍していること、Amazonが会社として全面的に活用しているフレームワークであること、スケーラビリティに優れていることなどから、全面サポートを行うという。

AWSではMXNetを全面サポート

またAmazon LinuxとUbuntuで利用できるAWS Deep Learning AMIでは、上記すべてのフレームワークがプレインストールされており、Amazon EC2上で簡単に実行できるような仕組みを提供している。

AWS Deep Learning AMIでは各種パッケージを手軽に利用することができる

「インフラ」レイヤー

「インフラ」として、高性能コンピューティング向けのスケーラブルなGPUインスタンスであるAmazon EC2 P2インスタンスが提供されている。Amazon EC2 P2インスタンスでは、NVIDIA Tesla K80を最大16個搭載可能であり、深層学習のモデル構築にかかる時間を大幅に短縮することができる。この他、FPGAによる高性能演算を実施可能なF1インスタンス、インテルのXeon“Skylake”プロセッサをベースとしたC5インスタンスなど、さまざまなインスタンスタイプがAmazon EC2に用意されている。

　　　　　　　　　　　　　　　　　　　　＊　＊　＊

国内ではNTTドコモや日経新聞、海外ではNetflixやPinterestなど、すでに多くのユーザーがAIや機械学習の技術を活用したサービスをAWS上で稼働させている。今後も、さまざまなサービスにおいて活用が拡大されていくことであろう。