先日、日本IBMは米ニューヨーク州Poughkeepsie(ポキプシー)において今年4月に発表された「IBM z17」に関するプレスツアーを開催した。z17にはプロセッサとして「IBM Telum Ⅱ」内蔵の第2世代のオンチップAIアクセラレーター、PCIeカードを介して利用する「Spyre」でAI推論が強化されている。本稿ではTelum Ⅱと、SpyreについてIBM Fellow, CTO, AI on IBM Z and Linux OneのElpida Tzortzatos氏の話を紹介する。

あらゆるAIユースケースに最適な計算能力を提供する2種類のAIアクセラレーター

冒頭、Tzortzatos氏は「世界の取引価値の70%以上がIBM Z上で処理されており、世界中の主要銀行、証券取引所、国際的なクレジットカード会社、医療保険や損害保険業界、さらには政府機関などがIBM ZのAI機能を活用し、特に高価値なトランザクション処理においてリアルタイムでAIを組み込む能力を求めています。これはお客さまにとって極めて重要です」と話す。

  • IBM Fellow, CTO, AI on IBM Z and Linux OneのElpida Tzortzatos氏

    IBM Fellow, CTO, AI on IBM Z and Linux OneのElpida Tzortzatos氏

同氏によると、AIを設計する際は最適化だけでなく、高いセキュリティが求められ、その点でIBM Zは世界でも信頼性が高く、安全なプラットフォームの1つであることに加え、厳格な応答時間と高スループットを実現する必要があると指摘。例えば、クレジットカード会社はリアルタイムでAIを取り引きに組み込みたいと考えており、その応答時間は通常、数ミリ秒単位で求められているという。

また、同氏はIBM Research ディレクターのダリオ・ギル氏の「AIの価値を創出し提供する中心にあるのはAIインフラである」との言葉を引用し、データがAIの燃料だとすれば、AIインフラはエンジンであり、多くの企業がAIの取り組みを成功に導くことができるとの見方を示す。

Tzortzatos氏は「企業が下す最も重要な決定の1つは、AIワークロードに適したインフラを選ぶことです。AIにおいて『One size fits all』(一律対応)は存在しません。IBM Zは現在、2種類のAIアクセラレーターに投資しています。1つはTelum IIプロセッサに統合されたオンチップAIアクセラレーター、もう1つはPCIe接続の専用AIカードであるSpyreです。これにより、あらゆるAIユースケースに最適な計算能力を提供します」と話す。

IBMの調査によると、ITエグゼクティブの79%が「AIをデータと同じ場所で実行できることが戦略上重要」と回答し、ZおよびメインフレームはAI戦略における重要な要素であると認識されているという。

AIには大きく「予測AI」(Predictive AI)と「生成AI」(Generative AI)があり、IBMが提供するエンタープライズ対応のAIインフラは幅広いユースケースをサポートしている。言わずもがなだが、予測AIは構造化データや数値データを理解し、異常検知、パターン認識、リスクスコアリング、需要予測、不正検知などに活用される。

生成AIは文書要約、コード生成、自動化スクリプト作成、アシスタントやエージェント機能に適しており、企業でのAI活用の幅が広がる。

  • 「予測AI」(Predictive AI)と「生成AI」(Generative AI)の適用範囲

    「予測AI」(Predictive AI)と「生成AI」(Generative AI)の適用範囲

重要なポイントとして同氏は「予測AIは今後も消えることはなく、生成AIとともに企業において重要な役割を果たします。最近のトレンドとしては、これら2つを組み合わせた複数モデルのAI(Multiple Model AI)が台頭し、例えばマネーロンダリング対策や不正検知では、構造化データに強い予測AIモデルと非構造化テキストに強いLLM(大規模言語モデル)を組み合わせることで、堅牢かつ効率的なAIシステムを構築しています」という。

Telum IIとSpyreがもたらすAI性能の強化

こうした状況をふまえ、同氏はTelum IIとSpyreの役割について話を移した。Telum IIプロセッサは8コア、5.5GHz、z16のプロセッサと比較してキャッシュメモリは40%増、24 TOPS(Tera Operations Per Second)のオンチップAIアクセラレーターを搭載。低レイテンシでリアルタイム推論を実現し、クレジットカード取引などのミリ秒単位の応答が求められるユースケースに適している。

一方、Spyreアクセラレーターは、32コア、PCIe接続、300+ TOPSの性能を持ち、生成AIやLLMなど複雑なAIモデルに対応し、セキュリティ、データ主権、電力効率を重視しており、オンプレミスでの安全なAI展開を可能にする。なお、7月に発表した最新のサーバ「Power11」でも2025年第4四半期にSpyreアクセラレーターの提供開始を予定している。

Tzortzatos氏は「両者を組み合わせることで、エンタープライズ向けの包括的なAI基盤を提供し、リアルタイムの不正検知やAML(アンチマネーロンダリング)など高度なユースケースをサポートします。Celentの試算では、これにより年間1900億ドルの不正損失削減が可能になるとされています」と、そのメリットを強調する。

IBM ZにおけるAI戦略の観点から、IBMではシリコンレベルから包括的なアプローチを取っており、ハードウェアアクセラレーションへの投資だけでなく、その上に堅牢なAIエコシステムを構築するための大規模な投資も行っている。

IBMのAIポートフォリオの強みを結集して「IBM watsonx.ai」や「同watsonx.governance」といった製品を統合し、さらにはオープンソースのAIエコシステムやツール群も積極的に取り入れている。同社の戦略は「Business Insights」(ビジネスインサイト)と「Intelligent Infrastructure」(インテリジェントインフラストラクチャ)の2つの主要な柱にもとづいている。

1. Business Insights
顧客がAIを簡単にトランザクションやアプリケーション、コアビジネスワークロードに組み込み、効率的に自動化し、安全な環境でスケールできるインフラを提供することを重要視。IBM ZのAIポートフォリオには、例えば「Machine Learning for z/OS」は世界中の銀行アプリケーション向けに設計された、エンドツーエンドのAIライフサイクルを管理するAIフレームワーク兼製品。銀行業界に加え、小売業、製造業、政府機関など幅広い分野の顧客に対応している。また「Db2 with SQL Data Insights」はトランザクションデータ、顧客データ、医療データ、PII(個人識別情報)など、機密性の高いデータを格納する主要データベースであり、ニューラルネットワークによるインテリジェンスが組み込まれ、データを自動的に学習して意味的なベクトルテーブルを生成する。これにより、類似検索、非類似検索、クラスタリング、アナロジー検索などを簡単に実行でき、データサイエンスの専門知識は不要でシンプルなSQLクエリを発行するだけで利用可能。

2. Intelligent Infrastructure
AIを活用してリアルタイムの価値を提供することに重点を置く。一例として「Watson Assistant for Z」はITシステムを迅速に管理し、SRE(サイト信頼性エンジニア)が日常的に行う多くのタスクを自動化するための製品で、エージェント型AIの機能が追加されている。さらに「Watson Code Assistant」は、メインフレームアプリケーションのモダナイゼーションを支援するプラットフォームで、AIとエージェントをz/OSに組み込み、インストール、設定、管理、リソース最適化を簡素化・自動化。また、データプライバシーとセキュリティの分野では、AIを活用して機密データやPIIを自動検出し、脅威を検知する取り組みを進めている。「IBM Concert for Z」は、AIを活用して平均復旧時間(MTTR)を短縮して問題解決を迅速化し、ITシステムのレジリエンスを強化している。

  • IBMのAI戦略は2つの主要な柱にもとづく

    IBMのAI戦略は2つの主要な柱にもとづく

このような戦略をベースとしつつ、IBM z17とAIの進化についてTzortzatos氏は以下のように話す。

「IBM z16でオンチップAIアクセラレーターを搭載し、AIの取り組みを開始しました。z17ではAIアクセラレーター機能をさらに強化しています。特に、LLMや生成AIに対応するための投資を進めています。推論や予測AIは多くの顧客にとって非常に重要です。その後、製品にLLMを活用する機能を追加し、現在では多くの製品にエージェント型AIを組み込んでいます。これにより、システム管理を自動化してリソース使用を最適化できることに加え、IBM Z上で独自のエージェントを構築するとともにビジネスプロセスや業務タスクを自動化し、顧客体験を向上させるためのインフラも提供しています」(Tzortzatos氏)

予測AIと生成AIの役割とユースケース

そして同氏は、なぜIBMが2種類のアクセラレーターに投資し、それを必要としているのか?と問いかけた。同氏が上記で言及したように、AIモデルには異なる特性と計算要件があり、予測AIモデルは構造化データや数値データの処理に優れている一方で、LLMは非構造化テキストデータの理解に優れているが、違いはそれだけではないという。

と言うのも、例えば店舗でクレジットカードを使って購入する際、その裏側ではトランザクションがZサーバを通過し、銀行はその取引が不正でないことを確認する必要がある。この処理はZ上で行われ、応答時間は速くなければならない。このような不正検知のユースケースでは予測AIモデルが多用され、LLMに比べて小さく、計算要件、応答時間も異なる。

予測AIではミリ秒単位の応答が求められるが、LLMでは出力は“1秒あたりのトークン数”で測定される。したがって、アプリケーションが予測AIモデルを呼び出して不正検知やマネーロンダリング対策を行う場合、オンチップAIアクセラレーターで効率的に処理できる。

さらに、予測AIモデルの利点は、推論に必要なデータをモデルに送信する際、アプリケーションが動作している場所からPCIe接続のメモリまでデータを移動させる必要がない。そのため、オンチップアクセラレーターはホストとメモリおよびレベル4(L4)キャッシュを共有することから、ホストメモリからPCIe接続のアクセラレーターメモリにデータを移動するオーバーヘッドが発生しない。

つまり、予測AIモデルはオンチップアクセラレーターで効率的に処理され、低レイテンシかつ高スループットに最適化されているというわけだ。これにより、支払いトランザクション、即時決済、基幹決済、クレジットカード取引、デビットカード取引など、1秒間に多数のトランザクションを処理できる。

一方、LLMは予測AIモデルよりも大きく、パラメータ数は数十億から数兆に及ぶ。また、必要な計算量も多いことから、ホストメモリからPCIe接続カードのメモリにデータを移動するオーバーヘッドは、必要な計算量に比べれば小さいという。それゆえ、PCIe接続のアクセラレーターは、LLMや生成AIモデルを処理するための目的適合型アーキテクチャとなる。

Tzortzatos氏は「顧客が予測AI、複数モデルAI、LLMといった幅広いAIユースケースを最適かつ、スケーラブルに実行できるエンタープライズAIインフラを提供することを目指しました。予測型AIのユースケースは、Telum IおよびIIでうまく処理できます。Telum IIではオンチップアクセラレーターを強化し、予測AIモデルだけでなく、10億パラメータ未満の小規模なLLMも処理できます。数十億パラメータ規模以上のLLMについては、PCIe接続のSpyreアクセラレーターが適しています」と力を込める。

  • Telum IIは予測AIや小規模なLLM、Spyreは数十億パラメータ規模以上のLLMに適している

    Telum IIは予測AIや小規模なLLM、Spyreは数十億パラメータ規模以上のLLMに適している

そして、同氏は以下のように実際のユースケースを紹介した。

  • 高度な不正検知
    トランザクションデータに対して予測AIを活用し、さらにLLMで類似トランザクションをクラスタリングし、より堅牢で正確な結果を得ている。

  • マネーロンダリング対策
    予測AIモデルとLLMを組み合わせる複数モデル手法を活用し、偽陽性を減らして真の陽性率を高めている。偽陽性が多いと、銀行は誤ったアラートを調査するために大きな負担を抱えるため、リアルタイムで違法な取引を検出することが重要とのこと。

  • 保険金請求処理
    IBM Zにあるポリシー情報(免責額、住所など)と、請求書のテキスト記述を組み合わせ、LLMを使い、請求の説明文から「被害の原因(洪水、放火、山火事など)」や「緊急度」といった重要な情報を抽出。これらの非構造化データから得た特徴量を、構造化データ(免責額、損害額など)と組み合わせ、予測AIモデルに入力することで、より正確な予測を実現。

  • 調達・サプライチェーン・リスク管理
    契約書の潜在的なリスクや価格の不一致を検出するために、複数モデルAIを活用している。

IBMのAIエコシステムとオープン戦略

IBMの優位点としては、シリコンやハードウェアアクセラレーションへの投資だけでなく、堅牢なAIエコシステムの構築にも注力していることを挙げている。

同氏は「オンチップアクセラレーターについては、顧客がIBM Z上でモデルを開発する場合でも、分散環境やハイパースケーラー(AWS、Google Cloud、Microsoft Azureなど)のプラットフォーム上で開発する場合でも、例えばPyTorchで開発したモデルをIBM Z上にそのままデプロイが可能です。なぜなら、IBMの製品だけでなく、TensorFlowやPyTorchといった人気のAIフレームワークやツールをサポートし、シームレスかつ透過的にハードウェアアクセラレーターを活用できるようにしているからです」と述べている。

IBMのハードウェアはトレーニングではなく、推論に最適化されている。その理由は多くの企業が「モデルのトレーニング後、エンタープライズワークロードにデプロイする際のスケーリング」が最大の課題だからだという。

今後、Spyreはファインチューニング機能の有効化を予定。Tzortzatos氏は「Spyreカードの消費電力は、わずか75Wです。顧客が最も重視しているのは『最適化された推論』であり、ファインチューニングに関しては業界最高性能ではなく、許容可能な性能を求めています。75Wのカードであれば、ファインチューニングやトレーニングにおいても許容可能な性能を提供できますが、私たちの最適化の焦点は“推論”です。AIモデルを持続可能かつ電力効率の高い方法でデプロイすることに重点を置いています。これは、顧客が直面している最大の課題だからです」と話す。

加えて、IBM Zはオープンソースフレームワーク、オープンスタンダード、オープンモデルをサポートし、例えばAIモデルを表現するためのオープンスタンダードであり、ONNX(Open Neural Network Exchange)を最適化された方法でサポート。顧客がオープンモデル、オープンスタンダード、オープンソースのフレームワークやツールを利用しつつ、IBM Zのハードウェアアクセラレーションをシームレスに活用できるようにしているという。

  • Telum IIとSpyreはオープン性も重視している

    Telum IIとSpyreはオープン性も重視している

Telum IIとSpyreを軸に進化するIBM z17は、AIを企業の中核に据えるための信頼性と拡張性を兼ね備えた基盤だ。予測AIから生成AIまで包括的に支えるプラットフォームとして存在感を強めており、AIによる企業変革の屋台骨として今後も注目したい。