IBMはCool Chips 25においてTelumプロセサを発表した。そして、Telumプロセサはz16メインフレームのCPUとして使われているという関係になっている。

メインフレームは大企業の中心となる業務処理を行うために開発されるプロセサで、故障やアタックに耐える能力が高い設計になっていることが特徴である。しかし、このようなシステムの開発は手間が掛かる割には売れず、遂に富士通もメインフレームの開発を止めると宣言した。しかし、IBMは世界のメインフレーム市場を事実上独占することで利益を上げてメインフレームの開発を継続しており、z16はIBMの最新のメインフレームである。

Telumプロセサは性能の向上とスケーラビリティーの改善が大きな眼目で、今回はAI推論エンジンを内蔵する点とresilienceとsecurityの改善が新しい点である。

  • IBM z16メインフレームの心臓はTelumプロセサ

    図1 IBM z16メインフレームの心臓はTelumプロセサ。Telumプロセサはエンタープライズのワークロードに最適化し、リアルタイムのAI推論エンジンを内蔵した点が目新しい。メインフレームであるので、業界随一の抗堪性とセキュリティーを誇るプロセサである (このレポートのすべての図はCool Chips 25におけるIBMのTelumプロセサの発表スライドのコピーである)

TelumチップはSamsungの7nmプロセスで作られ、530mm2のチップに225億トランジスタを集積している。1チップに8コアを集積しており、2チップ(16コア)を搭載する16コアがモジュールという基本単位となる。そして8チップを収容するドロア(引き出し)という単位で実装される。

  • IBM z16メインフレームの心臓はTelumプロセサ

    図2 Telumプロセサ。左からシングルチップ(1チップ、8コア、256MBキャッシュ)、デュアルチップモジュール(2チップ、16コア、512MBキャッシュ)、4ソケットのドロアシステム(32チップ、256コア、8GBキャッシュ)と写真は無いが4ドロア、256コアのシステムまで拡張できる

IBMはメインフレームを作り続けてきており、過去の14世代のシステムで性能/電力を100倍以上改善して来た。今回のz16は、z15に比べて18%ほど性能/電力を改善しており、もう1つ前の世代のz14と比べると性能/電力を54%向上させている。

z16は各コアに専属の32MBのL2キャッシュを持っており、これはz15のL2キャッシュの4倍のメモリ量である。L2キャッシュは双方向のリングで接続されており、リングバスのバンド幅は~320GB/sとなっている。L2キャッシュのレーテンシは~2.9nsである。

そして、Telumプロセサには256MBの仮想L3キャッシュと2GBの仮想L4キャッシュが付いている。L3キャッシュのレーテンシは~12ns、L3キャッシュのレーテンシは~48nsである。

そして、7nmプロセスで作られるTelumプロセサの基本のクロック周波数は5.2GHzと業界トップレベルである。

  • IBM z16メインフレームの心臓はTelumプロセサ

    図3 エンタープライズの業務の処理性能。コア当たり32MBの個別L2キャッシュ、L2キャッシュのバンド幅は320GB/s、256MBの仮想L3キャッシュ、2GBの仮想L4キャッシュを持つ。クロックは5.2GHzと業界トップレベル

IBMのメインフレームは高い信頼性を持ち、トランザクションの処理能力が高いことを誇っており、visaやmastercadなどのクレジットカードによる購入のトランザクション処理の過半数がIBMメインフレームで処理されているとのことである。

z16はz15と比べて11%コア性能が高く、17%システム容量が増えている。そして、z16メインフレームは、暗号化されたトランザクション処理を1日250億件処理できる能力を持つとのことである。

  • IBM z16メインフレームの心臓はTelumプロセサ

    図4 最大200コアまで拡張可能で、各コアは前世代に比べて11%性能が向上している。ドロアあたりのコア数は25%増加しており、メモリ容量は最大40TB。最大250億件の暗号化したtransaction/dayの処理能力を持つ

IBMはTelum CPUに組み込みのAI推論処理のアクセラレータを付けた。これはメインフレームでもAIの推論性能の実行性能が重要になって来ていることを示している。

  • IBM z16メインフレームの心臓はTelumプロセサ

    図5 低レーテンシのAI推論アクセラレータを内蔵。低遅延で一定の遅延、大規模計算にも適用できる計算能力を持ち、各種のAIモデルが利用できメモリ仮想化などにより安全性の高いAI推論機構を備えている

z16のオンチップAIアクセラレータは、128タイルのFP16 SIMDのmatrixアレイと32タイルのFP16/FP32 SIMDのactivationアレイを持っている。これらの計算アレイはオンチップであり、待ち時間は小さく、計算効率は高いと考えられる。

  • IBM z16メインフレームの心臓はTelumプロセサ

    図6 オンチップのAIアクセラレータ。1チップで6TFlopsを超えるAI演算性能。matrixアレイは8WayのFP16 SIMDの128プロセサタイル、activationアレイは8way FP16/FP32SIMDの32プロセサタイル。オンチップキャッシュやリングインタフェースを直結してデータフローを最適化している

z16は何千個ものハードウェアエラーチェッカーを持ち、多くのエラー検出、訂正を行うことができる。L2キャッシュのエラー訂正はSRAMアレイのデータが全部消えてしまったというエラーも訂正ができ。RAIMメモリはDIMM 1個が完全にエラーしても、データを回復できるという強力なエラー訂正能力を持っている。

  • IBM z16メインフレームの心臓はTelumプロセサ

    図7 z16は強力なエラーチェック、回復機能を持っており、可用性は99.99999%

z16の可用性は99.99999%で、これは故障で使えない時間は1年間で約3秒という非常に高い可用性である。さらに東京のセンターで大阪のセンターをバックアップし、東京に大災害があっても、業務はストップしないシステムを作れるSysplex結合インタフェースの改良を行い高可用性、災害復旧機能を高めている。

z16のセキュア実行機構は、ハードウェアによるワークロードの保護とデータの分離を行うことができる。従来の処理方法による分離と違い、ハードウェアによる分離はより確度の高い分離を提供することができる。結果として、数千個のコンテナやゲストイメージをもつ場合でも安全な分離を実現できるという。

  • IBM z16メインフレームの心臓はTelumプロセサ

    図8 Telumプロセサはデータとアプリケーションの一貫性と秘密性を保つ。数千個のコンテナやゲストイメージがあっても保護ができる

z16の各プロセサコアは暗号化を行うCrypt Acceleratorを内蔵している。これらのアクセラレータはDキャッシュに直結しており、16GB/sのスループットで暗号化、復号化を行うことができる。また、暗号化の鍵の値は、平文でメモリに格納されることは無く、ソフトウェアダンプを行っている時でも鍵が読み出されてしまうことがないようになっている。

  • IBM z16メインフレームの心臓はTelumプロセサ

    図9 各コアに暗号化アクセラレータが搭載されており、最大16GB/sの暗号化スループットを持つ。キーの値はハイパーバイザやOSで読めるメモリに、暗号化されていない状態で書き込まれることはない。ソフトウェアダンプを行ってもキーの値が読まれてしまうことはない

z16は業界初の量子安全なシステムである。量子計算の実用化が近づいており、AESなどの暗号が解読されてしまう危険が近づいている。これに対して、IBMは量子計算でも解読ができない暗号(quantum-safe)を実装した。 この暗号はPost Quantum CryptographyとしてNIST(アメリカ国立標準技術研究所)が開発中のものである。

  • IBM z16メインフレームの心臓はTelumプロセサ

    図10 z16は業界初のQuantum-Safeシステム。新しいCrypt Express8S HSMを採用