中国発のDeepSeekのAIモデル「R1」、高い性能と効率でテック業界を驚かせる

中国発のAIモデルが米国で大きな反響を呼んでいる。1月20日に中国のAIベンチャーであるDeepSeekが公開した推論モデル「R1」は、OpenAIの「o1」と同等以上の性能を持ちながら、開発コストを大きく抑えているという。

「R1」は印象的なブレークスルー

DeepSeekは、中国のLiang Wenfeng(梁文峰)氏が2023年7月に中国・杭州で設立したAIベンチャーだ。1月20日、同社がAIモデル「R1」を公開したところ、ベンチャー投資家をはじめ米国で話題となった。

例えばベンチャーキャピタルAndreessen Horowitz(a16z)の共同創業者Marc Andreessen氏は「DeepseekのR1は、自分がこれまで見た中で最も素晴らしく、印象的なブレークスルーだ。オープンソースであり、世界に深い影響をもたらす」と称賛している。

Wall Street Journalは「とてもクールだ」というAIハードウェアのPositronを共同創業したBarrett Woodside氏のコメントを紹介している。一方で、2024年12月にリリースしたモデル「V3」は、中国の国家主席であるXi Jinping(習近平)氏に関する一部の質問には回答しなかったようで「唯一の欠点は、中途半端にRPC(中華人民共和国の英略)の検閲が入ること」とWoodside氏は述べている。

o1と同じような「思考の連鎖(Chain of Thoughts)」アプローチを採用しており、特に数学やコーディングで高い性能を誇るという。TechCrunchによると、R1は一部のAIベンチマークでOpenAIの「o1」と同等、または上回る値を叩き出しているという。

効率性も特徴だ。モデルのトレーニング費用に要したコストは560万ドル。Wall Street Journalは「Claude」のAnthropicが2024年、モデル構築に要した費用を「1億ドル～10億ドルの範囲」としていたことを参照している。

2024年12月公開のV3モデルについては、技術報告書で2000個以上のNVIDIAチップのクラスタを使用したと報告しているが、同規模のモデルの訓練では数万個単位が必要になるとWall Street Journalは指摘する。

「すべての論理的なステップを詳細に示すのではなく、正確な回答を目指すことで高い効果を維持しつつ、計算時間を大幅に削減することに成功した」とMicrosoftのAIフロンティア研究所で主席研究員を務めるDimitris Papailiopoulos氏はMIT Technology Reviewにコメントしている。

MIT Technology Reviewは、米国は中国のAIでの弱体化を狙ってAIチップ制裁を敷いているが、結果的に効率性などの点で中国の技術革新につながっていると皮肉る。これに対し、Wall Street JournalはLiang氏が主席に対し、米国が中国に課すAIチップ輸出規制がボトルネックになると述べたと報じている。

Metaの最高AIサイエンティストYann LeCun氏は、中国対米国という視点で見るのではなく「オープンソースモデルはプロプライエタリモデルを凌駕しているという教訓に目を向けるべき」とLinkedInでコメントしている。なお、Metaは「Llama」をオープンソースとして公開しており、競合となる。

DeepSeekは、やはりLiang氏が設立したヘッジファンド「High-Flyer」の出資を受けているという。High-Flyerの運用資産は80億ドル規模とのことだ。