アリババクラウドは7月7日、上海で開催中の「世界人工知能会議2023」においてAI画像生成モデル「通義万相(Tongyi Wanxiang)」を発表した。現在この生成AIモデルは、中国の企業顧客向けにベータテスト版として提供しているという。
同サービスは中国語や英語のテキストプロンプトに対応し、水彩画や油彩画、中国画、アニ、スケッチ、フラットイラスト、3D漫画などさまざまなスタイルの画像を生成可能だ。
さらに、任意の画像を類似したスタイルの新しい画像に変換したり、スタイル転送によって画像をスタイリッシュに変化させたりできるという。これにより、元の画像の内容を保持しながら別の画像の視覚スタイルへと変化させられる。
高解像度の拡散プロセスをS/N比(signal-to-noise ratio)に基づいて最適化することで、このモデルは構図の正確さと鮮明なディテールをバランスよく保ちながら、高コントラストで視覚的に美しい背景画像を生成する能力を強化したとのことだ。
通義万相は、独自の大型モデルである「Composer」を用いて開発されたもので、画像合成の品質と創造性が特徴だという。空間レイアウトやパレットなどの最終的な画像出力をより細かく制御できるそうだ。
同社はさらに、言語、視覚、音声領域にわたる専門的なAIタスクを達成するために設計した汎用フレームワーク「ModelScope GPT」についても発表した。これは、オープンソースのモデル・アズ・ア・サービスプラットフォームであり、900以上のAIモデルを搭載しているという。