画像生成AIサービス「Midjourney」V6登場、ゼロから訓練した新モデルを採用

画像生成AIサービス「Midjourney」のバージョン6のアルファ版がリリースされた。開発チームを率いるデビッド・ホルツ氏によると、AIスーパークラスターでゼロから訓練した3番目となる新モデルが採用されており、開発には9カ月を要した。新バージョンでは、プロンプトによるよりきめ細かいコントロールが可能で、より長いプロンプトを使用でき、過去のバージョンに比べて「はるかにリアルな画像を生成できるようになった」としている。

利用者コミュニテイで共有されている情報を紹介すると、新モデルになったV6はよりディテールが豊かで、特に写実的な表現が向上している。プロンプトについては、350語以上の長さに対応し、また句読点や文法のニュアンスも理解するため、ユーザーはより自然な表現で複雑な内容のプロンプトを作成できる。従来のバージョンに比べて、プロンプトに敏感に反応し、色や陰影、構図やキャンバス上のものの配置などより詳細な指定やコントロールが可能となり、より具体的な指示が質の高いアウトプットにつながる。現段階では限定的だが、画像にテキストを配置できるので、メッセージボードやコミックなどストーリー性のあるビジュアルコンテンツを作成できる。

プロンプトへの反応が大きく変わったことで、経験者もプロンプトの作り方を再学習する必要がある。これまで高画質化のために「award winning」「photorealistic」「4k」「8k」といったプロンプトがよく用いられていたが、そうした漠然とした指示は避け、求めている内容をより明確に伝えることが推奨されている。

アップスケーラーも改良され、「Upscale(Subtle)」と「Upscale(Creative)」（解像度が2倍）が追加された。

V6はこれまでのバージョンと同様、Discordから利用する。設定で「Midjourney Model V6 [BETA]」を選択するか、プロンプトに続けて「 --V6」と入力する。

最適化が進んでいない現段階では、V5よりも処理速度が遅いが、リラックスモードはサポートされている（1イメージあたり約1GPU/分、1アップスケールあたり約2GPU/分）。今後数週間で、スピード、イメージの質、コヒーレンス、プロンプト・フォロー、テキストの正確さが改善されるとのこと。