ゼロからLLMプロンプトエンジニアリング(5) 大注目のオープンモデルQwen3をローカルPCで使ってみよう

ローカルPCで手軽に動かせるオープンな大規模言語モデル(LLM)の「Qwen3」が公開され話題となっています。OpenAIのGPT-4に匹敵する高い推論能力が魅力なのですが、高度な推論が可能な「思考モード」と高速に応答する「非思考モード」を切り替えるハイブリッド推論が可能となっています。高性能ながら商用利用も可能です。今回は、ローカルPCでQwen3を使う方法を紹介します。

大注目のモデル「Qwen3」をローカルPCにインストールして使ってみよう

Qwen3について

Qwen3は、中国のアリババグループが開発した大規模言語モデル(LLM)です。2025年4月末に公開され、その圧倒的な能力が話題となっています。Qwen3は、Qwenシリーズの第3世代という位置づけですが、前世代のQwen2.5から大幅に性能が向上しました。

Qwen3のWebサイトより

Qwen3が注目されているのは、既に言及したように、高い推論能力とハイブリッド推論にあります。また、数学的な推論、プログラム生成、外部ツールを活用するエージェント的タスクの能力が高いと言われています。しかも、パラメータ数の少ない小さなモデルでも、パラメータ数の多い巨大なモデルに匹敵する性能を発揮できます。つまり、性能が高くないローカルPCであっても高度な推論が可能なモデルを動かすことができます。

加えて、36兆トークンを超える巨大なデータセットで事前学習しており、199の言語に対応しているのも特徴です。前モデルでは、中国初であることから英語と中国語に偏っていたのですが、日本語を含む各国語で回答できるようになったのもポイントです。

Qwen3では、いろいろな利用環境に対応できるように、小規模の0.6Bモデルから高性能な32Bまで、さまざまなサイズのパラメータの6つのモデルとMoEに対応した2つのモデルが公開されています。商用利用可能なApache2.0ライセンスで公開されています。

こちらのQwen3のブログ( https://qwenlm.github.io/blog/qwen3/ )では、ベンチマークも載せられているのですが、ベンチマークのいくつかで、高性能な商用AIのOpenAIのO1やGemni2.5 Pro、GPT-4oに匹敵するか、それらを凌駕する性能を発揮していることが示されています。

Qwen3のベンチマーク結果の抜粋

Qwen3を動かす選択肢について

オープンな大規模言語モデルのQwen3を試すには、いろいろな選択肢があります。専門知識がなくても簡単にローカルLLMを動かせるツールがいくつかあります。本連載の第3回( https://news.mynavi.jp/techplus/article/zeroprompt-3/ )で紹介した「LM Studio」から使うことができます。また、プログラマーに人気のOllamaからも利用できます。

今回は、コマンドラインや自作プログラムからも手軽にLLMを利用できる「Ollama」を使う方法を紹介します。コマンドラインが苦手という方は、素直に上記のLM Studioを使うのが良いでしょう。

ちなみに、開発元のAlibaba Cloudが有料のQwen APIを提供していますので、自分のPC性能が低い場合は、そちらを利用する事もできます。

Ollamaをインストールしよう

Ollamaはこちら( https://ollama.com/ )の公式サイトからダウンロードできます。macOS、Linux、Windowsに対応しています。トップページの「Download」ボタンを押すとインストーラーをダウンロードできます。

OllamaのWebサイト - Downloadボタンをクリックしよう

インストーラーの指示に沿ってインストールしましょう。すると、タスクトレイにOllamaのアイコンが表示されます。しかし、それはOllamaが起動していることを示すだけです。残念ながら、そこからモデルをダウンロードしたり、設定を変更したりすることはできません。

と言うのも、Ollamaはターミナル(WindowsならPowerShell、macOSならターミナル.app)から操作することを念頭に開発されています。ターミナルを起動したら、次のコマンドをタイプしましょう。Qwen3で最も小さなモデル0.6bをダウンロードして利用できる状態にします。

ollama run qwen3:0.6b

モデルをダウンロードして、利用可能な状態になると、「>>>」という記号が表示されます。そこで、適当な質問をしてみましょう。ここでは「日本の首都は？」と尋ねてみると、Tokyoと答えることができました。ただし、漢字が中国語の簡体字の「东京」となってしまいました。

Qwen3の最も小さいモデルをダウンロードして実行したところ

Qwen3の8bモデルを使ってみよう

次に、同じ質問をQwen3の8bモデル「qwen3:8b」にしてみましょう。そのためには、以下のコマンドを実行します。

ollama run qwen3:8b

すると次の画像のように、日本語の正しい漢字「東京」で答えることができました。やはり、パラメータ数が大きい方が正しい答えを返すことができます。

Qwen3の8bモデルで同じ質問をすると正しい漢字で答えた

非思考モード「no_think」を使ってみよう

なお、Qwen3では、高度な推論が可能な「思考モード」と高速に応答する「非思考モード」を切り替えるハイブリッド推論が可能です。デフォルトでは、思考モードで答えます。そのため、日本の首都を答えるだけの簡単な質問であっても、最終的な答えの推論が向上するための思考を行います。それがからの間に、英語で表示されます。

それで、知識を問うだけで深い思考が不要な場合には、「no_think」や「/no_think」とプロンプト(指示文)に付け加えるだけで「非思考モード」になります。非思考モードのメリットは、とにかく答えが素早く得られる点にあります。なお、スラッシュ付きの「/no_think」を指定する場合は、指示文の末尾に付けてください。プロンプトの最初に書くと、Ollamaのネイティブコマンドと誤判定されてしまいます。

非思考モードで質問してみたところ

興味深いことに「非思考：日本の首都は？」などと日本語で指示をしても同じように動きます。他にも「考えないで」とか「軽く答えて」などの表現で指示しても動く場合もあります。ただし、いろいろ試してみたところ、プロンプトの末尾に「/no_think」と書くのが確実でした。

日本語でも非思考モードを指示できる

さらに高性能なモデルを試してみよう

筆者が利用しているMacbook Pro M4では、上記の8bモデルに加えて、より大規模な30bモデルでも、そこそこ快適に動かせました。一般的にモデルサイズが大きければ大きいほど、多くのことに答えられます。そこで、試したいのが、Qwen3のいろいろなサイズの他のモデルです。

OllamaのQwen3の紹介ページ( https://ollama.com/library/qwen3 )を見ると、どのモデルが利用できるのか一覧があります。そして、モデルサイズを選ぶと、右上に表示されるインストールコマンドが変わるようになっています。

Ollamaのサイトには利用可能なモデルの一覧がある

大きなモデルサイズのものを試す場合、実行環境によっては、遅かったりメモリエラーが出て動かないという場合もあるでしょう。連載の3回目で紹介したように、ローカルLLMの魅力は、インターネットに接続せず、完全にローカルで動かすことができることです。情報漏洩などの心配もなく、気軽にプライベートな質問ができるのがメリットです。いろいろなサイズのモデルを試してみて、普段使いにぴったりのモデルを選んでみると良いでしょう。

インストールしたモデルの確認と削除

なお、Ollamaでいろいろなモデルを試していると、あっという間にストレージが一杯になってしまいます。そこで、Ollamaでインストールされているモデルの一覧を見るには、ターミナルで次のコマンドを実行します。

ollama list

すると、インストールされているモデルの名前(NAME)と、そのモデルのサイズ(SIZE)、インストールした日(MODIFIED)の一覧が表示されます。

% ollama list
NAME               ID              SIZE      MODIFIED
qwen3:8b           e4b5fd7f8af0    5.2 GB    4 minutes ago
qwen3:0.6b         3bae9c93586b    522 MB    10 minutes ago
deepseek-r1:32b    38056bbcbb2d    19 GB     5 days ago
qwen3:30b          2ee832bc15b5    18 GB     5 days ago
qwen3:latest       e4b5fd7f8af0    5.2 GB    8 days ago

実用的な速度で動かなかったり、あまり使わないモデルがあれば、以下のコマンドを実行して削除できます。以下はモデル「qwen3:0.6b」を削除するコマンドです。「ollama rm (モデル名)」のように記述します。

ollama rm qwen3:0.6b

大規模言語モデルはかなりサイズが大きいので、新たなモデルをインストールしたら、こまめにモデルを削除すると良いでしょう。

「モックプロンプト」を活用して物語を作らせてみよう

Qwen3:30bを使って物語を作らせてみました。最初に、Qwen3に「起承転結」を知っているか尋ねてみると、詳しく知っているようでしたので、続くチャットで「2025年にリメイクされた桃太郎」という小説のプロットを作ってもらうことにしました。次のように尋ねました。

===　ここから : Qwen3とのやり取り ===

>「起承転結」って知っていますか？ /no_think

はい、もちろん知っています！「起承転結（きしょうてんけつ）」は、日本語
で使われる文章や詩、物語の構成の仕方の一つで…省略…

> それでは「起承転結」の形で「2025年にリメイクされた桃太郎」という小説のプロットを箇条書きで作ってください。/think

<think>…省略…</think> もちろんです！以下は「2025年にリメイクされた桃太郎」という小説のプロットを「起承転結」の形で箇条書きにしたものです。…省略…

> 素晴らしいですが長いです。物語を4行(起承転結)にまとめてください。/think

<think>…省略…</think>以下のように4行でまとめました：

1. **起**：2025年の東京で、天才プログラマーの桃太郎が「仮想空間の自由」を守るプロジェクトを始める。
2. **承**：デバイスを手にし、仲間と「デジタルの闇」に立ち向かうが、巨大企業の追跡が始まる。
3. **転**：デバイスの真の正体は「AIの源」で、敵はかつての「鬼」の姿をしたAIだった。
4. **結**：桃太郎は仲間と協力し、デジタルと現実の境界を「共存」に変える。

===　ここまで : Qwen3とのやり取り ===

このように、なかなか面白そうな話のプロットを作ってくれました。

なお、最初に、わざと「起承転結を知っているか」と尋ねています。これは「モックプロンプト」というテクニックです。直接「起承転結」で作るように指示することもできるのですが、お互いの前提知識を再確認することで、大規模言語モデルが、その後の指示により従いやすくなります。

これは、普段人間との会話でも活用できる話術ですが、生成AIとの対話では特に威力を発揮するテクニックなので、覚えておくと良いでしょう。

まとめ

以上、今回は、主にQwen3をOllamaから利用する方法を紹介しました。Qwen3は思考モードと非思考モードを切り替えて使うことができる上に、推論能力が高いので幅広い用途で使えると感じました。プライベートな質問を気軽にできる大規模言語モデルとして普段使いできそうです。また、Qwen3の開発元のアリババは、既に多くのAIモデルをオープンで発表しているので、今後にも期待できそうです。

自由型プログラマー。くじらはんどにて、プログラミングの楽しさを伝える活動をしている。代表作に、日本語プログラミング言語「なでしこ」、テキスト音楽「サクラ」など。2001年オンラインソフト大賞入賞、2004年度未踏ユーススーパークリエータ認定、2010年 OSS貢献者章受賞。これまで50冊以上の技術書を執筆した。直近では、「大規模言語モデルを使いこなすためのプロンプトエンジニアリングの教科書(マイナビ出版)」「Pythonでつくるデスクトップアプリ(ソシム)」「実践力を身につける Pythonの教科書第2版」「シゴトがはかどる Python自動処理の教科書(マイナビ出版)」など。

大注目のオープンモデルQwen3をローカルPCで使ってみよう

Qwen3について

Qwen3を動かす選択肢について

Ollamaをインストールしよう

Qwen3の8bモデルを使ってみよう

非思考モード「no_think」を使ってみよう

さらに高性能なモデルを試してみよう

インストールしたモデルの確認と削除

「モックプロンプト」を活用して物語を作らせてみよう

まとめ

この連載の前後回

AIが勧める、あなたのための会員限定記事

富士通時田社長が読み解く2026年 - 今年は格差が広がる一年に、ビジョンを共に描くコンサルでDXを支援

軍事とIT 第643回陸上装備の話題(9)多様化する地対艦交戦手段

MOSFETにおけるトップサイド冷却 - PCB冷却/両面冷却と比べる熱マネジメントのメリット

笑う門にしか福は来ない、ams-OSRAMジャパンの針田社長が見据える2026年の半導体市場

Google Workspaceをビジネスで活用する第128回「Googleフォーム」の「フォーム作成サポート」で目的のフォームを簡単作成

年始計画にPythonを使ってクリップボードからGoogleカレンダー入力システムを構築してみる

編集部が選ぶ関連記事

ゼロからLLMプロンプトエンジニアリング第4回世界中がChatGPT画像生成に興奮 - 写真を○○風に加工するプロンプト

ゼロからLLMプロンプトエンジニアリング第3回安全にDeepSeek R1を使うには？ - LM Studioで試してみよう

世界のプログラミング言語第59回 OCamlとJSの良い所をミックスした関数型言語「Reason」

Windows 11を快適に使うための5つのテクニック - 作業の負担を減らす

開発者が選ぶ、2026年注目のAI技術4選

年末年始で撮影した家族写真をゲーム付き「スライドパズル」にしてみよう

開発者が選ぶ、2025年注目のAIニュース

Windows 11タスクバーを快適に使うためのカスタマイズ7選 - 日常の操作の無駄を減らす

このカテゴリーについて

大注目のオープンモデルQwen3をローカルPCで使ってみよう

Qwen3について

Qwen3を動かす選択肢について

Ollamaをインストールしよう

Qwen3の8bモデルを使ってみよう

非思考モード「no_think」を使ってみよう

さらに高性能なモデルを試してみよう

インストールしたモデルの確認と削除

「モックプロンプト」を活用して物語を作らせてみよう

まとめ

この連載の前後回

AIが勧める、あなたのための会員限定記事

富士通 時田社長が読み解く2026年 - 今年は格差が広がる一年に、ビジョンを共に描くコンサルでDXを支援

軍事とIT 第643回 陸上装備の話題(9)多様化する地対艦交戦手段

MOSFETにおけるトップサイド冷却 - PCB冷却/両面冷却と比べる熱マネジメントのメリット

笑う門にしか福は来ない、ams-OSRAMジャパンの針田社長が見据える2026年の半導体市場

Google Workspaceをビジネスで活用する 第128回 「Googleフォーム」の「フォーム作成サポート」で目的のフォームを簡単作成

年始計画にPythonを使ってクリップボードからGoogleカレンダー入力システムを構築してみる

編集部が選ぶ関連記事

ゼロからLLMプロンプトエンジニアリング 第4回 世界中がChatGPT画像生成に興奮 - 写真を○○風に加工するプロンプト

ゼロからLLMプロンプトエンジニアリング 第3回 安全にDeepSeek R1を使うには？ - LM Studioで試してみよう

世界のプログラミング言語 第59回 OCamlとJSの良い所をミックスした関数型言語「Reason」

Windows 11を快適に使うための5つのテクニック - 作業の負担を減らす

開発者が選ぶ、2026年注目のAI技術4選

年末年始で撮影した家族写真をゲーム付き「スライドパズル」にしてみよう

開発者が選ぶ、2025年注目のAIニュース

Windows 11タスクバーを快適に使うためのカスタマイズ7選 - 日常の操作の無駄を減らす

このカテゴリーについて

富士通時田社長が読み解く2026年 - 今年は格差が広がる一年に、ビジョンを共に描くコンサルでDXを支援

軍事とIT 第643回陸上装備の話題(9)多様化する地対艦交戦手段

Google Workspaceをビジネスで活用する第128回「Googleフォーム」の「フォーム作成サポート」で目的のフォームを簡単作成

ゼロからLLMプロンプトエンジニアリング第4回世界中がChatGPT画像生成に興奮 - 写真を○○風に加工するプロンプト

ゼロからLLMプロンプトエンジニアリング第3回安全にDeepSeek R1を使うには？ - LM Studioで試してみよう

世界のプログラミング言語第59回 OCamlとJSの良い所をミックスした関数型言語「Reason」