2026年版:ローカルLLM(Qwen3.6)+ AIエージェント導入・完全ガイド
2026年版:ローカルLLM(Qwen3.6)+ AIエージェント導入・完全ガイド
RTX 3060 Ti(VRAM 8GB)と大容量メインメモリ(48GB)を最大限に活かし、自分専用の「次世代AI開発環境」を構築する手順です。
1. 準備:専用SSDの導入
- 推奨スペック: 1TB以上のNVMe M.2 SSD(内蔵型)
- 理由: Qwen3.6-35B-A3B(約20GB)等の巨大なモデルファイルをOS(Cドライブ)と分けて管理することで、動作の安定性と整理のしやすさが向上します。
- 資産性: AI専用の「脳の保管庫」として、画像生成モデルや自分専用の知識ベースもここに集約できます。
【まだSSDがない場合】 とりあえず既存ストレージに入れてOKです。モデルファイルは読み込みメインなのでSSDの消耗にもほぼ影響しません。空き容量が30GB以上あれば余裕で試せます。専用SSDは新モデルへの移行タイミングで買えば十分です。
2. AIエンジン(心臓部)の選定と導入
なぜ llama.cpp を使うのか
最初は Ollama を使っていたが、以下の理由で llama.cpp(PrismML フォーク)に切り替えた。
- Ollama の問題点: Qwen3.6 はデフォルトで thinking モード(
<think>...</think>ブロックで内部推論)が有効になっている。Ollama 経由だとこの thinking 中にツール呼び出しを処理しようとして、最終的な応答にツール呼び出しが含まれないことがある。Roo でツール呼び出しが失敗し続ける原因がこれだった。 - llama.cpp の利点:
--reasoning offオプションで thinking を無効化できるため、ツール呼び出しの形式が安定する。また Bonsai(1-bit)や Ternary-Bonsai(1.58-bit)のような特殊な量子化フォーマットにも対応している。
| Ollama | llama.cpp(PrismML フォーク) | |
|---|---|---|
| 手軽さ | ◎ ollama run 一発 |
△ 起動コマンドを自分で管理 |
| ツール呼び出しの安定性 | △ thinking との相性問題あり | ◎ --reasoning off で制御可能 |
| Bonsai 1-bit 対応 | △ 非公式対応のみ | ◎ |
| Ternary-Bonsai 1.58-bit 対応 | ✕ | ◎ |
| モデル管理 | ◎ ollama pull で自動 |
△ 手動ダウンロード |
llama.cpp(PrismML フォーク)の導入手順
-
バイナリをダウンロード: https://github.com/PrismML-Eng/llama.cpp/releases から最新リリースの以下2つをダウンロードして任意のフォルダに展開(例:
G:\llama.cpp\)。llama-*-bin-win-cuda-12.4-x64.zip(本体)cudart-llama-bin-win-cuda-12.4-x64.zip(CUDA DLL)
-
DLL をコピー:
cudart-*フォルダ内の.dllファイルを全てllama-prism-*フォルダ内にコピー。 -
モデルをダウンロード: 後述のモデルダウンロード手順を参照。
-
サーバーを起動:
& "G:\llama.cpp\llama-prism-*-bin-win-cuda-12.4-x64\llama-server.exe" -m "G:\huggingface\<モデル名>\<ファイル名>.gguf" --host 0.0.0.0 --port 8080 -ngl 99 --reasoning off --ctx-size 32768 -
エージェントの接続先を設定:
- Base URL:
http://localhost:8080/v1 - API Key: 任意(例:
dummy)
- Base URL:
モデルのダウンロード方法
モデルは HuggingFace から GGUF 形式で取得する。保存先は G:\huggingface\<モデル名>\ に統一。
ブラウザから直接ダウンロード(推奨)
hf CLI はファイルサイズが大きいとレート制限や接続切断が発生しやすい。ブラウザからのダウンロードの方が安定している。
- HuggingFace のモデルページを開く(例:https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF)
- 「Files and versions」タブを開く
- ダウンロードしたいファイルの右のダウンロードアイコンをクリック
- 保存先を
G:\huggingface\<モデル名>\に指定
Chrome は途中で止まっても「再開」ボタンで続きから再開できる。
hf CLI でダウンロード(小さいファイル向け)
# PowerShell で環境変数を設定
$env:HF_HOME = "G:\huggingface"
$env:HF_TOKEN = "トークン" # https://huggingface.co/settings/tokens で取得
# ダウンロード
C:\Users\moon\AppData\Local\Python\pythoncore-3.14-64\Scripts\hf.exe download <リポジトリ名> <ファイル名>
$env:HF_HOMEと$env:HF_TOKENは PowerShell を閉じるとリセットされる。毎回設定が必要。
モデルの管理とバージョンアップ
モデルはファイル単体なので「新しいモデルをダウンロードして切り替えるだけ」。自動で更新されることはなく、自分のタイミングで試せる。
新モデルが出たらダウンロードして動作確認し、問題なければ古いファイルを削除する。
【参考】Ollama での導入手順
手軽さを優先する場合や、ツール呼び出しを使わない用途では Ollama も選択肢になる。
-
インストール: ollama.com から入手してインストール。
-
保存場所を設定する(重要!インストール直後にやる):
環境変数 設定値の例 用途 OLLAMA_HOST0.0.0.0外部からのアクセスを許可 OLLAMA_MODELSG:\OllamaModelsモデルの保存先を変更 Windowsの環境変数は「システムのプロパティ → 環境変数」から設定。設定後は Ollama を再起動。
-
モデルのダウンロード:
ollama pull qwen3.6:35b-a3b-q4_K_M -
接続先:
- Base URL:
http://localhost:11434/v1
- Base URL:
【注意】Ollama + Qwen3.6 でツール呼び出しが失敗する場合 Qwen3.6 の thinking モードと Ollama の相性問題が原因の可能性がある。その場合は llama.cpp への切り替えを検討。
3. AIエージェントの選択と導入
ファイル操作・コマンド実行・コード生成を自律的に行うエージェントを導入する。
OpenCode(推奨)
ターミナルベースのオープンソース AI コーディングエージェント。Build / Plan の2モードを Tab キーで切り替えられる。VS Code のターミナル内でも動作する。
インストール:
curl -fsSL https://opencode.ai/install | bash
source ~/.bashrc
llama.cpp への接続設定:
~/.config/opencode/opencode.json を作成:
{
"$schema": "https://opencode.ai/config.json",
"provider": {
"llama-local": {
"npm": "@ai-sdk/openai-compatible",
"name": "llama.cpp (local)",
"options": {
"baseURL": "http://localhost:8080/v1",
"apiKey": "dummy"
},
"models": {
"Qwen3.6-35B-A3B-UD-Q4_K_XL": {
"name": "Qwen3.6-35B-A3B",
"limit": {
"context": 32768,
"output": 8192
}
}
}
}
},
"model": "llama-local/Qwen3.6-35B-A3B-UD-Q4_K_XL"
}
起動:
cd <プロジェクトフォルダ>
opencode
| モード | 内容 | 切り替え |
|---|---|---|
| Build | ファイル操作・コマンド実行すべて有効 | Tab キー |
| Plan | 読み取り専用・変更なし | Tab キー |
VS Code 拡張(補助)
ターミナルより GUI が好みの場合や、OpenCode と併用したい場合。
| ツール | 特徴 | 備考 |
|---|---|---|
| Cline | 安全・丁寧。操作ごとに確認を求める。5M+ インストール。 | 継続メンテ中 |
| Kilo Code | Roo Code の後継フォーク。カスタムモードをそのまま移行できる。 | 継続メンテ中 |
| Roo Code | Cline のフォーク。Architect・Code・Debug モード分けが得意。 | 2026/05/15 終了予定 |
Roo Code は 2026年5月15日にシャットダウン予定。移行先として Cline(公式推奨)または Kilo Code が選択肢。
VS Code 拡張の接続設定(共通):
- VS Codeの拡張機能からインストール。
- Provider を
OpenAI Compatibleに設定。 - Base URL:
http://localhost:8080/v1、API Key:dummy(任意)。
4. ツール構成のしくみと移行のしやすさ
2026年現在のAIツールは「標準規格(OpenAI互換API)」に準拠しているため、スマホのSIMカードを差し替えるような感覚で中身を入れ替えられます。
| レイヤー | 役割 | 具体例 |
|---|---|---|
| 心臓部(AIモデル) | 思考・推論 | Qwen3.6-35B-A3Bなど |
| エンジン(サーバー) | モデルを動かす基盤 | llama.cpp、Ollama |
| 手足(エージェント) | コードや作業を実行 | OpenCode、Cline、Kilo Code |
これらが 「OpenAI互換API」 という共通の言葉で喋っているため、「心臓だけ入れ替える」「手足だけ付け替える」ことが自由自在です。
まとめ:導入ロードマップ
- 既存ストレージの空き容量を確認(30GB以上あればOK)
- llama.cpp(PrismML フォーク)をダウンロード・展開
- モデルをダウンロード(ブラウザ推奨、保存先は
G:\huggingface\<モデル名>\) - llama.cpp サーバーを起動
- OpenCode をインストールして opencode.json を設定
- 必要に応じて VS Code に Cline または Kilo Code を追加
- 新しいモデルが出たら ダウンロード → 動作確認 → 古いファイルを削除
- Reference: https://github.com/PrismML-Eng/llama.cpp/releases
- Reference: http://localhost:8080/v1`
- Reference: https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF)
- Reference: https://huggingface.co/settings/tokens
- Reference: https://ollama.com/
- Reference: http://localhost:11434/v1`
- Reference: https://opencode.ai/install
- Reference: https://opencode.ai/config.json",
- Reference: http://localhost:8080/v1",
- Reference: http://localhost:8080/v1`、API
Write a comment