2026年版：ローカルLLM（Qwen3.6）＋ AIエージェント導入・完全ガイド

By もの💪₍ ･ᴗ･ ₎:souji_site2: April 29, 2026 · Edited April 29, 2026

2026年版：ローカルLLM（Qwen3.6）＋ AIエージェント導入・完全ガイド

2026年版：ローカルLLM（Qwen3.6）＋ AIエージェント導入・完全ガイド

RTX 3060 Ti（VRAM 8GB）と大容量メインメモリ（48GB）を最大限に活かし、自分専用の「次世代AI開発環境」を構築する手順です。

1. 準備：専用SSDの導入

推奨スペック: 1TB以上のNVMe M.2 SSD（内蔵型）
理由: Qwen3.6-35B-A3B（約20GB）等の巨大なモデルファイルをOS（Cドライブ）と分けて管理することで、動作の安定性と整理のしやすさが向上します。
資産性: AI専用の「脳の保管庫」として、画像生成モデルや自分専用の知識ベースもここに集約できます。

【まだSSDがない場合】 とりあえず既存ストレージに入れてOKです。モデルファイルは読み込みメインなのでSSDの消耗にもほぼ影響しません。空き容量が30GB以上あれば余裕で試せます。専用SSDは新モデルへの移行タイミングで買えば十分です。

2. AIエンジン（心臓部）の選定と導入

なぜ llama.cpp を使うのか

最初は Ollama を使っていたが、以下の理由で llama.cpp（PrismML フォーク）に切り替えた。

Ollama の問題点: Qwen3.6 はデフォルトで thinking モード（<think>...</think> ブロックで内部推論）が有効になっている。Ollama 経由だとこの thinking 中にツール呼び出しを処理しようとして、最終的な応答にツール呼び出しが含まれないことがある。Roo でツール呼び出しが失敗し続ける原因がこれだった。
llama.cpp の利点: --reasoning off オプションで thinking を無効化できるため、ツール呼び出しの形式が安定する。また Bonsai（1-bit）や Ternary-Bonsai（1.58-bit）のような特殊な量子化フォーマットにも対応している。

	Ollama	llama.cpp（PrismML フォーク）
手軽さ	◎ `ollama run` 一発	△ 起動コマンドを自分で管理
ツール呼び出しの安定性	△ thinking との相性問題あり	◎ `--reasoning off` で制御可能
Bonsai 1-bit 対応	△ 非公式対応のみ	◎
Ternary-Bonsai 1.58-bit 対応	✕	◎
モデル管理	◎ `ollama pull` で自動	△ 手動ダウンロード

llama.cpp（PrismML フォーク）の導入手順

バイナリをダウンロード: https://github.com/PrismML-Eng/llama.cpp/releases から最新リリースの以下2つをダウンロードして任意のフォルダに展開（例：G:\llama.cpp\）。
- llama-*-bin-win-cuda-12.4-x64.zip（本体）
- cudart-llama-bin-win-cuda-12.4-x64.zip（CUDA DLL）
DLL をコピー: cudart-* フォルダ内の .dll ファイルを全て llama-prism-* フォルダ内にコピー。
モデルをダウンロード: 後述のモデルダウンロード手順を参照。

サーバーを起動:

& "G:\llama.cpp\llama-prism-*-bin-win-cuda-12.4-x64\llama-server.exe" -m "G:\huggingface\<モデル名>\<ファイル名>.gguf" --host 0.0.0.0 --port 8080 -ngl 99 --reasoning off --ctx-size 32768

エージェントの接続先を設定:
- Base URL: http://localhost:8080/v1
- API Key: 任意（例：dummy）

モデルのダウンロード方法

モデルは HuggingFace から GGUF 形式で取得する。保存先は G:\huggingface\<モデル名>\ に統一。

ブラウザから直接ダウンロード（推奨）

hf CLI はファイルサイズが大きいとレート制限や接続切断が発生しやすい。ブラウザからのダウンロードの方が安定している。

HuggingFace のモデルページを開く（例：https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF）
「Files and versions」タブを開く
ダウンロードしたいファイルの右のダウンロードアイコンをクリック
保存先を G:\huggingface\<モデル名>\ に指定

Chrome は途中で止まっても「再開」ボタンで続きから再開できる。

hf CLI でダウンロード（小さいファイル向け）

# PowerShell で環境変数を設定
$env:HF_HOME = "G:\huggingface"
$env:HF_TOKEN = "トークン"  # https://huggingface.co/settings/tokens で取得

# ダウンロード
C:\Users\moon\AppData\Local\Python\pythoncore-3.14-64\Scripts\hf.exe download <リポジトリ名> <ファイル名>

$env:HF_HOME と $env:HF_TOKEN は PowerShell を閉じるとリセットされる。毎回設定が必要。

モデルの管理とバージョンアップ

モデルはファイル単体なので「新しいモデルをダウンロードして切り替えるだけ」。自動で更新されることはなく、自分のタイミングで試せる。

新モデルが出たらダウンロードして動作確認し、問題なければ古いファイルを削除する。

【参考】Ollama での導入手順

手軽さを優先する場合や、ツール呼び出しを使わない用途では Ollama も選択肢になる。

インストール: ollama.com から入手してインストール。
保存場所を設定する（重要！インストール直後にやる）:

環境変数設定値の例用途

OLLAMA_HOST 0.0.0.0 外部からのアクセスを許可

OLLAMA_MODELS G:\OllamaModels モデルの保存先を変更

Windowsの環境変数は「システムのプロパティ → 環境変数」から設定。設定後は Ollama を再起動。
モデルのダウンロード:
```
ollama pull qwen3.6:35b-a3b-q4_K_M
```
接続先:
- Base URL: http://localhost:11434/v1

環境変数	設定値の例	用途
`OLLAMA_HOST`	`0.0.0.0`	外部からのアクセスを許可
`OLLAMA_MODELS`	`G:\OllamaModels`	モデルの保存先を変更

【注意】Ollama + Qwen3.6 でツール呼び出しが失敗する場合 Qwen3.6 の thinking モードと Ollama の相性問題が原因の可能性がある。その場合は llama.cpp への切り替えを検討。

3. AIエージェントの選択と導入

ファイル操作・コマンド実行・コード生成を自律的に行うエージェントを導入する。

OpenCode（推奨）

ターミナルベースのオープンソース AI コーディングエージェント。Build / Plan の2モードを Tab キーで切り替えられる。VS Code のターミナル内でも動作する。

インストール:

curl -fsSL https://opencode.ai/install | bash
source ~/.bashrc

llama.cpp への接続設定: ~/.config/opencode/opencode.json を作成：

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "llama-local": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "llama.cpp (local)",
      "options": {
        "baseURL": "http://localhost:8080/v1",
        "apiKey": "dummy"
      },
      "models": {
        "Qwen3.6-35B-A3B-UD-Q4_K_XL": {
          "name": "Qwen3.6-35B-A3B",
          "limit": {
            "context": 32768,
            "output": 8192
          }
        }
      }
    }
  },
  "model": "llama-local/Qwen3.6-35B-A3B-UD-Q4_K_XL"
}

起動:

cd <プロジェクトフォルダ>
opencode

モード	内容	切り替え
Build	ファイル操作・コマンド実行すべて有効	Tab キー
Plan	読み取り専用・変更なし	Tab キー

VS Code 拡張（補助）

ターミナルより GUI が好みの場合や、OpenCode と併用したい場合。

ツール	特徴	備考
Cline	安全・丁寧。操作ごとに確認を求める。5M+ インストール。	継続メンテ中
Kilo Code	Roo Code の後継フォーク。カスタムモードをそのまま移行できる。	継続メンテ中
Roo Code	Cline のフォーク。Architect・Code・Debug モード分けが得意。	2026/05/15 終了予定

Roo Code は 2026年5月15日にシャットダウン予定。移行先として Cline（公式推奨）または Kilo Code が選択肢。

VS Code 拡張の接続設定（共通）:

VS Codeの拡張機能からインストール。
Provider を OpenAI Compatible に設定。
Base URL: http://localhost:8080/v1、API Key: dummy（任意）。

4. ツール構成のしくみと移行のしやすさ

2026年現在のAIツールは「標準規格（OpenAI互換API）」に準拠しているため、スマホのSIMカードを差し替えるような感覚で中身を入れ替えられます。

レイヤー	役割	具体例
心臓部（AIモデル）	思考・推論	Qwen3.6-35B-A3Bなど
エンジン（サーバー）	モデルを動かす基盤	llama.cpp、Ollama
手足（エージェント）	コードや作業を実行	OpenCode、Cline、Kilo Code

これらが 「OpenAI互換API」 という共通の言葉で喋っているため、「心臓だけ入れ替える」「手足だけ付け替える」ことが自由自在です。

まとめ：導入ロードマップ

既存ストレージの空き容量を確認（30GB以上あればOK）
llama.cpp（PrismML フォーク）をダウンロード・展開
モデルをダウンロード（ブラウザ推奨、保存先は G:\huggingface\<モデル名>\）
llama.cpp サーバーを起動
OpenCode をインストールして opencode.json を設定
必要に応じて VS Code に Cline または Kilo Code を追加
新しいモデルが出たら ダウンロード → 動作確認 → 古いファイルを削除

Reference: https://github.com/PrismML-Eng/llama.cpp/releases
Reference: http://localhost:8080/v1`
Reference: https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF）
Reference: https://huggingface.co/settings/tokens
Reference: https://ollama.com/
Reference: http://localhost:11434/v1`
Reference: https://opencode.ai/install
Reference: https://opencode.ai/config.json",
Reference: http://localhost:8080/v1",
Reference: http://localhost:8080/v1`、API

Write a comment

No comments yet.

2026年版：ローカルLLM（Qwen3.6）＋ AIエージェント導入・完全ガイド

§2026年版：ローカルLLM（Qwen3.6）＋ AIエージェント導入・完全ガイド

§1. 準備：専用SSDの導入

§2. AIエンジン（心臓部）の選定と導入

§なぜ llama.cpp を使うのか

§llama.cpp（PrismML フォーク）の導入手順

§モデルのダウンロード方法

§ブラウザから直接ダウンロード（推奨）

§hf CLI でダウンロード（小さいファイル向け）

§モデルの管理とバージョンアップ

§【参考】Ollama での導入手順

§3. AIエージェントの選択と導入

§OpenCode（推奨）

§VS Code 拡張（補助）

§4. ツール構成のしくみと移行のしやすさ

§まとめ：導入ロードマップ

2026年版：ローカルLLM（Qwen3.6）＋ AIエージェント導入・完全ガイド

1. 準備：専用SSDの導入

2. AIエンジン（心臓部）の選定と導入

なぜ llama.cpp を使うのか

llama.cpp（PrismML フォーク）の導入手順

モデルのダウンロード方法

ブラウザから直接ダウンロード（推奨）

hf CLI でダウンロード（小さいファイル向け）

モデルの管理とバージョンアップ

【参考】Ollama での導入手順

3. AIエージェントの選択と導入

OpenCode（推奨）

VS Code 拡張（補助）

4. ツール構成のしくみと移行のしやすさ

まとめ：導入ロードマップ