2026年版:ローカルLLM(Qwen3.6)+ AIエージェント導入・完全ガイド

2026年版:ローカルLLM(Qwen3.6)+ AIエージェント導入・完全ガイド

RTX 3060 Ti(VRAM 8GB)と大容量メインメモリ(48GB)を最大限に活かし、自分専用の「次世代AI開発環境」を構築する手順です。


1. 準備:専用SSDの導入

  • 推奨スペック: 1TB以上のNVMe M.2 SSD(内蔵型)
  • 理由: Qwen3.6-35B-A3B(約20GB)等の巨大なモデルファイルをOS(Cドライブ)と分けて管理することで、動作の安定性と整理のしやすさが向上します。
  • 資産性: AI専用の「脳の保管庫」として、画像生成モデルや自分専用の知識ベースもここに集約できます。

【まだSSDがない場合】 とりあえず既存ストレージに入れてOKです。モデルファイルは読み込みメインなのでSSDの消耗にもほぼ影響しません。空き容量が30GB以上あれば余裕で試せます。専用SSDは新モデルへの移行タイミングで買えば十分です。


2. AIエンジン(心臓部)の選定と導入

なぜ llama.cpp を使うのか

最初は Ollama を使っていたが、以下の理由で llama.cpp(PrismML フォーク)に切り替えた。

  • Ollama の問題点: Qwen3.6 はデフォルトで thinking モード(<think>...</think> ブロックで内部推論)が有効になっている。Ollama 経由だとこの thinking 中にツール呼び出しを処理しようとして、最終的な応答にツール呼び出しが含まれないことがある。Roo でツール呼び出しが失敗し続ける原因がこれだった。
  • llama.cpp の利点: --reasoning off オプションで thinking を無効化できるため、ツール呼び出しの形式が安定する。また Bonsai(1-bit)や Ternary-Bonsai(1.58-bit)のような特殊な量子化フォーマットにも対応している。
Ollama llama.cpp(PrismML フォーク)
手軽さ ollama run 一発 △ 起動コマンドを自分で管理
ツール呼び出しの安定性 △ thinking との相性問題あり --reasoning off で制御可能
Bonsai 1-bit 対応 △ 非公式対応のみ
Ternary-Bonsai 1.58-bit 対応
モデル管理 ollama pull で自動 △ 手動ダウンロード

llama.cpp(PrismML フォーク)の導入手順

  1. バイナリをダウンロード: https://github.com/PrismML-Eng/llama.cpp/releases から最新リリースの以下2つをダウンロードして任意のフォルダに展開(例:G:\llama.cpp\)。

    • llama-*-bin-win-cuda-12.4-x64.zip(本体)
    • cudart-llama-bin-win-cuda-12.4-x64.zip(CUDA DLL)
  2. DLL をコピー: cudart-* フォルダ内の .dll ファイルを全て llama-prism-* フォルダ内にコピー。

  3. モデルをダウンロード: 後述のモデルダウンロード手順を参照。

  4. サーバーを起動:

    & "G:\llama.cpp\llama-prism-*-bin-win-cuda-12.4-x64\llama-server.exe" -m "G:\huggingface\<モデル名>\<ファイル名>.gguf" --host 0.0.0.0 --port 8080 -ngl 99 --reasoning off --ctx-size 32768
    
  5. エージェントの接続先を設定:

    • Base URL: http://localhost:8080/v1
    • API Key: 任意(例:dummy

モデルのダウンロード方法

モデルは HuggingFace から GGUF 形式で取得する。保存先は G:\huggingface\<モデル名>\ に統一。

ブラウザから直接ダウンロード(推奨)

hf CLI はファイルサイズが大きいとレート制限や接続切断が発生しやすい。ブラウザからのダウンロードの方が安定している。

  1. HuggingFace のモデルページを開く(例:https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF)
  2. 「Files and versions」タブを開く
  3. ダウンロードしたいファイルの右のダウンロードアイコンをクリック
  4. 保存先を G:\huggingface\<モデル名>\ に指定

Chrome は途中で止まっても「再開」ボタンで続きから再開できる。

hf CLI でダウンロード(小さいファイル向け)

# PowerShell で環境変数を設定
$env:HF_HOME = "G:\huggingface"
$env:HF_TOKEN = "トークン"  # https://huggingface.co/settings/tokens で取得

# ダウンロード
C:\Users\moon\AppData\Local\Python\pythoncore-3.14-64\Scripts\hf.exe download <リポジトリ名> <ファイル名>

$env:HF_HOME$env:HF_TOKEN は PowerShell を閉じるとリセットされる。毎回設定が必要。


モデルの管理とバージョンアップ

モデルはファイル単体なので「新しいモデルをダウンロードして切り替えるだけ」。自動で更新されることはなく、自分のタイミングで試せる。

新モデルが出たらダウンロードして動作確認し、問題なければ古いファイルを削除する。


【参考】Ollama での導入手順

手軽さを優先する場合や、ツール呼び出しを使わない用途では Ollama も選択肢になる。

  1. インストール: ollama.com から入手してインストール。

  2. 保存場所を設定する(重要!インストール直後にやる):

    環境変数 設定値の例 用途
    OLLAMA_HOST 0.0.0.0 外部からのアクセスを許可
    OLLAMA_MODELS G:\OllamaModels モデルの保存先を変更

    Windowsの環境変数は「システムのプロパティ → 環境変数」から設定。設定後は Ollama を再起動。

  3. モデルのダウンロード:

    ollama pull qwen3.6:35b-a3b-q4_K_M
    
  4. 接続先:

    • Base URL: http://localhost:11434/v1

【注意】Ollama + Qwen3.6 でツール呼び出しが失敗する場合 Qwen3.6 の thinking モードと Ollama の相性問題が原因の可能性がある。その場合は llama.cpp への切り替えを検討。


3. AIエージェントの選択と導入

ファイル操作・コマンド実行・コード生成を自律的に行うエージェントを導入する。

OpenCode(推奨)

ターミナルベースのオープンソース AI コーディングエージェント。Build / Plan の2モードを Tab キーで切り替えられる。VS Code のターミナル内でも動作する。

インストール:

curl -fsSL https://opencode.ai/install | bash
source ~/.bashrc

llama.cpp への接続設定: ~/.config/opencode/opencode.json を作成:

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "llama-local": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "llama.cpp (local)",
      "options": {
        "baseURL": "http://localhost:8080/v1",
        "apiKey": "dummy"
      },
      "models": {
        "Qwen3.6-35B-A3B-UD-Q4_K_XL": {
          "name": "Qwen3.6-35B-A3B",
          "limit": {
            "context": 32768,
            "output": 8192
          }
        }
      }
    }
  },
  "model": "llama-local/Qwen3.6-35B-A3B-UD-Q4_K_XL"
}

起動:

cd <プロジェクトフォルダ>
opencode
モード 内容 切り替え
Build ファイル操作・コマンド実行すべて有効 Tab キー
Plan 読み取り専用・変更なし Tab キー

VS Code 拡張(補助)

ターミナルより GUI が好みの場合や、OpenCode と併用したい場合。

ツール 特徴 備考
Cline 安全・丁寧。操作ごとに確認を求める。5M+ インストール。 継続メンテ中
Kilo Code Roo Code の後継フォーク。カスタムモードをそのまま移行できる。 継続メンテ中
Roo Code Cline のフォーク。Architect・Code・Debug モード分けが得意。 2026/05/15 終了予定

Roo Code は 2026年5月15日にシャットダウン予定。移行先として Cline(公式推奨)または Kilo Code が選択肢。

VS Code 拡張の接続設定(共通):

  1. VS Codeの拡張機能からインストール。
  2. Provider を OpenAI Compatible に設定。
  3. Base URL: http://localhost:8080/v1、API Key: dummy(任意)。

4. ツール構成のしくみと移行のしやすさ

2026年現在のAIツールは「標準規格(OpenAI互換API)」に準拠しているため、スマホのSIMカードを差し替えるような感覚で中身を入れ替えられます。

レイヤー 役割 具体例
心臓部(AIモデル) 思考・推論 Qwen3.6-35B-A3Bなど
エンジン(サーバー) モデルを動かす基盤 llama.cpp、Ollama
手足(エージェント) コードや作業を実行 OpenCode、Cline、Kilo Code

これらが 「OpenAI互換API」 という共通の言葉で喋っているため、「心臓だけ入れ替える」「手足だけ付け替える」ことが自由自在です。


まとめ:導入ロードマップ

  1. 既存ストレージの空き容量を確認(30GB以上あればOK)
  2. llama.cpp(PrismML フォーク)をダウンロード・展開
  3. モデルをダウンロード(ブラウザ推奨、保存先は G:\huggingface\<モデル名>\
  4. llama.cpp サーバーを起動
  5. OpenCode をインストールして opencode.json を設定
  6. 必要に応じて VS Code に Cline または Kilo Code を追加
  7. 新しいモデルが出たら ダウンロード → 動作確認 → 古いファイルを削除
Write a comment
No comments yet.