ローカルLLM モデル選びのための資料

By もの💪₍ ･ᴗ･ ₎:souji_site2: April 28, 2026

モデル選びのための資料

モデル選びのための資料

モデル名の読み方

qwen  3.6  :  35b  -  a3b  -  q4  _  K  _  M
 ↓    ↓        ↓      ↓       ↓     ↓    ↓
製造  版数   サイズ  アクティブ 圧縮bit K方式 サイズ感

モデルの構造：MoE vs 密モデル

種類	例	特徴
MoE	35b-a3b	全体35B、実際に動くのは3Bぶん。軽くて広い知識
密モデル	27b	全部の27Bが動く。重いが一貫性・安定感がある

単純にパラメータ数で「こっちが賢い」とは言えない。構造が違うので別物として試す。

量子化の読み方

Q  → 量子化（圧縮）
4  → 4bitに圧縮（数字が大きいほど精度高い）
K  → K-quant方式（重要なパラメータは丁寧に、そうじゃないものは雑に圧縮）
M  → Medium（S / M / XL のバランス型）

量子化の比較（35b-a3bの場合）

bf16        70GB  精度最高、VRAM8GB+RAM48GB=56GBに入らない
q8_0        39GB  高精度、入るけどギリギリで速度遅い
q4_K_M      24GB  バランス最良、余裕で入る ← 最初はこれ
nvfp4       22GB  NVIDIA特化、癖あり、動くか試してみないとわからない

27b（密モデル）との比較

35b-a3b-q4_K_M   24GB   MoE、アクティブ3B
27b-q4_K_M       17GB   密モデル、全部27Bが動く

圧縮率は同じq4_K_Mだけど構造が違う別物。サイズだけで優劣は判断できない。

Unsloth Dynamic（UD）とは

一部のモデルで見かける量子化方式。

通常のK-quant → 重要度に応じてメリハリをつける
UD            → さらに層ごとに動的に圧縮率を変える（より精度が高い可能性）

モデルによってUDが提供されてたりされてなかったりする。あれば試す価値あり。

モデルの量子化バリエーションは全モデルで揃ってない

XLがあるモデルもあれば、M止まりのモデルもある
Ollamaのライブラリページ（View all）にあるものから選ぶのが正解
ないものを指定してもエラーになるだけ

こんなときどうする？

カスコードしか出てこない

まずプロンプトを疑う（コンテキストを丁寧に渡せてるか）

カス → 「ログイン機能作って」
マシ → 「SvelteKitでセッション管理を使ったログイン機能を作って。
         既存のsrc/lib/auth.tsに追加する形で」

Clineで使ってるか確認（生のollamaより出力がいいケースが多い）
それでもダメなら別モデルへ

試す順番

① qwen3.6:35b-a3b-q4_K_M   まずこれ（MoEで軽くて賢い）
　↓ カスコードが続くなら
② qwen3.6:27b-q4_K_M        密モデルで安定感を試す
　↓ それでもダメなら
③ 別のモデル系統へ           gemmaやllama系など

速度が遅くて使いものにならない

① より小さいモデルへ（27b → 7Bクラス）
② nvfp4を試してみる（NVIDIA特化で速い可能性）

新しいモデルが出た

ollama pull 新モデル名
→ 動作確認
→ 気に入ったら古いモデルをollama rm
→ ダメなら即戻し

ストレージ管理

ollama list          # 今入ってるモデル一覧
ollama rm モデル名   # 削除

モデルは全部同じフォルダ（OLLAMA_MODELSで指定した場所）に入る
気に入ったものだけ残して、合わなかったものは削除でOK
q4_K_Mで1本約20〜24GB目安

Write a comment

No comments yet.

ローカルLLM モデル選びのための資料

§モデル選びのための資料

§モデル名の読み方

§モデルの構造：MoE vs 密モデル

§量子化の読み方

§量子化の比較（35b-a3bの場合）

§27b（密モデル）との比較

§Unsloth Dynamic（UD）とは

§モデルの量子化バリエーションは全モデルで揃ってない

§こんなときどうする？

§カスコードしか出てこない

§試す順番

§速度が遅くて使いものにならない

§新しいモデルが出た

§ストレージ管理

モデル選びのための資料

モデル名の読み方

モデルの構造：MoE vs 密モデル

量子化の読み方

量子化の比較（35b-a3bの場合）

27b（密モデル）との比較

Unsloth Dynamic（UD）とは

モデルの量子化バリエーションは全モデルで揃ってない

こんなときどうする？

カスコードしか出てこない

試す順番

速度が遅くて使いものにならない

新しいモデルが出た

ストレージ管理