ローカルLLM モデル選びのための資料

モデル選びのための資料

モデル名の読み方

qwen  3.6  :  35b  -  a3b  -  q4  _  K  _  M
 ↓    ↓        ↓      ↓       ↓     ↓    ↓
製造  版数   サイズ  アクティブ 圧縮bit K方式 サイズ感

モデルの構造:MoE vs 密モデル

種類 特徴
MoE 35b-a3b 全体35B、実際に動くのは3Bぶん。軽くて広い知識
密モデル 27b 全部の27Bが動く。重いが一貫性・安定感がある

単純にパラメータ数で「こっちが賢い」とは言えない。構造が違うので別物として試す。


量子化の読み方

Q  → 量子化(圧縮)
4  → 4bitに圧縮(数字が大きいほど精度高い)
K  → K-quant方式(重要なパラメータは丁寧に、そうじゃないものは雑に圧縮)
M  → Medium(S / M / XL のバランス型)

量子化の比較(35b-a3bの場合)

bf16        70GB  精度最高、VRAM8GB+RAM48GB=56GBに入らない
q8_0        39GB  高精度、入るけどギリギリで速度遅い
q4_K_M      24GB  バランス最良、余裕で入る ← 最初はこれ
nvfp4       22GB  NVIDIA特化、癖あり、動くか試してみないとわからない

27b(密モデル)との比較

35b-a3b-q4_K_M   24GB   MoE、アクティブ3B
27b-q4_K_M       17GB   密モデル、全部27Bが動く

圧縮率は同じq4_K_Mだけど構造が違う別物。サイズだけで優劣は判断できない。


Unsloth Dynamic(UD)とは

一部のモデルで見かける量子化方式。

通常のK-quant → 重要度に応じてメリハリをつける
UD            → さらに層ごとに動的に圧縮率を変える(より精度が高い可能性)

モデルによってUDが提供されてたりされてなかったりする。あれば試す価値あり。


モデルの量子化バリエーションは全モデルで揃ってない

  • XLがあるモデルもあれば、M止まりのモデルもある
  • Ollamaのライブラリページ(View all)にあるものから選ぶのが正解
  • ないものを指定してもエラーになるだけ

こんなときどうする?

カスコードしか出てこない

  1. まずプロンプトを疑う(コンテキストを丁寧に渡せてるか)
    カス → 「ログイン機能作って」
    マシ → 「SvelteKitでセッション管理を使ったログイン機能を作って。
             既存のsrc/lib/auth.tsに追加する形で」
    
  2. Clineで使ってるか確認(生のollamaより出力がいいケースが多い)
  3. それでもダメなら別モデルへ

試す順番

① qwen3.6:35b-a3b-q4_K_M   まずこれ(MoEで軽くて賢い)
 ↓ カスコードが続くなら
② qwen3.6:27b-q4_K_M        密モデルで安定感を試す
 ↓ それでもダメなら
③ 別のモデル系統へ           gemmaやllama系など

速度が遅くて使いものにならない

① より小さいモデルへ(27b → 7Bクラス)
② nvfp4を試してみる(NVIDIA特化で速い可能性)

新しいモデルが出た

ollama pull 新モデル名
→ 動作確認
→ 気に入ったら古いモデルをollama rm
→ ダメなら即戻し

ストレージ管理

ollama list          # 今入ってるモデル一覧
ollama rm モデル名   # 削除
  • モデルは全部同じフォルダ(OLLAMA_MODELSで指定した場所)に入る
  • 気に入ったものだけ残して、合わなかったものは削除でOK
  • q4_K_Mで1本約20〜24GB目安
Write a comment
No comments yet.