ローカルLLM モデル選びのための資料
モデル選びのための資料
モデル名の読み方
qwen 3.6 : 35b - a3b - q4 _ K _ M
↓ ↓ ↓ ↓ ↓ ↓ ↓
製造 版数 サイズ アクティブ 圧縮bit K方式 サイズ感
モデルの構造:MoE vs 密モデル
| 種類 | 例 | 特徴 |
|---|---|---|
| MoE | 35b-a3b | 全体35B、実際に動くのは3Bぶん。軽くて広い知識 |
| 密モデル | 27b | 全部の27Bが動く。重いが一貫性・安定感がある |
単純にパラメータ数で「こっちが賢い」とは言えない。構造が違うので別物として試す。
量子化の読み方
Q → 量子化(圧縮)
4 → 4bitに圧縮(数字が大きいほど精度高い)
K → K-quant方式(重要なパラメータは丁寧に、そうじゃないものは雑に圧縮)
M → Medium(S / M / XL のバランス型)
量子化の比較(35b-a3bの場合)
bf16 70GB 精度最高、VRAM8GB+RAM48GB=56GBに入らない
q8_0 39GB 高精度、入るけどギリギリで速度遅い
q4_K_M 24GB バランス最良、余裕で入る ← 最初はこれ
nvfp4 22GB NVIDIA特化、癖あり、動くか試してみないとわからない
27b(密モデル)との比較
35b-a3b-q4_K_M 24GB MoE、アクティブ3B
27b-q4_K_M 17GB 密モデル、全部27Bが動く
圧縮率は同じq4_K_Mだけど構造が違う別物。サイズだけで優劣は判断できない。
Unsloth Dynamic(UD)とは
一部のモデルで見かける量子化方式。
通常のK-quant → 重要度に応じてメリハリをつける
UD → さらに層ごとに動的に圧縮率を変える(より精度が高い可能性)
モデルによってUDが提供されてたりされてなかったりする。あれば試す価値あり。
モデルの量子化バリエーションは全モデルで揃ってない
- XLがあるモデルもあれば、M止まりのモデルもある
- Ollamaのライブラリページ(View all)にあるものから選ぶのが正解
- ないものを指定してもエラーになるだけ
こんなときどうする?
カスコードしか出てこない
- まずプロンプトを疑う(コンテキストを丁寧に渡せてるか)
カス → 「ログイン機能作って」 マシ → 「SvelteKitでセッション管理を使ったログイン機能を作って。 既存のsrc/lib/auth.tsに追加する形で」 - Clineで使ってるか確認(生のollamaより出力がいいケースが多い)
- それでもダメなら別モデルへ
試す順番
① qwen3.6:35b-a3b-q4_K_M まずこれ(MoEで軽くて賢い)
↓ カスコードが続くなら
② qwen3.6:27b-q4_K_M 密モデルで安定感を試す
↓ それでもダメなら
③ 別のモデル系統へ gemmaやllama系など
速度が遅くて使いものにならない
① より小さいモデルへ(27b → 7Bクラス)
② nvfp4を試してみる(NVIDIA特化で速い可能性)
新しいモデルが出た
ollama pull 新モデル名
→ 動作確認
→ 気に入ったら古いモデルをollama rm
→ ダメなら即戻し
ストレージ管理
ollama list # 今入ってるモデル一覧
ollama rm モデル名 # 削除
- モデルは全部同じフォルダ(OLLAMA_MODELSで指定した場所)に入る
- 気に入ったものだけ残して、合わなかったものは削除でOK
- q4_K_Mで1本約20〜24GB目安
No comments yet.
Write a comment