前回の投稿で色々と調べてみたけど、結局のところローカルLLMは下のやつを用途に応じてでいいかなという結論になった。
- google/gemma-3n-e4b:結構速いので、ほかモデルで日本語が怪しい場合はこっちでもいいかも
- gemma-2-2b-jpn-it-gguf/gemma-2-2b-jpn-it-Q4_K_M.gguf:軽いのでちょっとした翻訳には便利
- qwen/qwen3-4b-2507 Q4_K_M:特に用途を指定しない普段遣い
- qwen/qwen3-4b-thinking-2507 Q4_K_M:特に用途を指定しない場合のリーズニングモデル
- Qwen2-VL-2B-Instruct-GGUF/Qwen2-VL-2B-Instruct-Q4_K_S.gguf:画像認識を使いたい場合のモデル
- google/gemma-3-4b Q4_K_M:Qwen2-VL-2Bのほうが速いけど、結果からなにかしたい場合はこっち
- Jan-v1-4B-GGUF/Jan-v1-4B-Q4_K_M.gguf:リーズニングモデルでツールを使いたい場合のモデル
- Jan-nano-128k-gguf/jan-nano-128k-Q4_K_S.gguf:非リーズニングモデルでツールを使いたい場合のモデル
前回の投稿ではGemma 2とかも使ってたけど、正直上記のものを普通に使えばいいかなという結論に至った。 速度としてはびっくりするほど速い訳では無いが、使えないほど致命的に遅いわけではないのでこんなもんかなと。
多分、比較的新しいデスクトップPCの内蔵GPUでも、もう少し速く動くとは思う。
あと、一応Anything LLMのMCP設定も置いておく
{
"mcpServers": {
"Context7": {
"command": "npx",
"args": ["-y", "@upstash/context7-mcp"]
},
"microsoft.docs.mcp": {
"command": "npx",
"args": [
"-y",
"mcp-remote",
"https://learn.microsoft.com/api/mcp"
]
}
}
}