Joy to the world

とある中小企業のしがない技術者でクリスチャンな人が書く日記。実はメビウス症候群当事者だったり、統合失調症のパートナーがいたりする。

ローカルLLMとりあえず普段遣い決定

前回の投稿で色々と調べてみたけど、結局のところローカルLLMは下のやつを用途に応じてでいいかなという結論になった。

  • google/gemma-3n-e4b:結構速いので、ほかモデルで日本語が怪しい場合はこっちでもいいかも
  • gemma-2-2b-jpn-it-gguf/gemma-2-2b-jpn-it-Q4_K_M.gguf:軽いのでちょっとした翻訳には便利
  • qwen/qwen3-4b-2507 Q4_K_M:特に用途を指定しない普段遣い
  • qwen/qwen3-4b-thinking-2507 Q4_K_M:特に用途を指定しない場合のリーズニングモデル
  • Qwen2-VL-2B-Instruct-GGUF/Qwen2-VL-2B-Instruct-Q4_K_S.gguf:画像認識を使いたい場合のモデル
  • google/gemma-3-4b Q4_K_M:Qwen2-VL-2Bのほうが速いけど、結果からなにかしたい場合はこっち
  • Jan-v1-4B-GGUF/Jan-v1-4B-Q4_K_M.gguf:リーズニングモデルでツールを使いたい場合のモデル
  • Jan-nano-128k-gguf/jan-nano-128k-Q4_K_S.gguf:非リーズニングモデルでツールを使いたい場合のモデル

前回の投稿ではGemma 2とかも使ってたけど、正直上記のものを普通に使えばいいかなという結論に至った。 速度としてはびっくりするほど速い訳では無いが、使えないほど致命的に遅いわけではないのでこんなもんかなと。

多分、比較的新しいデスクトップPCの内蔵GPUでも、もう少し速く動くとは思う。

あと、一応Anything LLMのMCP設定も置いておく

{
  "mcpServers": {
    "Context7": {
      "command": "npx",
      "args": ["-y", "@upstash/context7-mcp"]
    },
    "microsoft.docs.mcp": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-remote",
        "https://learn.microsoft.com/api/mcp"
      ]
    }
  }
}