LM StudioでLLMが動いたのはいいけど、どうも汎用ドライバみたいなもので動いているらしくて、IPEX-LLMというIntel謹製のものを使ったllamaを使うと速くなるらしい。
ここのバイナリを使えばIntelのGPUに最適化されたollamaが使えるらしいが、どうもうまく動かない。仕方がないので一から環境構築をする。
色々と情報があるが、とりあえずこの方法で行けそう。 一応この手順で構築できたものの、やはり何故か出力が壊れる。悲しい。
よくわからんので、とりあえずWSLでやってみることにした。 が、やはり動作しない。
IPEX-LLM release 2.2.0は一応問題なく動作するので、とりあえずこれで動かす方向で考えよう。 多分時間の無駄なので、2.3.0 nightly buildは使わないほうが良さそう。
ただ、ollamaのバージョンが古くてQwen3を動かすことができないらしい。 まあ生成速度は確かに速くなってるので、gemma3:4bでも使っとけばいいかな・・・。
と思ったらgemma3も使えないので、流石にちょっとこれはどうかなと。
諦めてLM StudioのVulkan llama.cppで動かすかなぁ。このノートパソコンで10トークン/secくらい出るから、まあもう少し速いiGPUならもっと速度が出るだろう・・・。