Différences

Ci-dessous, les différences entre deux révisions de la page.

--- informatique:ai_lm:gpu_bench:llama-cpp_mtp [02/07/2026 18:33] – cyrille
+++ informatique:ai_lm:gpu_bench:llama-cpp_mtp [02/07/2026 18:44] (Version actuelle) – cyrille
@@ Ligne 31: / Ligne 31: @@
 [ Prompt: 387.1 t/s | Generation: 67.2 t/s ]
 [ Prompt: 389.5 t/s | Generation: 67.6 t/s ]
+Modèle non MTP avec décharge de MoE :
+$ llama-cli Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf --single-turn --predict 2048 -f prompt-1.txt --n-cpu-moe 13 --gpu-layers 99
+[ Prompt: 384.3 t/s | Generation: 69.3 t/s ]
+[ Prompt: 385.0 t/s | Generation: 69.3 t/s ]
+[ Prompt: 385.9 t/s | Generation: 69.4 t/s ]
 </code>