Outils pour utilisateurs

Outils du site


informatique:ai_lm:gpu_bench:llama-cpp_mtp

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
informatique:ai_lm:gpu_bench:llama-cpp_mtp [02/07/2026 18:33] cyrilleinformatique:ai_lm:gpu_bench:llama-cpp_mtp [02/07/2026 18:44] (Version actuelle) cyrille
Ligne 31: Ligne 31:
 [ Prompt: 387.1 t/s | Generation: 67.2 t/s ] [ Prompt: 387.1 t/s | Generation: 67.2 t/s ]
 [ Prompt: 389.5 t/s | Generation: 67.6 t/s ] [ Prompt: 389.5 t/s | Generation: 67.6 t/s ]
 +
 +Modèle non MTP avec décharge de MoE :
 +
 +$ llama-cli Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf --single-turn --predict 2048 -f prompt-1.txt --n-cpu-moe 13 --gpu-layers 99
 +[ Prompt: 384.3 t/s | Generation: 69.3 t/s ]
 +[ Prompt: 385.0 t/s | Generation: 69.3 t/s ]
 +[ Prompt: 385.9 t/s | Generation: 69.4 t/s ]
 </code> </code>
  
informatique/ai_lm/gpu_bench/llama-cpp_mtp.1783009983.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki