Outils pour utilisateurs

Outils du site


informatique:ai_lm:gpu_bench:llama-cpp_mtp

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
informatique:ai_lm:gpu_bench:llama-cpp_mtp [02/07/2026 18:04] – créée cyrilleinformatique:ai_lm:gpu_bench:llama-cpp_mtp [02/07/2026 18:44] (Version actuelle) cyrille
Ligne 3: Ligne 3:
   * [[https://github.com/ggml-org/llama.cpp/blob/master/docs/speculative.md|llama.cpp docs/speculative.md]]   * [[https://github.com/ggml-org/llama.cpp/blob/master/docs/speculative.md|llama.cpp docs/speculative.md]]
  
 +Ce bench n'est pas pertinent à cause de :
 +  * défaut connu de l'implémentation draft-mtp
 +  * sur les modèles MoE
 +  * avec VRAM limitée sous CUDA
 +
 +Avec "Nvidia RTX 5060 Ti 16 Go" + "Intel Core Ultra 7 270K +".
 +
 +<code>
 +Modèle MTP avec spec draft-mtp :
 +
 +$ llama-cli Qwen3.6-35B-A3B-MTP-UD-Q4_K_XL.gguf --single-turn --spec-type draft-mtp --spec-draft-n-max 3 --predict 2048 -f prompt-1.txt
 +[ Prompt: 320.3 t/s | Generation: 59.2 t/s ]
 +[ Prompt: 321.5 t/s | Generation: 59.2 t/s ]
 +[ Prompt: 322.3 t/s | Generation: 57.2 t/s ]
 +
 +Modèle MTP sans spec draft-mtp :
 +
 +$ llama-cli Qwen3.6-35B-A3B-MTP-UD-Q4_K_XL.gguf --single-turn --predict 2048 -f prompt-1.txt
 +[ Prompt: 375.2 t/s | Generation: 62.0 t/s ]
 +[ Prompt: 377.0 t/s | Generation: 62.0 t/s ]
 +[ Prompt: 372.3 t/s | Generation: 61.9 t/s ]
 +
 +Modèle non MTP :
 +
 +$ llama-cli Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf --single-turn --predict 2048 -f prompt-1.txt
 +[ Prompt: 386.3 t/s | Generation: 67.6 t/s ]
 +[ Prompt: 387.1 t/s | Generation: 67.2 t/s ]
 +[ Prompt: 389.5 t/s | Generation: 67.6 t/s ]
 +
 +Modèle non MTP avec décharge de MoE :
 +
 +$ llama-cli Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf --single-turn --predict 2048 -f prompt-1.txt --n-cpu-moe 13 --gpu-layers 99
 +[ Prompt: 384.3 t/s | Generation: 69.3 t/s ]
 +[ Prompt: 385.0 t/s | Generation: 69.3 t/s ]
 +[ Prompt: 385.9 t/s | Generation: 69.4 t/s ]
 +</code>
  
informatique/ai_lm/gpu_bench/llama-cpp_mtp.1783008287.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki