informatique:ai_lm:gpu_bench:llama-cpp_mtp
Ceci est une ancienne révision du document !
Multi-Tokens Prediction
Avec “Nvidia RTX 5060 Ti 16 Go” + “Intel Core Ultra 7 270K +”.
$ llama-cli Qwen3.6-35B-A3B-MTP-UD-Q4_K_XL.gguf --single-turn --spec-type draft-mtp --spec-draft-n-max 3 --predict 2048 -f prompt-1.txt [ Prompt: 320.3 t/s | Generation: 59.2 t/s ] [ Prompt: 321.5 t/s | Generation: 59.2 t/s ] [ Prompt: 322.3 t/s | Generation: 57.2 t/s ] $ llama-cli Qwen3.6-35B-A3B-MTP-UD-Q4_K_XL.gguf --single-turn --predict 2048 -f prompt-1.txt [ Prompt: 375.2 t/s | Generation: 62.0 t/s ] [ Prompt: 377.0 t/s | Generation: 62.0 t/s ] [ Prompt: 372.3 t/s | Generation: 61.9 t/s ]
informatique/ai_lm/gpu_bench/llama-cpp_mtp.1783009150.txt.gz · Dernière modification : de cyrille
