Outils pour utilisateurs

Outils du site


informatique:ai_coding:gpu_bench

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
informatique:ai_coding:gpu_bench [02/12/2025 20:14] – [GPU Bench] cyrilleinformatique:ai_coding:gpu_bench [03/12/2025 07:56] (Version actuelle) – [EuroLLM-9B-Instruct-Q4_0] cyrille
Ligne 7: Ligne 7:
 | RTX 5060 Ti (16 Go) |  ~759 TOPS |  ~380 TOPS | Blackwell | | RTX 5060 Ti (16 Go) |  ~759 TOPS |  ~380 TOPS | Blackwell |
  
-Résumé de tests :+Bench llama.cpp : 
 + 
 +  * Text generation: tg128, tg256, tg512 : ''-p 0 -n 128,256,512'' 
 +  * Prompt processing: b128, b256, b512 : ''-p 1024 -n 0 -b 128,256,512''
  
 ^  models                          ^ test  ^  tokens/seconds  ^^^ ^  models                          ^ test  ^  tokens/seconds  ^^^
Ligne 14: Ligne 17:
 | //size: 5.07 GiB//               | tg256 |     ... |     57.61 |       73.32 | | //size: 5.07 GiB//               | tg256 |     ... |     57.61 |       73.32 |
 |                                  | tg512 |     ... |     56.20 |       71.80 | |                                  | tg512 |     ... |     56.20 |       71.80 |
 +|                                  | b128  |     ... |   1825.17 |     2840.57 |
 +|                                  | b256  |     ... |   1924.10 |     3209.52 |
 +|                                  | b512  |     ... |   1959.18 |     3271.22 |
 | Qwen2.5-coder-7b-instruct-q8_0   | tg128 |     ... |     41.42 |       50.33 | | Qwen2.5-coder-7b-instruct-q8_0   | tg128 |     ... |     41.42 |       50.33 |
 | //size: 7.54 GiB//               | tg256 |     ... |     41.38 |       50.33 | | //size: 7.54 GiB//               | tg256 |     ... |     41.38 |       50.33 |
 |                                  | tg512 |     ... |     40.70 |       49.62 | |                                  | tg512 |     ... |     40.70 |       49.62 |
 +|                                  | b128  |   13.98 |   1952.96 |     2972.52 |
 +|                                  | b256  |     ... |   2054.09 |     3460.41 |
 +|                                  | b512  |     ... |   2093.21 |     3511.29 |
 | EuroLLM-9B-Instruct-Q4_0         | tg128 |     ... |     56.06 |       71.41 | | EuroLLM-9B-Instruct-Q4_0         | tg128 |     ... |     56.06 |       71.41 |
 | //size: 4.94 GiB//               | tg256 |     ... |     55.96 |       71.15 | | //size: 4.94 GiB//               | tg256 |     ... |     55.96 |       71.15 |
 |                                  | tg512 |     ... |     53.87 |       69.45 | |                                  | tg512 |     ... |     53.87 |       69.45 |
-| Qwen3-14B-UD-Q5_K_XL             | tg128 |     ... |      |       37.66 | +|                                  | b128  |     ... |   1433.95 |  CUDA error | 
-| //size: 9.82 GiB//               | tg256 |     ... |      |       38.17 | +|                                  | b256  |     ... |   1535.06 |         ... | 
-|                                  | tg512 |     ... |      |       37.30 |+|                                  | b512  |     ... |   1559.88 |         ... | 
 +| Qwen3-14B-UD-Q5_K_XL             | tg128 |     ... |     30.00 |       37.66 | 
 +| //size: 9.82 GiB//               | tg256 |     ... |     29.97 |       38.17 | 
 +|                                  | tg512 |     ... |     29.25 |       37.30 
 +|                                  | b128  |     ... |    903.97 |  CUDA error | 
 +|                                  | b256  |     ... |    951.71 |         ... | 
 +|                                  | b512  |     ... |    963.76 |         ... |
  
 ===== Intel® Core™ i7-1360P 13th Gen ===== ===== Intel® Core™ i7-1360P 13th Gen =====
Ligne 60: Ligne 75:
 </code> </code>
  
-=== Qwen2.5-coder-7b-instruct-q8_0 === 
- 
-<code> 
-./build/bin/llama-bench -m ~/Data/AI_Models/Qwen2.5-coder-7b-instruct-q8_0.gguf -p 0 -n 128,256,512 
-ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no 
-ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no 
-ggml_cuda_init: found 1 CUDA devices: 
-  Device 0: NVIDIA GeForce RTX 3060, compute capability 8.6, VMM: yes 
-| model                          |       size |     params | backend    | ngl |            test |                  t/s | 
-| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: | 
-| qwen2 7B Q8_0                  |   7.54 GiB |     7.62 B | CUDA        99 |           tg128 |         41.42 ± 0.00 | 
-| qwen2 7B Q8_0                  |   7.54 GiB |     7.62 B | CUDA        99 |           tg256 |         41.38 ± 0.05 | 
-| qwen2 7B Q8_0                  |   7.54 GiB |     7.62 B | CUDA        99 |           tg512 |         40.70 ± 0.01 | 
-</code> 
- 
-=== EuroLLM-9B-Instruct-Q4_0 === 
- 
-<code> 
-./build/bin/llama-bench -m ~/Data/AI_Models/EuroLLM-9B-Instruct-Q4_0.gguf -p 0 -n 128,256,512 
-ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no 
-ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no 
-ggml_cuda_init: found 1 CUDA devices: 
-  Device 0: NVIDIA GeForce RTX 3060, compute capability 8.6, VMM: yes 
-| model                          |       size |     params | backend    | ngl |            test |                  t/s | 
-| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: | 
-| llama ?B Q4_0                  |   4.94 GiB |     9.15 B | CUDA        99 |           tg128 |         56.06 ± 0.01 | 
-| llama ?B Q4_0                  |   4.94 GiB |     9.15 B | CUDA        99 |           tg256 |         55.96 ± 0.02 | 
-| llama ?B Q4_0                  |   4.94 GiB |     9.15 B | CUDA        99 |           tg512 |         53.87 ± 0.03 | 
-</code> 
  
  
Ligne 110: Ligne 96:
 </code> </code>
  
-=== Qwen2.5-coder-7b-instruct-q8_0 === 
  
-<code> 
-$ ~/Code/bronx/AI_Coding/llama.cpp/build/bin/llama-bench -m ~/Data/AI_Models/Qwen2.5-coder-7b-instruct-q8_0.gguf -p 0 -n 128,256,512 
-ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no 
-ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no 
-ggml_cuda_init: found 1 CUDA devices: 
-  Device 0: NVIDIA GeForce RTX 5060 Ti, compute capability 12.0, VMM: yes 
-| model                          |       size |     params | backend    | ngl |            test |                  t/s | 
-| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: | 
-| qwen2 7B Q8_0                  |   7.54 GiB |     7.62 B | CUDA        99 |           tg128 |         50.33 ± 0.01 | 
-| qwen2 7B Q8_0                  |   7.54 GiB |     7.62 B | CUDA        99 |           tg256 |         50.33 ± 0.01 | 
-| qwen2 7B Q8_0                  |   7.54 GiB |     7.62 B | CUDA        99 |           tg512 |         49.62 ± 0.02 | 
  
-build: 3f3a4fb9c (7130) 
-</code> 
  
-=== EuroLLM-9B-Instruct-Q4_0 === 
- 
-<code> 
-$ ./llama.cpp/build/bin/llama-bench -m ~/Data/AI_Models/EuroLLM-9B-Instruct-Q4_0.gguf -p 0 -n 128,256,512 
-ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no 
-ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no 
-ggml_cuda_init: found 1 CUDA devices: 
-  Device 0: NVIDIA GeForce RTX 5060 Ti, compute capability 12.0, VMM: yes 
-| model                          |       size |     params | backend    | ngl |            test |                  t/s | 
-| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: | 
-| llama ?B Q4_0                  |   4.94 GiB |     9.15 B | CUDA        99 |           tg128 |         71.41 ± 0.05 | 
-| llama ?B Q4_0                  |   4.94 GiB |     9.15 B | CUDA        99 |           tg256 |         71.15 ± 0.60 | 
-| llama ?B Q4_0                  |   4.94 GiB |     9.15 B | CUDA        99 |           tg512 |         69.45 ± 0.08 | 
- 
-build: 3f3a4fb9c (7130) 
-</code> 
  
 ===== Traduction ===== ===== Traduction =====
informatique/ai_coding/gpu_bench.1764702870.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki