Ceci est une ancienne révision du document !
Model bench

Avec OpenCode et le prompt “hello”.
gemma-4-26B-A4B-it-Q4_K_M
~/Code/bronx/AI_Coding/llama.cpp-86/build/bin/llama-server –host 0.0.0.0 –port 8012 -m ~/Data/AI_Models/gemma-4-26B-A4B-it-Q4_K_M.gguf –jinja -c 0
0.20.076.426 I srv          init: init: chat template, thinking = 1
0.20.076.461 I srv  llama_server: model loaded
0.20.076.464 I srv  llama_server: server is listening on http://0.0.0.0:8012
0.20.076.470 I srv  update_slots: all slots are idle
0.35.420.649 I srv  params_from_: Chat format: peg-gemma4
0.35.423.645 I slot get_availabl: id  3 | task -1 | selected slot by LRU, t_last = -1
0.35.423.649 I srv  get_availabl: updating prompt cache
0.35.423.655 I srv          load:  - looking for better prompt, base f_keep = -1.000, sim = 0.000
0.35.423.660 I srv        update:  - cache state: 0 prompts, 0.000 MiB (limits: 8192.000 MiB, 262144 tokens, 8589934592 est)
0.35.423.660 I srv  get_availabl: prompt cache update took 0.01 ms
0.35.423.720 I slot launch_slot_: id  3 | task 0 | processing task, is_child = 0
0.35.535.675 I srv  params_from_: Chat format: peg-gemma4
0.39.629.088 I slot get_availabl: id  2 | task -1 | selected slot by LRU, t_last = -1
0.39.629.091 I srv  get_availabl: updating prompt cache
0.39.629.094 I srv          load:  - looking for better prompt, base f_keep = -1.000, sim = 0.000
0.39.629.104 I srv        update:  - cache state: 0 prompts, 0.000 MiB (limits: 8192.000 MiB, 262144 tokens, 8589934592 est)
0.39.629.105 I srv  get_availabl: prompt cache update took 0.01 ms
0.39.629.271 I slot launch_slot_: id  2 | task 2 | processing task, is_child = 0
0.56.428.045 I slot print_timing: id  2 | task 2 | prompt processing, n_tokens =   2048, progress = 0.27, t =  16.80 s / 121.91 tokens per second
1.12.652.905 I slot print_timing: id  2 | task 2 | prompt processing, n_tokens =   4096, progress = 0.54, t =  33.02 s / 124.03 tokens per second
1.29.289.605 I slot print_timing: id  2 | task 2 | prompt processing, n_tokens =   6144, progress = 0.81, t =  49.66 s / 123.72 tokens per second
1.29.289.781 I slot print_timing: id  3 | task 0 | prompt processing, n_tokens =    346, progress = 0.40, t =  53.87 s / 6.42 tokens per second
1.40.334.265 I slot print_timing: id  2 | task 2 | prompt processing, n_tokens =   7034, progress = 0.93, t =  60.70 s / 115.87 tokens per second
1.40.334.442 I slot print_timing: id  3 | task 0 | prompt processing, n_tokens =    546, progress = 0.63, t =  64.91 s / 8.41 tokens per second
1.40.412.062 I slot create_check: id  3 | task 0 | created context checkpoint 1 of 32 (pos_min = 0, pos_max = 545, n_tokens = 546, size = 106.647 MiB)
1.44.624.183 I slot print_timing: id  2 | task 2 | prompt processing, n_tokens =   7234, progress = 0.96, t =  64.99 s / 111.30 tokens per second
1.45.125.971 I slot create_check: id  2 | task 2 | created context checkpoint 1 of 32 (pos_min = 3484, pos_max = 7233, n_tokens = 7234, size = 732.465 MiB)
1.45.125.976 I slot print_timing: id  3 | task 0 | prompt processing, n_tokens =    858, progress = 1.00, t =  69.70 s / 12.31 tokens per second
1.45.244.936 I slot create_check: id  3 | task 0 | created context checkpoint 2 of 32 (pos_min = 0, pos_max = 857, n_tokens = 858, size = 167.589 MiB)
1.49.037.281 I slot print_timing: id  2 | task 2 | prompt processing, n_tokens =   7546, progress = 1.00, t =  69.41 s / 108.72 tokens per second
1.49.539.191 I slot create_check: id  2 | task 2 | created context checkpoint 2 of 32 (pos_min = 3800, pos_max = 7545, n_tokens = 7546, size = 731.684 MiB)
1.49.733.653 I reasoning-budget: activated, budget=2147483647 tokens
1.57.457.755 I reasoning-budget: deactivated (natural end)
1.57.643.455 I slot print_timing: id  3 | task 0 | n_decoded =    100, tg =  11.62 t/s
1.57.734.954 I slot print_timing: id  2 | task 2 | n_decoded =    100, tg =  12.39 t/s
1.58.436.181 I slot print_timing: id  2 | task 2 | prompt eval time =   70036.31 ms /  7550 tokens (    9.28 ms per token,   107.80 tokens per second)
1.58.436.188 I slot print_timing: id  2 | task 2 |        eval time =    8770.57 ms /   107 tokens (   81.97 ms per token,    12.20 tokens per second)
1.58.436.189 I slot print_timing: id  2 | task 2 |       total time =   78806.87 ms /  7657 tokens
1.58.436.194 I slot print_timing: id  2 | task 2 |    graphs reused =        105
1.58.436.991 I slot      release: id  2 | task 2 | stop processing: n_tokens = 7656, truncated = 0
2.00.674.198 I slot print_timing: id  3 | task 0 | n_decoded =    153, tg =  13.15 t/s
2.03.697.960 I slot print_timing: id  3 | task 0 | n_decoded =    217, tg =  14.80 t/s
2.06.726.056 I slot print_timing: id  3 | task 0 | n_decoded =    281, tg =  15.89 t/s
2.09.759.680 I slot print_timing: id  3 | task 0 | n_decoded =    345, tg =  16.65 t/s
2.12.763.818 I slot print_timing: id  3 | task 0 | n_decoded =    408, tg =  17.20 t/s
2.15.807.460 I slot print_timing: id  3 | task 0 | n_decoded =    474, tg =  17.71 t/s
2.18.833.658 I slot print_timing: id  3 | task 0 | n_decoded =    538, tg =  18.06 t/s
2.21.846.198 I slot print_timing: id  3 | task 0 | n_decoded =    602, tg =  18.35 t/s
2.24.862.006 I slot print_timing: id  3 | task 0 | n_decoded =    667, tg =  18.62 t/s
2.27.863.732 I slot print_timing: id  3 | task 0 | n_decoded =    731, tg =  18.83 t/s
2.30.873.932 I slot print_timing: id  3 | task 0 | n_decoded =    797, tg =  19.05 t/s
2.33.923.339 I slot print_timing: id  3 | task 0 | n_decoded =    862, tg =  19.20 t/s
2.36.953.349 I slot print_timing: id  3 | task 0 | n_decoded =    926, tg =  19.33 t/s
2.39.978.864 I slot print_timing: id  3 | task 0 | n_decoded =    991, tg =  19.45 t/s
2.42.989.048 I slot print_timing: id  3 | task 0 | n_decoded =   1053, tg =  19.52 t/s
2.43.175.514 I slot print_timing: id  3 | task 0 | prompt eval time =   73613.51 ms /   862 tokens (   85.40 ms per token,    11.71 tokens per second)
2.43.175.519 I slot print_timing: id  3 | task 0 |        eval time =   54138.25 ms /  1057 tokens (   51.22 ms per token,    19.52 tokens per second)
2.43.175.520 I slot print_timing: id  3 | task 0 |       total time =  127751.76 ms /  1919 tokens
2.43.175.521 I slot print_timing: id  3 | task 0 |    graphs reused =       1049
2.43.175.623 I slot      release: id  3 | task 0 | stop processing: n_tokens = 1918, truncated = 0
2.43.175.638 I srv  update_slots: all slots are idle
gpt-oss-20b-UD-Q4_K_XL
~/Code/bronx/AI_Coding/llama.cpp-86/build/bin/llama-server –host 0.0.0.0 –port 8012 -m ~/Data/AI_Models/gpt-oss-20b-UD-Q4_K_XL.gguf –jinja -c 0