Différences

Ci-dessous, les différences entre deux révisions de la page.

--- informatique:ai_lm:gpu_bench [30/01/2026 14:40] – cyrille
+++ informatique:ai_lm:gpu_bench [16/03/2026 17:04] (Version actuelle) – [Stabilité] cyrille
@@ Ligne 2: / Ligne 2: @@
   * [[https://blogs.nvidia.com/blog/tag/rtx-ai-garage/|RTX AI Garage]] sur blog de nvidia
@@ Ligne 76: / Ligne 75: @@
     * le multi-threads physique est utile. Ex: en auto 7.37 t/s, avec 1 thread 3.39 t/s
-La ''quantization'' ne change pas la consommation mémoire, exemples avec toujours 30 layers dans le GPU :
-  * GemmaCoder3-12B-Q5_K_M, fichier 8.4Go, ''<nowiki>--ctx-size 0 --n-gpu-layers=30</nowiki>''
-  * GemmaCoder3-12B-IQ4_NL, fichier 6.9Go, ''<nowiki>--ctx-size 0 --n-gpu-layers=30</nowiki>''
-  * GemmaCoder3-12B-IQ4_XS, fichier 6.6Go, ''<nowiki>--ctx-size 0 --n-gpu-layers=30</nowiki>''
-Avec un modèle plus petit, comme ''8B'' (//Meta-Llama-3.1-8B-Instruct-Q4_K_L//), un context de 131k peut déborder les 12Go de la RTX 3060.
 ===== Intel® Core™ i7-1360P 13th Gen =====
@@ Ligne 271: / Ligne 265: @@
     *
+Après 2 mois de re-essais avec des configs grub et modprobe de toutes sortes avec l'aide de forums et d'assistants (Claude, ChatGpt, LeChat), une solution apparaît [[https://github.com/NVIDIA/open-gpu-kernel-modules/issues/974|sur ce ticket]] : forcer le PCI en "Gen 3"
+<code>
+# Pour récupérer l'adresse PCI "0000:05:00.0" de la RTX:
+lspci | grep -i nvidia
+sudo lspci -vvv -s 0000:05:00.0 | grep -i "LnkCap\|LnkSta"
+   LnkCap:	Port #0, Speed 32GT/s, Width x8, ASPM L1, Exit Latency L1 unlimited
+   LnkSta:	Speed 8GT/s (downgraded), Width x4 (downgraded)
+   LnkCap2: Supported Link Speeds: 2.5-32GT/s, Crosslink- Retimer+ 2Retimers+ DRS-
+   LnkSta2: Current De-emphasis Level: -6dB, EqualizationComplete+ EqualizationPhase1+
+sudo setpci -s 0000:05:00.0 CAP_EXP+0xC.W=0x0003
+sudo lspci -vvv -s 0000:05:00.0 | grep -i "LnkCap\|LnkSta"
+   LnkCap:	Port #0, Speed 32GT/s, Width x8, ASPM L1, Exit Latency L1 unlimited
+   LnkSta:	Speed 2.5GT/s (downgraded), Width x4 (downgraded)
+   LnkCap2: Supported Link Speeds: 2.5-32GT/s, Crosslink- Retimer+ 2Retimers+ DRS-
+   LnkSta2: Current De-emphasis Level: -6dB, EqualizationComplete+ EqualizationPhase1+
+</code>
+**Mais non**, ça a bien fonctionné avec ''llama-bench'' mais pas avec Yolo:
+<code>
+kernel: NVRM: GPU at PCI:0000:05:00: GPU-ab296f23-e6a6-a23b-b6c1-33f9b813df84
+kernel: NVRM: GPU Board Serial Number: 0
+kernel: NVRM: Xid (PCI:0000:05:00): 13, Graphics Exception: Class 0xffff Subchannel 0x0 Mismatch
+kernel: NVRM: Xid (PCI:0000:05:00): 13, Graphics Exception: ESR 0x4041b0=0x3f20ffff
+kernel: NVRM: Xid (PCI:0000:05:00): 13, Graphics Exception: ESR 0x404000=0x80000002
+kernel: NVRM: Xid (PCI:0000:05:00): 13, pid=6871, name=python3, Graphics Exception: channel 0x00000002, Class 0000cec0, Offset 00000100, Data deaddead
+</code>
 ===== Traduction =====