Outils pour utilisateurs

Outils du site


informatique:ai_lm:gpu_bench

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
informatique:ai_lm:gpu_bench [30/01/2026 14:40] cyrilleinformatique:ai_lm:gpu_bench [16/03/2026 17:04] (Version actuelle) – [Stabilité] cyrille
Ligne 2: Ligne 2:
  
   * [[https://blogs.nvidia.com/blog/tag/rtx-ai-garage/|RTX AI Garage]] sur blog de nvidia   * [[https://blogs.nvidia.com/blog/tag/rtx-ai-garage/|RTX AI Garage]] sur blog de nvidia
- 
  
  
Ligne 76: Ligne 75:
     * le multi-threads physique est utile. Ex: en auto 7.37 t/s, avec 1 thread 3.39 t/s     * le multi-threads physique est utile. Ex: en auto 7.37 t/s, avec 1 thread 3.39 t/s
  
-La ''quantization'' ne change pas la consommation mémoire, exemples avec toujours 30 layers dans le GPU : 
-  * GemmaCoder3-12B-Q5_K_M, fichier 8.4Go, ''<nowiki>--ctx-size 0 --n-gpu-layers=30</nowiki>'' 
-  * GemmaCoder3-12B-IQ4_NL, fichier 6.9Go, ''<nowiki>--ctx-size 0 --n-gpu-layers=30</nowiki>'' 
-  * GemmaCoder3-12B-IQ4_XS, fichier 6.6Go, ''<nowiki>--ctx-size 0 --n-gpu-layers=30</nowiki>'' 
-Avec un modèle plus petit, comme ''8B'' (//Meta-Llama-3.1-8B-Instruct-Q4_K_L//), un context de 131k peut déborder les 12Go de la RTX 3060. 
  
 ===== Intel® Core™ i7-1360P 13th Gen ===== ===== Intel® Core™ i7-1360P 13th Gen =====
Ligne 271: Ligne 265:
     *      * 
  
 +Après 2 mois de re-essais avec des configs grub et modprobe de toutes sortes avec l'aide de forums et d'assistants (Claude, ChatGpt, LeChat), une solution apparaît [[https://github.com/NVIDIA/open-gpu-kernel-modules/issues/974|sur ce ticket]] : forcer le PCI en "Gen 3"
  
 +<code>
 +# Pour récupérer l'adresse PCI "0000:05:00.0" de la RTX:
 +lspci | grep -i nvidia
  
 +sudo lspci -vvv -s 0000:05:00.0 | grep -i "LnkCap\|LnkSta"
 +   LnkCap: Port #0, Speed 32GT/s, Width x8, ASPM L1, Exit Latency L1 unlimited
 +   LnkSta: Speed 8GT/s (downgraded), Width x4 (downgraded)
 +   LnkCap2: Supported Link Speeds: 2.5-32GT/s, Crosslink- Retimer+ 2Retimers+ DRS-
 +   LnkSta2: Current De-emphasis Level: -6dB, EqualizationComplete+ EqualizationPhase1+
  
 +sudo setpci -s 0000:05:00.0 CAP_EXP+0xC.W=0x0003
  
 +sudo lspci -vvv -s 0000:05:00.0 | grep -i "LnkCap\|LnkSta"
 +   LnkCap: Port #0, Speed 32GT/s, Width x8, ASPM L1, Exit Latency L1 unlimited
 +   LnkSta: Speed 2.5GT/s (downgraded), Width x4 (downgraded)
 +   LnkCap2: Supported Link Speeds: 2.5-32GT/s, Crosslink- Retimer+ 2Retimers+ DRS-
 +   LnkSta2: Current De-emphasis Level: -6dB, EqualizationComplete+ EqualizationPhase1+
 +</code>
 +
 +**Mais non**, ça a bien fonctionné avec ''llama-bench'' mais pas avec Yolo:
 +
 +<code>
 +kernel: NVRM: GPU at PCI:0000:05:00: GPU-ab296f23-e6a6-a23b-b6c1-33f9b813df84
 +kernel: NVRM: GPU Board Serial Number: 0
 +kernel: NVRM: Xid (PCI:0000:05:00): 13, Graphics Exception: Class 0xffff Subchannel 0x0 Mismatch
 +kernel: NVRM: Xid (PCI:0000:05:00): 13, Graphics Exception: ESR 0x4041b0=0x3f20ffff
 +kernel: NVRM: Xid (PCI:0000:05:00): 13, Graphics Exception: ESR 0x404000=0x80000002
 +kernel: NVRM: Xid (PCI:0000:05:00): 13, pid=6871, name=python3, Graphics Exception: channel 0x00000002, Class 0000cec0, Offset 00000100, Data deaddead
 +</code>
 + 
 ===== Traduction ===== ===== Traduction =====
  
informatique/ai_lm/gpu_bench.1769780402.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki