Différences

Ci-dessous, les différences entre deux révisions de la page.

--- informatique:ai_coding [28/11/2025 13:09] – [Online services] cyrille
+++ informatique:ai_coding [05/12/2025 17:40] (Version actuelle) – [Avec GPU] cyrille
@@ Ligne 4: / Ligne 4: @@
 Explications:
+  * introduction aux LLM : [[https://www.linagora.ai/introduction-aux-llm|Démystifier les (LLM) et comment les mettre en œuvre chez vous pour les étudier de plus près]]
   * [[https://berdachuk.com/ai/how-to-run-llms-locally|How to Run LLMs Locally: A Complete Step-by-Step Guide]] (//2025-05-27//) sur la quatification, format GGUF, Group Size Suffix (S/M/L)
-Dans les news:
+Autres pages:
-  * [[https://korben.info/eurollm-llm-europeen-local-ollama-laptop.html|EuroLLM - Le LLM européen qui tourne sur votre laptop]]
-    * [[https://huggingface.co/utter-project/EuroLLM-9B|huggingface/utter-project/EuroLLM-9B]]
-      * https://huggingface.co/bartowski/EuroLLM-9B-Instruct-GGUF
-  * [[https://www.channelnews.fr/avec-son-moteur-ia-ultra-leger-et-ultra-puissant-lighton-rend-la-deep-research-accessible-et-souveraine-148246|LightOn dévoile Reason-ModernColBERT]]
-    * un modèle open source taillé pour la Deep Research et capable de battre des géants du retrieval avec seulement 150 millions de paramètres. L’entraînement complet ne prend que deux heures et moins de 100 lignes de code, ouvrant la voie à un fine-tuning rapide sur des corpus privés
   * [[/informatique/ai_coding/samples|Quelques essais perso]]
+  * Un peu de [[/informatique/ai_coding/gpu_bench|GPU bench]]
+  * Pour d'[[#autres_usages|Autres usages]] que la programmation informatique (codage)
 ===== Sur les perfs =====
@@ Ligne 61: / Ligne 57: @@
 </code>
-Attention, les résultats peuvent être très différents:
+👾 Attention, les résultats peuvent être très différents:
   * d'une simple phrase de définition à un exemple de code
+    * mais je n'ai pas modifier la taille du ''context'', ce qui a une grande importance sur la taille/qualité de la réponse ...
   * aussi, le ''system message prompt'' est sélectionné par opencode ...
     * https://github.com/sst/opencode/issues/4861
@@ Ligne 182: / Ligne 179: @@
 [[https://cdn-uploads.huggingface.co/production/uploads/64d1faaa1ed6649d70d1fa2f/jYT1Iq9Jv6vw8Cllr3DuX.png|{{https://cdn-uploads.huggingface.co/production/uploads/64d1faaa1ed6649d70d1fa2f/jYT1Iq9Jv6vw8Cllr3DuX.png?600}}]]
+==== Autres usages ====
+  * [[https://linagora.com/webinaire-openllm-lucie-un-modele-souverain-reellement-open-source|LUCIE, le modèle d’IA Open Source dédié à l’Éducation]]
+    * [[https://openllm-france.fr/|Lucie-7B, notre premier modèle fondation entraîné à partir de zéro, est le plus gros modèle fondation qui a été entraîné sur plus de 30 % de données françaises]] sur openllm-france.fr
+    * [[https://huggingface.co/OpenLLM-France/Lucie-7B-Instruct-human-data|Model Card for Lucie-7B-Instruct-human-data]]
+  * [[https://eurollm.io/|EuroLLM, Large language model made in Europe built to support all official 24 EU languages]]
+    * [[https://korben.info/eurollm-llm-europeen-local-ollama-laptop.html|EuroLLM - Le LLM européen qui tourne sur votre laptop]]
+      * [[https://huggingface.co/utter-project/EuroLLM-9B|huggingface/utter-project/EuroLLM-9B]]
+        * https://huggingface.co/bartowski/EuroLLM-9B-Instruct-GGUF
+  * [[https://github.com/bofenghuang/vigogne/blob/main/docs/model.md|Vigogne]] modèles réentrainer en français (//2023//)
+    * [[https://github.com/bofenghuang/vigogne/blob/main/blogs/2023-08-17-vigogne-chat-v2_0.md|Voilà Voilà: Unleashing Vigogne Chat V2.0]]
+  * [[https://www.channelnews.fr/avec-son-moteur-ia-ultra-leger-et-ultra-puissant-lighton-rend-la-deep-research-accessible-et-souveraine-148246|LightOn dévoile Reason-ModernColBERT]]
+    * un modèle open source taillé pour la Deep Research et capable de battre des géants du retrieval avec seulement 150 millions de paramètres. L’entraînement complet ne prend que deux heures et moins de 100 lignes de code, ouvrant la voie à un fine-tuning rapide sur des corpus privés
 ===== Models servers =====
@@ Ligne 191: / Ligne 203: @@
 <code bash>
 ./bin/llama-server -m devstralQ5_K_M.gguf --port 8012 --jinja --ctx-size 20000
+~/Code/bronx/AI_Coding/llama.cpp/build/bin/llama-server --port 8012 --chatml -m ~/Data/AI_Models/Qwen2.5-coder-7b-instruct-q8_0.gguf --ctx-size 48000
 </code>
-Models:
+Quid des chat formats ? Est-ce lié au modèle ?
+  * ''--jinja''
+  * ''--chatml''
+Modèles:
   * Les models au format GGUF, en fichier ou url sur [[https://huggingface.co/|Hugging Face]], [[https://modelscope.cn/|ModelScope]]
   * [[https://github.com/ggml-org/llama.cpp#obtaining-and-quantizing-models|Obtaining and quantizing models]]
@@ Ligne 205: / Ligne 223: @@
 Il faut le compiler avec CUDA. Avec une version >= 11.7 pour [[https://github.com/ggml-org/llama.cpp/issues/11112|compatibilité syntaxe]].
+  * [[https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md#cuda|Build llama.cpp with CUDA]]
 J'ai [[https://linuxcapable.com/how-to-install-cuda-on-debian-linux/|installé CUDA]] le [[https://developer.nvidia.com/blog/updating-the-cuda-linux-gpg-repository-key|dépot Nvidia]] Cuda et cuda toolkit 13
 <code>
-$ cat /etc/apt/sources.list.d/nvidia-cuda.list
+$ sudo cat /etc/apt/sources.list.d/cuda-ubuntu2404-x86_64.list
-deb [signed-by=/usr/share/keyrings/cuda-archive-keyring.gpg] https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /
+deb [signed-by=/usr/share/keyrings/cuda-archive-keyring.gpg]
+ https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/ /
 </code>
@@ Ligne 218: / Ligne 239: @@
 </code>
-puis une très longue compilation avec :
+Ensuite une très très longue compilation :
+DCMAKE_CUDA_ARCHITECTURES: ''86'' pour RTX 3060 et ''120'' pour RTX 5060.
 <code>
@@ Ligne 224: / Ligne 247: @@
 # RTX 3060 : 86
 # RTX 5060 : 120
-cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES="86;120"
+$ cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES="86;120" \
-cmake --build build --config Release
+ -DCMAKE_CUDA_COMPILER=/usr/local/cuda-12.9/bin/nvcc -DCMAKE_INSTALL_RPATH="/usr/local/cuda-12.9/lib64;\$ORIGIN" -DCMAKE_BUILD_WITH_INSTALL_RPATH=ON
+-- ccache found, compilation results will be cached. Disable with GGML_CCACHE=OFF.
+-- CMAKE_SYSTEM_PROCESSOR: x86_64
+-- GGML_SYSTEM_ARCH: x86
+-- Including CPU backend
+-- x86 detected
+-- Adding CPU backend variant ggml-cpu: -march=native
+-- CUDA Toolkit found
+-- Using CUDA architectures: 86;120
+-- CUDA host compiler is GNU 13.3.0
+-- Including CUDA backend
+-- ggml version: 0.9.4
+-- ggml commit:  6016d0bd4
+-- Configuring done (0.5s)
+-- Generating done (0.2s)
+-- Build files have been written to: /home/cyrille/Code/bronx/AI_Coding/llama.cpp/build
+$ cmake --build build --config Release
+...
+real	44m35,149s
+user	42m38,100s
+sys	1m51,594s
 </code>