Différences

Ci-dessous, les différences entre deux révisions de la page.

--- informatique:ai_lm [12/01/2026 11:37] – [AI Language Model] cyrille
+++ informatique:ai_lm [30/01/2026 15:31] (Version actuelle) – [Glossaire] cyrille
@@ Ligne 1: / Ligne 1: @@
 ====== AI Language Model ======
+Les modèles d’intelligence artificielle (IA), des simples algorithmes de régression jusqu’aux réseaux neuronaux complexes utilisés dans l’apprentissage profond, fonctionnent grâce à une logique mathématique. Toutes les données utilisées par un modèle d’intelligence artificielle, y compris les données non structurées comme le texte, l’audio ou les images, doivent être exprimées sous forme numérique. Le plongement vectoriel, ou représentation vectorielle, est une méthode qui permet de convertir un point de données non structuré en un tableau de nombres, tout en conservant la signification originale des données.
+Articles:
+  * introduction aux LLM : [[https://www.linagora.ai/introduction-aux-llm|Démystifier les (LLM) et comment les mettre en œuvre chez vous pour les étudier de plus près]]
+  * [[https://berdachuk.com/ai/how-to-run-llms-locally|How to Run LLMs Locally: A Complete Step-by-Step Guide]] (//2025-05-27//) sur la quatification, format GGUF, Group Size Suffix (S/M/L)
+  * [[https://zonetuto.fr/intelligence-artificielle/jai-lance-un-mini-chatgpt-en-local-sur-mon-cpu-avec-gpt4all/|J’ai lancé un mini ChatGPT en local sur mon CPU avec GPT4All]]
+  * [[https://zonetuto.fr/intelligence-artificielle/ajouter-un-modele-au-format-ggml-dans-gpt4all-sur-linux-ubuntu/|Ajouter un modèle au format ggml dans GPT4All sur Linux Ubuntu]]
 Autres pages:
+  * [[/informatique/ai_lm/ai_nlp|AI NLP]] (Natural Language Processing / traitement automatique du langage naturel)
   * [[/informatique/ai_lm/ai_coding|AI Coding]]
   * [[/informatique/ai_lm/ai_image|AI Image]]
+  * [[/informatique/ai_lm/gpu_bench|GPU Benchmarks]]
-===== Sur les Modèles =====
+===== Glossaire =====
+  * **LLM/SLM** Large Language Model / Small Language Model
   * **LoRA** (Low-Rank Adaptation): une méthode permet de "spécialiser" un peu un modèle est ajoutant des couches légères (qlqs Mo) et adaptables à un modèle pré-entraîné, au lieu de modifier tous ses poids ; 0,1% à 1% des paramètres du modèle sont entraînés. Le modèle de base reste inchangé, LoRA peut être désactivé.
     * [[https://github.com/axolotl-ai-cloud/axolotl|Axolotl]] A Free and Open Source LLM Fine-tuning Framework
@@ Ligne 21: / Ligne 32: @@
     * Un générateur de sélection (router) détermine quels experts utiliser pour chaque entrée.
     * permet de réduire le coût de calcul en ne passant les données que par un sous-ensemble des experts.
+  * **MCP** Model Context Protocol, voir [[/informatique/ai_lm/ai_coding#mcp_server|MCP Server]]
+  * **RAG** (Retrieval-Augmented Generation): combine deux capacités de l’IA -> la récupération d’informations et la génération de texte.
+  * [[/informatique/ai_lm/ai_coding#agents_ia|Agents IA]]
 Classification de modèles ouverts: [[https://www.ibm.com/fr-fr/products/watsonx-ai/foundation-models|Foundation models]] by Ibm
@@ Ligne 26: / Ligne 40: @@
 [[https://claude.ai/share/5d0d1604-20cd-4ec9-9f39-c2797197603d|Comment faire pour qu'un appel à un LLM ait un résultat reproductible d'une fois sur l'autre ?]]
+Hugging Face entreprise française créée en 2016 -> [[https://www.youtube.com/watch?v=8UWCLts47Ms|L'IA open source par Hugging Face - Gen AI Nantes]] 2024-01 par [[https://www.youtube.com/@juliensimonfr|Julien Simon]]
 ===== Sur les perfs =====
@@ Ligne 144: / Ligne 159: @@
   * [[https://www.grosbill.com/carte-graphique/pny-rtx-5060ti-16go-overclocked-dual-fan-155315.aspx|pny-rtx-5060ti-16go-overclocked]] 445€ TTC grosbill.com
-[[informatique:ai_lm:ai_coding:gpu_bench|gpu_bench]]
+[[informatique:ai_lm:gpu_bench|gpu_bench]]
 Tips: Reset nvidia et CUDA:
@@ Ligne 172: / Ligne 187: @@
 <code bash>
 ./bin/llama-server -m devstralQ5_K_M.gguf --port 8012 --jinja --ctx-size 20000
+./bin/llama-server --port 8012 --chatml -m ~/Data/AI_Models/Qwen2.5-coder-7b-instruct-q8_0.gguf --ctx-size 48000
-~/Code/bronx/AI_Coding/llama.cpp/build/bin/llama-server --port 8012 --chatml -m ~/Data/AI_Models/Qwen2.5-coder-7b-instruct-q8_0.gguf --ctx-size 48000
 </code>
+nouveautés hiver 2025-26:
+  * la répartition automatique entre GPU et CPU, plus besoin de gérer ''--n-gpu-layers''
+  * [[https://github.com/ggml-org/llama.cpp/pull/16391|host-memory prompt caching]] : <del>j'ai des scripts qui se sont mis à planter à cause de réponse avec ''content'' vide et ''reasoning_content'' archi plein. L'utilisation de l'option ''--cache-ram 0'' semble résoudre ces plantages.</del>
+=== chat templates ===
 Quid des chat formats ? Est-ce lié au modèle ?
@@ Ligne 191: / Ligne 210: @@
                                         list of built-in templates:
                                         bailing, bailing-think, bailing2, chatglm3, chatglm4, chatml,
-                                        command-r, deepseek, deepseek2, deepseek3, exaone3, exaone4, falcon3,
+                                        command-r, deepseek, deepseek2, deepseek3, exaone-moe, exaone3,
-                                        gemma, gigachat, glmedge, gpt-oss, granite, grok-2, hunyuan-dense,
+                                        exaone4, falcon3, gemma, gigachat, glmedge, gpt-oss, granite, grok-2,
-                                        hunyuan-moe, kimi-k2, llama2, llama2-sys, llama2-sys-bos,
+                                        hunyuan-dense, hunyuan-moe, kimi-k2, llama2, llama2-sys,
-                                        llama2-sys-strip, llama3, llama4, megrez, minicpm, mistral-v1,
+                                        llama2-sys-bos, llama2-sys-strip, llama3, llama4, megrez, minicpm,
-                                        mistral-v3, mistral-v3-tekken, mistral-v7, mistral-v7-tekken, monarch,
+                                        mistral-v1, mistral-v3, mistral-v3-tekken, mistral-v7,
-                                        openchat, orion, pangu-embedded, phi3, phi4, rwkv-world, seed_oss,
+                                        mistral-v7-tekken, monarch, openchat, orion, pangu-embedded, phi3,
-                                        smolvlm, vicuna, vicuna-orca, yandex, zephyr
+                                        phi4, rwkv-world, seed_oss, smolvlm, solar-open, vicuna, vicuna-orca,
+                                        yandex, zephyr
                                         (env: LLAMA_ARG_CHAT_TEMPLATE)
 ...
 </code>
+=== models GGUF format ===
 Modèles:
@@ Ligne 231: / Ligne 253: @@
 deb [signed-by=/usr/share/keyrings/cuda-archive-keyring.gpg]
  https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/ /
+</code>
+Ma dernière installation :
+<code bash>
+sudo apt install nvidia-headless-590-open nvidia-utils-590 nvidia-cuda-toolkit nvidia-cuda-dev
+Package: nvidia-headless-590-open
+Version: 590.48.01-0ubuntu0.24.04.1
+APT-Sources: http://fr.archive.ubuntu.com/ubuntu noble-updates/restricted amd64 Packages
+Package: nvidia-cuda-toolkit
+Version: 12.0.140~12.0.1-4build4
+APT-Sources: http://fr.archive.ubuntu.com/ubuntu noble/multiverse amd64 Packages
+# Je ne comprends pas j'ai pourtant un /etc/apt/sources.list.d/cuda-ubuntu2404-x86_64.list
+# qui pointe sur /etc/apt/sources.list.d/cuda-ubuntu2404-x86_64.list
 </code>