AI Coding

Coder avec une IA LLM.

Build a local AI co-pilot using IBM Granite 4, Ollama, and Continue

Autres pages:

La page d'index AI LM
Quelques essais perso
Un peu de GPU bench
AI Image pour la génération d'image avec un LM
Pour d'Autres usages que la programmation informatique (codage)

STM (Short Term Memory): permet à un agent IA de se souvenir des entrées récente. Généralement mise en œuvre à l’aide d’une mémoire tampon circulaire ou d’une fenêtre contextuelle (context window), qui contient une quantité limitée de données récentes avant d’être écrasée.
LTM (Long Term Memory): permet aux agents IA de stocker et de récupérer des informations entre différentes sessions. souvent mise en œuvre à l’aide de bases de données, de graphes de connaissances ou d’embeddings vectoriels.
- RAG (Retrieval-Augmented Generation): combine deux capacités de l’IA : la récupération d’informations et la génération de texte.
ACP (Agent Communication Protocol): transformeles agents d’IA en coéquipiers interconnectés.
MCP (Model Context Protocol): une couche de standardisation pour permettre aux applications d’IA de communiquer efficacement avec des services externes tels que des outils, des bases de données et des modèles prédéfinis.

What are AI agents? by Mistral
guide des agents d’IA par Ibm
- Frameworks pour agents IA
Le RAG est mort. Voici pourquoi. Article comparent RAG et GREP ; les commentaires sont une bonne source de connaissance.

Guidelines (directives) vs. Skills (compétences)

Les directives (guidelines) sont chargées dès le démarrage de l'agent IA, fournissant un contexte essentiel sur les conventions de codage et les meilleures pratiques qui s'appliquent de manière générale à l'ensemble de la base de code.
Les compétences (skills) sont activées à la demande lorsqu'on travaille sur des tâches spécifiques, contenant des modèles détaillés pour des domaines particuliers. Le chargement des compétences uniquement lorsque cela est pertinent réduit la surcharge contextuelle et améliore la qualité du code. Elles sont des prompts ou fonctions (tools) documentés dans AGENTS.md.

Articles:

AGENTS.md outperforms skills in our agent evals by vercel.com

Des skills:

The Open Agent Skills Ecosystem https://skills.sh
Avec des “recettes” pour de nombreux sujets comme Filament et Laravel

Models

Il en faut des tokens pour un petit programme

Essais de quelques modèles pour de l'assistance au code. Sur mon portable Core™ i7-1360P (2023 Q1) avec RTX 3060 en Thunderbolt 4 (thb4) le modèle le plus adapté avec llama.cpp est gpt-oss-20b-UD-Q4_K_XL.gguf.

Comparaison Core i7-1360P vs Core Ultra 7 270K Plus

GGUF Models Metadata Viewer : Un viewer des meta-données des modèles que j'essaye en local réalisé sans coder, juste assistant IA et “OpenCode Zen Big Pickle” et “Mistral Devstral 2”.

Qwen
- Qwen2.5-Coder-7B-Instruct
  - layers=37, n_ctx_train=40960
  - avec 12Go --ctx-size 0
- Qwen2.5-coder-7b-instruct-q8_0.gguf
  - file: 8.1 Go, n_ctx=131072
  - avec RTX 5060 16Go --ctx-size 0, nvidia-smi Memory-Usage 14920MiB / 16311MiB
- Qwen3-8B
  - default context 40960, 37 layers
  - avec 12Go --ctx-size 0
- Qwen3-14B
  - default context 40960, 40 layers
  - avec 12Go --ctx-size 0 --n-gpu-layers 28
- Qwen3-Coder-30B-A3B-Instruct
  - layers=48, n_ctx_train=262144, n_embd=2048, n_rot=128, n_expert=128, n_expert_used=8, n_vocab=151936, n_merges=151387, max token length=256
  - avec 12Go --ctx-size 70000 --n-gpu-layers 23
  - avec 12Go --ctx-size 40000 --n-gpu-layers 26
DeepSeek2
- DeepSeek-Coder-V2-Lite-Instruct 16B by bartowski
  - layers=28, n_ctx_train=163840, n_ctx_orig_yarn=4096, n_embd=2048, n_rot=64, rope scaling=yarn
  - avec 12Go --ctx-size 30000 --n-gpu-layers 15
- Deepseek-Coder-6.7B-Instruct by second-state
  - default context 16384, 32 layers
  - avec 12 Go --ctx-size 0 --n-gpu-layers 30
  - context trop petit pour projet code
Google DeepMind Gemma
- google/gemma-3-4b-it, entraîné Web Documents, 140 langages, Code, Mathematics, Images
- GetSoloTech/Gemma3-Code-Reasoning-4B
- GemmaCoder3-12B-IQ4_NL
  - file 8.4 Go, context 131k, 49 layers,
  - RTX3060 12Go:
    - --ctx-size 42000
    - --ctx-size 70000 --n-gpu-layers 41
  - RTX 5060 16Go:
    - --ctx-size 0, ggml_backend_cuda_buffer_type_alloc_buffer: allocating 1440.00 MiB on device 0: cudaMalloc failed: out of memory, alloc_tensor_range: failed to allocate CUDA0 buffer of size 1509949440
    - --ctx-size 0 --n-gpu-layers 42, model loaded
    - --ctx-size 70000, model loaded, nvidia-smi Memory-Usage: 13060MiB / 16311MiB
- https://huggingface.co/bartowski/codegemma-7b-it-GGUF
Meta
- Meta-Llama-3.1-8B-Instruct by bartowski
  - Cutting Knowledge Date: December 2023
  - layers=33, n_ctx_train=131072
  - Avec 12 Go
    - llama-cli --ctx-size 55000
    - llama-server --ctx-size 50000
    - --ctx-size 65000 --n-gpu-layers 29
- Llama-3-8B-Instruct-Coder-v2 by bartowski
  - layers=33, n_ctx_train=8192
- codellama-13b-instruct.Q4_K_M.gguf
  - file: 7.9 Go
  - layers=40, n_ctx_train=16384, n_embd=5120, n_rot=128, n_expert=0, n_merges=0, max token length=48, n_vocab=32016
  - --ctx-size 0 --n-gpu-layers 22
  - RTX 5060 16Go
    - --ctx-size 0, ggml_backend_cuda_buffer_type_alloc_buffer: allocating 12800.00 MiB on device 0: cudaMalloc failed: out of memory
    - --ctx-size 0 -n-gpu-layers 30, model loaded
  - context trop petit pour projet code
- CodeLlama-13B
  - layers=40, n_ctx_train=16384
  - context trop petit pour projet code
Mistral
- Mistral-7B-Instruct-v0.3 https://huggingface.co/lmstudio-community/Mistral-7B-Instruct-v0.3-GGUF
  - Q8_0 7.7 GB
- Codestral-22B-v0.1 https://huggingface.co/lmstudio-community/Codestral-22B-v0.1-GGUF
  - Q5_K_M 15.7 GB, Q4_K_M 13.3 GB
- Magistral-Small-2509 https://huggingface.co/bartowski/mistralai_Magistral-Small-2509-GGUF
  - Q4_1 14.9 GB, Q4_K_M 14.3 GB
- Devstral-Small-2507 https://huggingface.co/unsloth/Devstral-Small-2507-GGUF
  - agentic LLM for software engineering tasks, finetuned from Mistral-Small-3.1, context window of up to 128k tokens
  - Devstral: How to Run & Fine-tune
  - Q4_K_XL 14.5 GB
- Mamba-Codestral-7B-v0.1
  - Codestral on the Mamba2 architecture
VibeThinker-1.5B (Weibo)
- https://huggingface.co/Mungert/VibeThinker-1.5B-GGUF
OpenAI
- gpt-oss-20b https://huggingface.co/unsloth/gpt-oss-20b-GGUF
IBM
- Granite-4.0-H-Tiny
  - layer=40, n_ctx=1048576 (1M !), model type=1B, model params=6.94 B, n_embd=1536, n_merges=100000, max token length=256, n_rot=128, n_expert=64, n_expert_used=6
  - RTX 3060 12 Go
    - --ctx-size 500000, model loaded, nvidia-smi Memory-Usage 9766MiB/12288MiB
- granite-8b-code-instruct-4k (May 6th, 2024)
- granite-8b-code-instruct-128
- Granite 2.0 Code Model granite-8b-code-instruct-128k
- granite-8b-code-instruct-128k-Q5_K_M.gguf
  - file=5.7 Go, n_ctx=128000, n_layer=36
  - RTX 5060 16 Go
    - --ctx-size 0, model loading error: ggml_backend_cuda_buffer_type_alloc_buffer: allocating 18000.00 MiB on device 0: cudaMalloc failed: out of memory, alloc_tensor_range: failed to allocate CUDA0 buffer of size 18874368000
    - --ctx-size 70000, model loaded, nvidia-smi Memory-Usage 15710MiB/16311MiB
- granite-8b-code-instruct-128k-Q4_K_M.gguf
  - file=4.9 Go, n_ctx=128000, n_layer=36
  - RTX 5060 16 Go
    - --ctx-size 0, model loading error: ggml_backend_cuda_buffer_type_alloc_buffer: allocating 18000.00 MiB on device 0: cudaMalloc failed: out of memory, alloc_tensor_range: failed to allocate CUDA0 buffer of size 18874368000
    - --ctx-size 70000, model loaded, nvidia-smi Memory-Usage 14910MiB/16311MiB
  - RTX 3060 12 Go
    - --ctx-size 44000, model loaded, nvidia-smi Memory-Usage 11136MiB/12288MiB

Plan de test de comparaison par LeChat de Mistral:

API service

Mistral

IHM: https://console.mistral.ai
https://codestral.mistral.ai/v1
- codestral-2508, Our cutting-edge language model for coding released August 2025.
  - max_context_length=256000, default_model_temperature=0.3
  - capabilities: completion_chat, function_calling, completion_fim, ~~fine_tuning, vision, ocr, classification, moderation, audio~~
https://api.mistral.ai/v1
- devstral-2512, Official mistral-vibe-cli-latest Mistral AI model
  - max_context_length=262144, default_model_temperature=0.2
  - capabilities: completion_chat, function_calling, ~~completion_fim, fine_tuning, vision, ocr, classification, moderation, audio~~

Autres usages

LUCIE, le modèle d’IA Open Source dédié à l’Éducation
- Lucie-7B, notre premier modèle fondation entraîné à partir de zéro, est le plus gros modèle fondation qui a été entraîné sur plus de 30 % de données françaises sur openllm-france.fr
- Model Card for Lucie-7B-Instruct-human-data
EuroLLM, Large language model made in Europe built to support all official 24 EU languages
- EuroLLM - Le LLM européen qui tourne sur votre laptop
  - huggingface/utter-project/EuroLLM-9B
    - https://huggingface.co/bartowski/EuroLLM-9B-Instruct-GGUF
Vigogne modèles réentrainer en français (2023)
- Voilà Voilà: Unleashing Vigogne Chat V2.0
LightOn dévoile Reason-ModernColBERT
- un modèle open source taillé pour la Deep Research et capable de battre des géants du retrieval avec seulement 150 millions de paramètres. L’entraînement complet ne prend que deux heures et moins de 100 lignes de code, ouvrant la voie à un fine-tuning rapide sur des corpus privés

Coding assistant

Agentic Capabilities LLMs.

Why Cline Doesn't Index Your Codebase (And Why That's a Good Thing) ; Code isn't like other data: it's interconnected, constantly evolving ; Cline use AST (Abstract Syntax Tree)

Listes d'agents

Top 20 des agents de codage IA à essayer absolument en 2025

La concurrence est rude entre les entreprises et startups de l’IA. Dernier terrain de bataille, les agents dédiés au développement web et à la programmation. Google, avec Jules ; OpenAI, avec Codex ; GitHub, avec Copilot ; Anthropic, avec Claude Code, sans oublier les outils comme Lovable. Au tour maintenant du Français Mistral de proposer un « assistant de programmation propulsé par l’IA ». Mais de quoi s’agit-il exactement ?
→ Mistral Code, un nouvel agent IA pour automatiser le développement logiciel

continue

https://docs.continue.dev/

Claude code

https://claude.com/product/claude-code

Synoptia THÉRÈSE Cli

THÉRÈSE (Terminal Helper for Engineering, Research, Editing, Software & Execution) est un assistant de code en ligne de commande, 100% français, inspiré de Claude Code mais propulsé par Mistral AI.

https://github.com/ludovicsanchez38-creator/Synoptia-THERESE-CLI

Shai

shai is a coding agent, your pair programming buddy that lives in the terminal. Written in rust with love <3 at OVH.

https://github.com/ovh/shai

opencode

https://opencode.ai
~~https://github.com/sst/opencode~~ https://github.com/anomalyco/opencode (yep, encore changé de nom…)

Les prompts system:

Modèles conseillés :

GPT 5.1
GPT 5.1 Codex
Claude Sonnet 4.5
Claude Haiku 4.5
Kimi K2
GLM 4.6
Qwen3 Coder
Gemini 3 Pro

Plus de choses OpenCode

Essais de models

opencode models liste les modèles disponibles sur les providers configurés. Bien pratique pour trouver le nom à mettre dans la config.

Modèles on-line essayés avec opencode.

Big Pickle (opencode zen) : résultats impressionants ! Un vrai super assistant
Codestral (mistral free)
- baseURL: https://codestral.mistral.ai/v1
- model : codestral-latest
Qwen3-Coder-30B-A3B-Instruct (ovhcloud) : ça fonctionne mais juste le minimum
OvhCloud pas stable 😩
- mistral-nemo-instruct-2407 (ovhcloud) : Pas de réponse
- Mixtral-8x7B-Instruct-v0.1 (ovhcloud) : Bad request
- Llama-3.1-8B-Instruct (ovhcloud) : Failed with “First, let me check the opencode documentation to see if there's any information about …”
- Meta-Llama-3_3-70B-Instruct (ovhcloud) : Failed with “Unknown agent type: greeting-responder is not a valid agent type”

GemmaCoder3-12B
- erreur format de conversation : “Conversation roles must alternate user/assistant/user…”

cline

codex-cli

Par OpenAi

Cursor

Par Anysphere Inc

https://cursor.com/pricing

Tabby

Contient le serveur de model (llama.cpp) qu'il faut installer.

Tabby ML: https://tabby.tabbyml.com/docs/quick-start/installation/linux/

Gemini CLI

LLxprt Code

fork de Google's Gemini CLI

https://github.com/vybestack/llxprt-code
présentation: https://www.aitoolnet.com/fr/llxprt-code

Windsurf / Codeium

https://windsurf.com/editor

Amp Free

Tabnine

https://www.tabnine.com/

Mistral Vibe

Apache 2.0 license

MCP server

Les serveurs MCP sont des programmes qui exposent des capacités spécifiques aux applications d'IA via des interfaces de protocole standardisées. Parmi les exemples courants, on peut citer les serveurs de systèmes de fichiers pour l'accès aux documents, les serveurs de bases de données pour les requêtes de données, les serveurs GitHub pour la gestion du code, les serveurs Slack pour la communication entre équipes et les serveurs de calendrier pour la planification.

3 typologies:

Tools
Resources
Prompts

Articles:

le site “officiel” du standard MCP modelcontextprotocol.io : What is the Model Context Protocol (MCP)?
Let AI Interact with Your App via MCP (show how to build an MCP server for a task management app)

Curated lists:

rohitg00/awesome-devops-mcp-servers A curated list of awesome MCP servers focused on DevOps tools and capabilities.
Official MCP Registry
- EU law https://github.com/Ansvar-Systems/EU_compliance_MCP
- osm tagging schema https://github.com/gander-tools/osm-tagging-schema-mcp
le Marché des serveurs MCP par LobeHub
- Blender MCP, Dav MCP, Nextcloud MCP …

Le MCP Inspector aide bien pour tester le développement d'un server MCP

voir mcp-inspector pour utiliser MCP Inspector avec Docker et un MCP en Php via transport STDIO.

Demo MCP Server

A collection of reference implementations for the Model Context Protocol (MCP), as well as references to community-built servers and additional resources.

Everything - Reference / test server with prompts, resources, and tools.
Fetch - Web content fetching and conversion for efficient LLM usage.
Filesystem - Secure file operations with configurable access controls.
Git - Tools to read, search, and manipulate Git repositories.
Memory - Knowledge graph-based persistent memory system.
Sequential Thinking - Dynamic and reflective problem-solving through thought sequences.
Time - Time and timezone conversion capabilities.
…

Serena

goose

A local, extensible, open source AI agent that automates engineering tasks.

https://block.github.io/goose/
https://github.com/block/goose
integrate and use MCP servers as goose extensions like Selenium, Dev.to, BrowserBase, Auto Visualiser …

Apify MCP

Apify Actors scrape up-to-date web data from any website for AI apps and agents, social media monitoring, competitive intelligence, lead generation, and product research. Crawl website to feed AI

arabold/docs-mcp-server

https://grounded.tools/ https://github.com/arabold/docs-mcp-server

Index 3rd party documentation from websites, GitHub, npm, PyPI, and local files. Provide your AI with version-aware search tools via the Model Context Protocol. The open-source alternative to Context7, Nia, and Ref.Tools.

chrome-devtools-mcp permet à votre agent de codage (tel que Gemini, Claude, Cursor ou Copilot) de contrôler et d'inspecter un navigateur Chrome en direct. Il agit comme un serveur MCP (Model-Context-Protocol), donnant à votre assistant de codage IA accès à toute la puissance de Chrome DevTools pour une automatisation fiable, un débogage approfondi et une analyse des performances.

Puppeteer MCP

https://github.com/modelcontextprotocol/servers-archived/tree/main/src/puppeteer

A Model Context Protocol server that provides browser automation capabilities using Puppeteer. This server enables LLMs to interact with web pages, take screenshots, and execute JavaScript in a real browser environment.

puppeteer_navigate, puppeteer_screenshot, puppeteer_click, puppeteer_hover, puppeteer_fill, puppeteer_select, puppeteer_evaluate

MySql/MariaDb MCP

https://github.com/MariaDB/mcp
benborla/mcp-server-mysql (Node.js), 22 contributors, 1.1k stars, 281 forks, 14 releases
designcomputer/mysql_mcp_server (Python), 8 contributors, 1.1k starts, 223 forks, 6 releases

Yen a toute une palanquée mais peu/pas de github stars, contributeurs…

Fetch

https://github.com/modelcontextprotocol/servers/tree/main/src/fetch

Frameworks

/modelcontextprotocol/php-sdk

https://github.com/modelcontextprotocol/php-sdk

clients

https://github.com/php-mcp/client

LSP Server

Intelephense (php) https://intelephense.com/docs

Php Actor

LLM Gateway

Bifrost: The LLM Gateway That's 40x Faster Than LiteLLM

{
  "fallbacks": {
    "enabled": true,
    "order": [
      "openai/gpt-4o-mini",
      "anthropic/claude-sonnet-4",
      "mistral/mistral-large-latest"
    ]
  }
}

system message

Le “prompt système” est un élément essentiel : c'est la feuille de route pour le modèle, en définissant son comportement, ses limites, et même sa “personnalité”. Son efficacité dépend de sa formulation et des spécificités du modèle.

Exemple de system message pour un chatbot: Demo: A Chatbot For Super-Spies!
Les System prompts de OpenCode

Agents IA

La suite AI Agent

Table des matières