Outils pour utilisateurs

Outils du site


informatique:ai_lm:ai_vision

Ceci est une ancienne révision du document !


AI Vision

Voir aussi:

llama.cpp

Il y a YOLO et tout plein d'outils dédiés à la détection dans des images. Là je teste avec des modèles multimodaux, sans entraînement spécifique.

Le prompt demande s'il y a des panneaux solaire dans l'image fournie, avec sa bbox, et si “oui” de calculer les coordonnées géographiques de l'objet trouvé. Les 2 instructions permettent d'éliminer des faux positifs.

Par exemple le modèle trouve un panneau solaire dans cette image, mais ne trouve pas les coordonnées géo, on peut donc l'évacuer des positifs.

champ avec rayures

Nécessite un modèle multimodal et un fichier mmproj approprié.

Yolo

Comparaison de perf avec le modèle yolo26x.pt sur 1521 tuiles de 640 pixels:

real user sys
CUDA RTX 3060 0m25,625s 0m22,140s 0m3,480s
13th i7-1360P 6m3,403s 48m3,806s 0m2,906s

Entraînement

Construction du jeu de données d’entraînement avec Label Studio.

Export au format “Yolo + images”. Attention, il faut ensuite répartir les images et labels entre “train” et “val”.

uv run yolo detect train \
 data=dataset_s4-project-1-at-2026-03-07-15-33-9190b7c5.yml \
 model=~/Data/AI_ModelsVision/yolo26l.pt \
 epochs=130 lr0=0.0005 cos_lr=True augment=True optimizer=AdamW

panneaux solaires photovoltaïques

Spécialisation à la détection de panneaux solaires photovoltaïques sur les tuiles de IGN BdOrtho. Essentiellement les grandes installation comme la bâtis agricoles et toitures d'écoles et bâtiment industriels. Les petits panneaux sur toitures habitation résidentielles sont difficiles à différencier et peuvent être pour chauffer l'eau et pas pour générer de l'électricité. Il y a encore quelques faux positifs, mais à la marge. 😉

Le dataset avec 286 images pour “train” et 50 pour “val” :

Le modèle résultant à partir de Yolo26L :

Travaux similaires:

Détections par départements

GLM-OCR

Avec llama.cpp et le modèle GLM-OCR-f16.gguf avec son fichier mmproj-GLM-OCR-Q8_0.gguf

~/Code/bronx/AI_Coding/llama.cpp-86/build/bin/llama-server --port 8012 \
-m ~/Data/AI_ModelsOCR/GLM-OCR-f16.gguf \
--mmproj ~/Data/AI_ModelsOCR/mmproj-GLM-OCR-Q8_0.gguf

Avec les images de pages scannées du fichier https://www.cotes-darmor.gouv.fr/contenu/telechargement/60849/507248/file/recueil-22-2023-079-recueil-des-actes-administratifs-special.pdf

Avec CPU i7
real	0m47,583s, 0m32,031s
user	0m0,112s, 0m0,110s
sys	0m0,025s, 0m0,025s

Avec RTX 3060
real	0m5,929s, 0m3,367s
user	0m0,099s, 0m0,104s
sys	0m0,027s, 0m0,027s
informatique/ai_lm/ai_vision.1775805546.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki