informatique:ai_lm:ai_vision
Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
| informatique:ai_lm:ai_vision [10/04/2026 09:07] – [Tentatives] cyrille | informatique:ai_lm:ai_vision [21/04/2026 08:52] (Version actuelle) – [GLM-OCR] cyrille | ||
|---|---|---|---|
| Ligne 102: | Ligne 102: | ||
| * 82 Tarn-et-Garonne {{ : | * 82 Tarn-et-Garonne {{ : | ||
| * [[https:// | * [[https:// | ||
| + | |||
| + | ===== OCR ===== | ||
| + | |||
| + | ==== LiteParse ==== | ||
| + | |||
| + | A fast, local PDF parsing with spatial text parsing, OCR, and bounding boxes. Open-source document parser from [[https:// | ||
| + | |||
| + | https:// | ||
| + | |||
| + | ==== GLM-OCR ==== | ||
| + | |||
| + | Avec llama.cpp et le modèle [[https:// | ||
| + | |||
| + | < | ||
| + | ~/ | ||
| + | -m ~/ | ||
| + | --mmproj ~/ | ||
| + | </ | ||
| + | |||
| + | Avec les images de pages scannées du fichier https:// | ||
| + | |||
| + | < | ||
| + | Avec CPU i7-1360P 13thGen | ||
| + | real 0m47, | ||
| + | user 0m0, | ||
| + | sys 0m0, | ||
| + | |||
| + | Avec RTX 3060 | ||
| + | real 0m5, | ||
| + | user 0m0, | ||
| + | sys 0m0, | ||
| + | </ | ||
| + | |||
| + | La page 8 est un tableau et les données dans les cellules sont très bien extraites, les phrases sur plusieurs lignes dans une cellule sont bien extraites. | ||
| + | |||
| + | Avec le prompt : "'' | ||
| + | |||
| + | Alors qu' | ||
| + | |||
| + | Les tables sont bien extraites mais **pas toujours bien rendues** dans la réponse. Après quelques essais le prompt qui fonctionne mieux : "'' | ||
| + | |||
| + | 😩 voilà qu' | ||
| + | |||
| + | 👌 J'ai changé de stratégie: ne plus extraire la mise en forme, mais seulement le texte page par page, avec extraction de quelques entités comme " | ||
| + | |||
| + | ==== Qwen2.5-VL-7B-Instruct ==== | ||
| + | |||
| + | https:// | ||
| + | |||
| + | Bien meilleurs résultats pour la structure en Markdown mais beaucoup plus gourmand en mémoire et donc plus lent à cause de l' | ||
| + | |||
| + | < | ||
| + | ~/ | ||
| + | -m ~/ | ||
| + | | ||
| + | |||
| + | real 0m39, | ||
| + | user 0m0, | ||
| + | sys 0m0, | ||
| + | </ | ||
| + | |||
| + | ==== DeepSeek-OCR-GGUF ==== | ||
| + | |||
| + | [[https:// | ||
| + | |||
| + | Tient dans la VRAM de la RTX3060. | ||
| + | |||
| + | Gère bien le Markdown, mais les résultats sont alléatoires ... Et de nombreuses allucinations 😩 | ||
informatique/ai_lm/ai_vision.1775804868.txt.gz · Dernière modification : de cyrille
