Outils pour utilisateurs

Outils du site


informatique:ai_lm:ai_vision

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
informatique:ai_lm:ai_vision [10/04/2026 12:02] – [OCR] cyrilleinformatique:ai_lm:ai_vision [21/04/2026 08:52] (Version actuelle) – [GLM-OCR] cyrille
Ligne 104: Ligne 104:
  
 ===== OCR ===== ===== OCR =====
 +
 +==== LiteParse ====
 +
 +A fast, local PDF parsing with spatial text parsing, OCR, and bounding boxes. Open-source document parser from [[https://developers.llamaindex.ai/liteparse/|LlamaIndex]]
 +
 +https://github.com/run-llama/liteparse
  
 ==== GLM-OCR ==== ==== GLM-OCR ====
Ligne 118: Ligne 124:
  
 <code> <code>
-Avec CPU i7+Avec CPU i7-1360P 13thGen
 real 0m47,583s, 0m32,031s real 0m47,583s, 0m32,031s
 user 0m0,112s, 0m0,110s user 0m0,112s, 0m0,110s
Ligne 139: Ligne 145:
 😩 voilà qu'après plusieurs usages il n'y a plus de Markdown pour les titres ... 😩 voilà qu'après plusieurs usages il n'y a plus de Markdown pour les titres ...
  
 +👌 J'ai changé de stratégie: ne plus extraire la mise en forme, mais seulement le texte page par page, avec extraction de quelques entités comme "auteur", "date", "sujet" et un "résumé". Là le model GLM-OCR-f16 est très efficace.
  
 ==== Qwen2.5-VL-7B-Instruct ==== ==== Qwen2.5-VL-7B-Instruct ====
 +
 +https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF
  
 Bien meilleurs résultats pour la structure en Markdown mais beaucoup plus gourmand en mémoire et donc plus lent à cause de l'usage du CPU, même avec du Q4. 😩 Bien meilleurs résultats pour la structure en Markdown mais beaucoup plus gourmand en mémoire et donc plus lent à cause de l'usage du CPU, même avec du Q4. 😩
Ligne 153: Ligne 162:
 sys 0m0,024s, 0m0,027s sys 0m0,024s, 0m0,027s
 </code> </code>
 +
 +==== DeepSeek-OCR-GGUF ====
 +
 +[[https://huggingface.co/ggml-org/DeepSeek-OCR-GGUF|ggml-org/DeepSeek-OCR-GGUF]] 
 +
 +Tient dans la VRAM de la RTX3060.
 +
 +Gère bien le Markdown, mais les résultats sont alléatoires ... Et de nombreuses allucinations 😩
 +
  
informatique/ai_lm/ai_vision.1775815364.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki