Outils pour utilisateurs

Outils du site


informatique:ai_lm:ai_vision

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
informatique:ai_lm:ai_vision [10/04/2026 11:52] – [GLM-OCR] cyrilleinformatique:ai_lm:ai_vision [21/04/2026 08:52] (Version actuelle) – [GLM-OCR] cyrille
Ligne 103: Ligne 103:
     * [[https://maproulette.org/browse/challenges/54636|Challenge maproulette]] <html><img src="https://tools.comptoir.net/maproulette-completion-badge/badge.php?id=54636" height="25"/></html>     * [[https://maproulette.org/browse/challenges/54636|Challenge maproulette]] <html><img src="https://tools.comptoir.net/maproulette-completion-badge/badge.php?id=54636" height="25"/></html>
  
-===== GLM-OCR =====+===== OCR ===== 
 + 
 +==== LiteParse ==== 
 + 
 +A fast, local PDF parsing with spatial text parsing, OCR, and bounding boxes. Open-source document parser from [[https://developers.llamaindex.ai/liteparse/|LlamaIndex]] 
 + 
 +https://github.com/run-llama/liteparse 
 + 
 +==== GLM-OCR ====
  
 Avec llama.cpp et le modèle [[https://huggingface.co/ggml-org/GLM-OCR-GGUF|GLM-OCR-f16.gguf]] avec son fichier mmproj-GLM-OCR-Q8_0.gguf Avec llama.cpp et le modèle [[https://huggingface.co/ggml-org/GLM-OCR-GGUF|GLM-OCR-f16.gguf]] avec son fichier mmproj-GLM-OCR-Q8_0.gguf
Ligne 116: Ligne 124:
  
 <code> <code>
-Avec CPU i7+Avec CPU i7-1360P 13thGen
 real 0m47,583s, 0m32,031s real 0m47,583s, 0m32,031s
 user 0m0,112s, 0m0,110s user 0m0,112s, 0m0,110s
Ligne 136: Ligne 144:
  
 😩 voilà qu'après plusieurs usages il n'y a plus de Markdown pour les titres ... 😩 voilà qu'après plusieurs usages il n'y a plus de Markdown pour les titres ...
 +
 +👌 J'ai changé de stratégie: ne plus extraire la mise en forme, mais seulement le texte page par page, avec extraction de quelques entités comme "auteur", "date", "sujet" et un "résumé". Là le model GLM-OCR-f16 est très efficace.
 +
 +==== Qwen2.5-VL-7B-Instruct ====
 +
 +https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF
 +
 +Bien meilleurs résultats pour la structure en Markdown mais beaucoup plus gourmand en mémoire et donc plus lent à cause de l'usage du CPU, même avec du Q4. 😩
 +
 +<code>
 +~/Code/bronx/AI_Coding/llama.cpp-86/build/bin/llama-server --port 8012 \
 + -m ~/Data/AI_ModelsOCR/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf \
 + --mmproj ~/Data/AI_ModelsOCR/mmproj-F16.gguf -ngl 20
 +
 +real 0m39,938s, 0m45,901s
 +user 0m0,116s, 0m0,105s
 +sys 0m0,024s, 0m0,027s
 +</code>
 +
 +==== DeepSeek-OCR-GGUF ====
 +
 +[[https://huggingface.co/ggml-org/DeepSeek-OCR-GGUF|ggml-org/DeepSeek-OCR-GGUF]] 
 +
 +Tient dans la VRAM de la RTX3060.
 +
 +Gère bien le Markdown, mais les résultats sont alléatoires ... Et de nombreuses allucinations 😩
 +
  
informatique/ai_lm/ai_vision.1775814742.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki