Table des matières

AI NLP and RAG

Voir aussi: OCR (AI Vision)

Outils RAG:

La reconnaissance d’entités (NER), également appelée segmentation d’entités ou extraction d’entités, est un composant du traitement automatique du langage naturel (NLP) qui identifie des catégories prédéfinies d’objets dans un corps de texte.

Les étapes

ReRanking

SEQUOIA (Semantic-Evolved QUery-Optimized Iterative Abstraction) is a novel RAG architecture that combines four techniques into a unified retrieval pipeline:

  1. Liste numérotéeSemantic Chunking – splits documents by embedding similarity boundaries instead of fixed-size windows
  2. RAPTOR Tree – recursively clusters chunks and summarizes via LLM, building a hierarchy
  3. Step-Back Prompting – LLM generates a more abstract query; both queries used for retrieval across all tree levels
  4. Confidence-Gated Adaptive Depth – retrieval starts at leaf level, ascends tree only if confidence is below threshold
query
  → multi-query expansion (2 rewrites + 1 step-back, via LLM)
  → hybrid retrieval per variant (BM25 + dense + RRF, top-20 each)
  → RRF merge across all variants
  → cross-encoder rerank (top-50 → top-5)
  → context compression (sentence-level filtering by cosine sim to query,
                         keep top 12 sentences, collapse into one chunk)
  → LLM with short-answer prompt

Articles

Glossaire

Models embedding

Sentence Transformers

https://www.sbert.net/

used to compute embeddings using Sentence Transformer models (quickstart), to calculate similarity scores using Cross-Encoder (a.k.a. reranker) models (quickstart), or to generate sparse embeddings using Sparse Encoder models (quickstart).

Vectors databases

https://docs.trychroma.com/docs/overview/introduction

Solutions plus évoluées en SaaS

ChromaDB

Client Api

Wikidata

Utiliser 2 méthodes différentes pour

permet d'optimiser les traitements

Wikidata Dumps

Il y a des dumps Wikidata (préférer un mirroir pour être sympa).

Dump Json, streamable (GZ) :

Dump RDF N-Triples (brut), streamable (GZ) :

Dump RDF N-Triples (brut), streamable (GZ) ET nettoyé des statements deprecated, doublons inutiles et certaines redondances, ne garde que les “direct claims fiables”

Lectures:

Query services: