Table des matières

AI (NLP) Natural Language Processing

Traitement automatique du langage naturel.

La reconnaissance d’entités (NER), également appelée segmentation d’entités ou extraction d’entités, est un composant du traitement automatique du langage naturel (NLP) qui identifie des catégories prédéfinies d’objets dans un corps de texte.

Les étapes

Glossaire

Models embedding

Sentence Transformers

https://www.sbert.net/

used to compute embeddings using Sentence Transformer models (quickstart), to calculate similarity scores using Cross-Encoder (a.k.a. reranker) models (quickstart), or to generate sparse embeddings using Sparse Encoder models (quickstart).

Vectors databases

https://docs.trychroma.com/docs/overview/introduction

Solutions plus évoluées en SaaS

ChromaDB

Client Api

Wikidata

Utiliser 2 méthodes différentes pour

permet d'optimiser les traitements

Wikidata Dumps

Il y a des dumps Wikidata (préférer un mirroir pour être sympa).

Dump Json, streamable (GZ) :

Dump RDF N-Triples (brut), streamable (GZ) :

Dump RDF N-Triples (brut), streamable (GZ) ET nettoyé des statements deprecated, doublons inutiles et certaines redondances, ne garde que les “direct claims fiables”

Lectures:

Query services: