Outils pour utilisateurs

Outils du site


informatique:ai_lm:ai_nlp

Ceci est une ancienne révision du document !


AI (NLP) Natural Language Processing

Traitement automatique du langage naturel.

La reconnaissance d’entités (NER), également appelée segmentation d’entités ou extraction d’entités, est un composant du traitement automatique du langage naturel (NLP) qui identifie des catégories prédéfinies d’objets dans un corps de texte.

Les étapes

  • Tokenisation
    • décompose un texte en unités plus petites, appelées tokens. Ces tokens peuvent être des mots, des signes de ponctuation ou d'autres unités linguistiques.
  • Marquage de parties du discours (POS)
    • marquage des parties du discours. Cela attribue aux tokens des types de mots grammaticaux, comme les noms, les verbes et les adjectifs
  • Détection d'entités (NER)
    • vise à reconnaître et à classer des entités nommées telles que des personnes, des lieux, des organisations et d'autres informations spécifiques

Glossaire

  • STS Semantic Textual Similarity: calculate the similarities between embeddings's texts.
  • Embedding: fixed-size vector representation
  • Cross Encoder (a.k.a reranker): Calculates a similarity score given pairs of texts. Generally provides superior performance compared to a Sentence Transformer (a.k.a. bi-encoder) model.
  • Sparse Encoder : sparse vector representations is a list of token: weight key-value pairs representing an entry and its weight.
  • RAG (Retrieval-Augmented Generation): combine deux capacités de l’IA → la récupération d’informations et la génération de texte

Models embedding

Sentence Transformers

https://www.sbert.net/

used to compute embeddings using Sentence Transformer models (quickstart), to calculate similarity scores using Cross-Encoder (a.k.a. reranker) models (quickstart), or to generate sparse embeddings using Sparse Encoder models (quickstart).

Vectors databases

https://docs.trychroma.com/docs/overview/introduction

  • FAISS Facebook AI Similarity Search, optimisé pour la recherche de similarité
  • Qdrant, open source, scalable

Solutions plus évoluées en SaaS

ChromaDB

Wikidata

Utiliser 2 méthodes différentes pour

  • Pour extraire les labels, aliases et déclarations (claims)
  • Pour extraire le graph des P31/P279

permet d'optimiser les traitements

Il y a des dumps Wikidata (préférer un mirroir pour être sympa).

Dump Json, streamable (GZ) :

Dump RDF N-Triples (brut), streamable (GZ) :

Dump RDF N-Triples (brut), streamable (GZ) ET nettoyé des statements deprecated, doublons inutiles et certaines redondances, ne garde que les “direct claims fiables”

Lectures:

informatique/ai_lm/ai_nlp.1768567359.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki