informatique:ai_lm:ai_nlp
Ceci est une ancienne révision du document !
Table des matières
AI (NLP) Natural Language Processing
Traitement automatique du langage naturel.
La reconnaissance d’entités (NER), également appelée segmentation d’entités ou extraction d’entités, est un composant du traitement automatique du langage naturel (NLP) qui identifie des catégories prédéfinies d’objets dans un corps de texte.
Les étapes
- Tokenisation
- décompose un texte en unités plus petites, appelées tokens. Ces tokens peuvent être des mots, des signes de ponctuation ou d'autres unités linguistiques.
- Marquage de parties du discours (POS)
- marquage des parties du discours. Cela attribue aux tokens des types de mots grammaticaux, comme les noms, les verbes et les adjectifs
- Détection d'entités (NER)
- vise à reconnaître et à classer des entités nommées telles que des personnes, des lieux, des organisations et d'autres informations spécifiques
Glossaire
- STS Semantic Textual Similarity: calculate the similarities between embeddings's texts.
- Embedding: fixed-size vector representation
- Cross Encoder (a.k.a reranker): Calculates a similarity score given pairs of texts. Generally provides superior performance compared to a Sentence Transformer (a.k.a. bi-encoder) model.
- Sparse Encoder : sparse vector representations is a list of
token: weightkey-value pairs representing an entry and its weight.
Models embedding
Sentence Transformers
used to compute embeddings using Sentence Transformer models (quickstart), to calculate similarity scores using Cross-Encoder (a.k.a. reranker) models (quickstart), or to generate sparse embeddings using Sparse Encoder models (quickstart).
Vectors databases
- ChromaDB léger, en mémoire ou sur disque
- Chroma : Guide complet base données vectorielle par Stéphane Robert 2025
- FAISS Facebook AI Similarity Search, optimisé pour la recherche de similarité
- Qdrant, open source, scalable
Solutions plus évoluées en SaaS
-
- Weaviate is an open-source vector database that stores both objects and vectors, allowing for the combination of vector search with structured filtering with the fault tolerance and scalability of a cloud-native database.
informatique/ai_lm/ai_nlp.1768314857.txt.gz · Dernière modification : de cyrille

