Outils pour utilisateurs

Outils du site


informatique:ai_lm:ai_nlp

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
informatique:ai_lm:ai_nlp [13/01/2026 15:34] cyrilleinformatique:ai_lm:ai_nlp [18/01/2026 10:16] (Version actuelle) – [Wikidata] cyrille
Ligne 22: Ligne 22:
   * Cross Encoder (a.k.a reranker): Calculates a similarity score given pairs of texts. Generally provides superior performance compared to a Sentence Transformer (a.k.a. bi-encoder) model.   * Cross Encoder (a.k.a reranker): Calculates a similarity score given pairs of texts. Generally provides superior performance compared to a Sentence Transformer (a.k.a. bi-encoder) model.
   * Sparse Encoder : sparse vector representations is a list of ''token: weight'' key-value pairs representing an entry and its weight.   * Sparse Encoder : sparse vector representations is a list of ''token: weight'' key-value pairs representing an entry and its weight.
 +  * RAG (Retrieval-Augmented Generation): combine deux capacités de l’IA → la récupération d’informations et la génération de texte
 ===== Models embedding ===== ===== Models embedding =====
  
Ligne 36: Ligne 36:
  
 {{ :informatique:ai_lm:vectors-database.png?300|https://docs.trychroma.com/docs/overview/introduction}} {{ :informatique:ai_lm:vectors-database.png?300|https://docs.trychroma.com/docs/overview/introduction}}
-  * [[https://github.com/chroma-core/chroma|ChromaDB]] léger, en mémoire ou sur disque 
-    * [[https://docs.trychroma.com/docs/run-chroma/client-server|Running Chroma in Client-Server Mode]] 
-    * [[https://blog.stephane-robert.info/docs/developper/programmation/python/chroma/#exemple-complet--recherche-de-documents-internes|Chroma : Guide complet base données vectorielle]] par Stéphane Robert 2025 
   * FAISS Facebook AI Similarity Search, optimisé pour la recherche de similarité   * FAISS Facebook AI Similarity Search, optimisé pour la recherche de similarité
   * [[https://qdrant.tech/|Qdrant]], open source, scalable   * [[https://qdrant.tech/|Qdrant]], open source, scalable
Ligne 50: Ligne 47:
     * https://weaviate.io/pricing     * https://weaviate.io/pricing
  
 +==== ChromaDB ====
 +
 +  * [[https://github.com/chroma-core/chroma|ChromaDB]] léger, en mémoire ou sur disque
 +    * [[https://docs.trychroma.com/docs/run-chroma/client-server|Running Chroma in Client-Server Mode]]
 +    * [[https://cookbook.chromadb.dev|Chroma Cookbook]]
 +    * [[https://blog.stephane-robert.info/docs/developper/programmation/python/chroma/#exemple-complet--recherche-de-documents-internes|Chroma : Guide complet base données vectorielle]] par Stéphane Robert 2025
 +
 +Client Api
 +  * Php https://github.com/CodeWithKyrian/chromadb-php
 +
 +==== Wikidata ====
 +
 +Utiliser 2 méthodes différentes pour
 +  * Pour extraire les labels, aliases et déclarations (claims)
 +  * Pour extraire le graph des P31/P279
 +permet d'optimiser les traitements
 +
 +=== Wikidata Dumps ===
 +
 +Il y a des dumps Wikidata (préférer un mirroir pour être sympa).
 +
 +Dump Json, streamable (GZ) :
 +  * https://files.scatter.red/wikimedia/other/wikibase/wikidatawiki/20260105/wikidata-20260105-all.json.gz
 +  * 151 Go, plus de ''118 654 999'' lignes
 +
 +Dump RDF N-Triples (brut), streamable (GZ) :
 +  * https://files.scatter.red/wikimedia/other/wikibase/wikidatawiki/latest-all.nt.gz
 +  * 246 Go
 +
 +Dump RDF N-Triples (brut), streamable (GZ) ET nettoyé des ''statements deprecated'', ''doublons inutiles'' et ''certaines redondances'', ne garde que les “direct claims fiables”
 +  * https://files.scatter.red/wikimedia/other/wikibase/wikidatawiki/latest-truthy.nt.gz
 +  * 69.6 Go 👌 pour ''8 128 295 676'' lignes !
 +
 +Lectures:
 +  * PDF [[https://wikidataworkshop.github.io/2022/papers/Wikidata_Workshop_2022_paper_4558.pdf|Getting and hosting your own copy of Wikidata]] from Wikidata’22: Wikidata workshop at ISWC 2022
 +
 +Query services:
 +  * Original https://query.wikidata.org
 +  * The graph was split in two some time ago. The scholarly articles must be queried on https://query-scholarly.wikidata.org/
 +  * QLever démo https://qlever.dev/wikidata/ (//données à jour le 2026-01-16, [[https://qlever.dev/wikidata/OoKng8|pour vérifier]]//)
  
informatique/ai_lm/ai_nlp.1768314857.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki