Outils pour utilisateurs

Outils du site


informatique:ai_lm:ai_nlp

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
informatique:ai_lm:ai_nlp [13/01/2026 16:04] – [ChromaDB] cyrilleinformatique:ai_lm:ai_nlp [18/01/2026 10:16] (Version actuelle) – [Wikidata] cyrille
Ligne 22: Ligne 22:
   * Cross Encoder (a.k.a reranker): Calculates a similarity score given pairs of texts. Generally provides superior performance compared to a Sentence Transformer (a.k.a. bi-encoder) model.   * Cross Encoder (a.k.a reranker): Calculates a similarity score given pairs of texts. Generally provides superior performance compared to a Sentence Transformer (a.k.a. bi-encoder) model.
   * Sparse Encoder : sparse vector representations is a list of ''token: weight'' key-value pairs representing an entry and its weight.   * Sparse Encoder : sparse vector representations is a list of ''token: weight'' key-value pairs representing an entry and its weight.
 +  * RAG (Retrieval-Augmented Generation): combine deux capacités de l’IA → la récupération d’informations et la génération de texte
 ===== Models embedding ===== ===== Models embedding =====
  
Ligne 56: Ligne 56:
 Client Api Client Api
   * Php https://github.com/CodeWithKyrian/chromadb-php   * Php https://github.com/CodeWithKyrian/chromadb-php
- + 
 +==== Wikidata ==== 
 + 
 +Utiliser 2 méthodes différentes pour 
 +  * Pour extraire les labels, aliases et déclarations (claims) 
 +  * Pour extraire le graph des P31/P279 
 +permet d'optimiser les traitements 
 + 
 +=== Wikidata Dumps === 
 + 
 +Il y a des dumps Wikidata (préférer un mirroir pour être sympa). 
 + 
 +Dump Json, streamable (GZ) : 
 +  * https://files.scatter.red/wikimedia/other/wikibase/wikidatawiki/20260105/wikidata-20260105-all.json.gz 
 +  * 151 Go, plus de ''118 654 999'' lignes 
 + 
 +Dump RDF N-Triples (brut), streamable (GZ) : 
 +  * https://files.scatter.red/wikimedia/other/wikibase/wikidatawiki/latest-all.nt.gz 
 +  * 246 Go 
 + 
 +Dump RDF N-Triples (brut), streamable (GZ) ET nettoyé des ''statements deprecated'', ''doublons inutiles'' et ''certaines redondances'', ne garde que les “direct claims fiables” 
 +  * https://files.scatter.red/wikimedia/other/wikibase/wikidatawiki/latest-truthy.nt.gz 
 +  * 69.6 Go 👌 pour ''8 128 295 676'' lignes ! 
 + 
 +Lectures: 
 +  * PDF [[https://wikidataworkshop.github.io/2022/papers/Wikidata_Workshop_2022_paper_4558.pdf|Getting and hosting your own copy of Wikidata]] from Wikidata’22: Wikidata workshop at ISWC 2022 
 + 
 +Query services: 
 +  * Original https://query.wikidata.org 
 +  * The graph was split in two some time ago. The scholarly articles must be queried on https://query-scholarly.wikidata.org/ 
 +  * QLever démo https://qlever.dev/wikidata/ (//données à jour le 2026-01-16, [[https://qlever.dev/wikidata/OoKng8|pour vérifier]]//
informatique/ai_lm/ai_nlp.1768316653.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki