Outils pour utilisateurs

Outils du site


informatique:ai_lm:ai_nlp

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
informatique:ai_lm:ai_nlp [16/01/2026 13:27] – [Wikidata] cyrilleinformatique:ai_lm:ai_nlp [18/01/2026 10:16] (Version actuelle) – [Wikidata] cyrille
Ligne 58: Ligne 58:
  
 ==== Wikidata ==== ==== Wikidata ====
 +
 +Utiliser 2 méthodes différentes pour
 +  * Pour extraire les labels, aliases et déclarations (claims)
 +  * Pour extraire le graph des P31/P279
 +permet d'optimiser les traitements
 +
 +=== Wikidata Dumps ===
  
 Il y a des dumps Wikidata (préférer un mirroir pour être sympa). Il y a des dumps Wikidata (préférer un mirroir pour être sympa).
Ligne 63: Ligne 70:
 Dump Json, streamable (GZ) : Dump Json, streamable (GZ) :
   * https://files.scatter.red/wikimedia/other/wikibase/wikidatawiki/20260105/wikidata-20260105-all.json.gz   * https://files.scatter.red/wikimedia/other/wikibase/wikidatawiki/20260105/wikidata-20260105-all.json.gz
-  * 151 Go, plus de 118 654 999 lignes+  * 151 Go, plus de ''118 654 999'' lignes
  
 Dump RDF N-Triples (brut), streamable (GZ) : Dump RDF N-Triples (brut), streamable (GZ) :
Ligne 71: Ligne 78:
 Dump RDF N-Triples (brut), streamable (GZ) ET nettoyé des ''statements deprecated'', ''doublons inutiles'' et ''certaines redondances'', ne garde que les “direct claims fiables” Dump RDF N-Triples (brut), streamable (GZ) ET nettoyé des ''statements deprecated'', ''doublons inutiles'' et ''certaines redondances'', ne garde que les “direct claims fiables”
   * https://files.scatter.red/wikimedia/other/wikibase/wikidatawiki/latest-truthy.nt.gz   * https://files.scatter.red/wikimedia/other/wikibase/wikidatawiki/latest-truthy.nt.gz
-  * 65 Go 👌+  * 69.6 Go 👌 pour ''8 128 295 676'' lignes ! 
 + 
 +Lectures: 
 +  * PDF [[https://wikidataworkshop.github.io/2022/papers/Wikidata_Workshop_2022_paper_4558.pdf|Getting and hosting your own copy of Wikidata]] from Wikidata’22: Wikidata workshop at ISWC 2022
  
-Pour être optimale, il faut les 2 types+Query services
-  * Pour extraire les labels, aliases et déclarations (claims) le JSON est plus facile+  * Original https://query.wikidata.org 
-  * Pour extraire le graph c'est le RDF.+  * The graph was split in two some time ago. The scholarly articles must be queried on https://query-scholarly.wikidata.org/ 
 +  * QLever démo https://qlever.dev/wikidata/ (//données à jour le 2026-01-16, [[https://qlever.dev/wikidata/OoKng8|pour vérifier]]//)
  
informatique/ai_lm/ai_nlp.1768566435.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki