#

wikipedia-corpus

Here are 31 public repositories matching this topic...

howl-anderson / chinese-wikipedia-corpus-creator

Corpus creator for Chinese Wikipedia

nlp wikipedia-dump wikipedia-corpus chinese-corpus

Updated Jun 30, 2021
Python

GermanT5 / wikipedia2corpus

Wikipedia text corpus for self-supervised NLP model training

nlp machine-learning wikipedia corpus wikipedia-corpus german-nlp somajo

Updated Jul 17, 2022
Python

uma-pi1 / OPIEC

Reading the data from OPIEC - an Open Information Extraction corpus

nlp natural-language-processing wiki wikipedia corpus information-extraction dataset corpora corpus-data nlp-resources wikipedia-dump corpus-tools natural-language-understanding open-information-extraction dataset-interface wikipedia-corpus corpus-processing nlp-datasets

Updated Jun 12, 2019
Java

todd-cook / ML-You-Can-Use

Practical ML and NLP with examples.

Updated May 1, 2023
Jupyter Notebook

ayushidalmia / Wikipedia-Search-Engine

Involves building a search engine on the Wikipedia Data Dump using the data dump of 2013 of size 43 GB. The search results returns in real time.

python search-engine information-retrieval wikipedia-corpus

Updated May 23, 2014
Python

macbre / mediawiki-dump

Python package for working with MediaWiki XML content dumps

python wikipedia wikia wikipedia-dump fandom python3-library wikipedia-corpus xml-dump mediawiki-dump

Updated Oct 30, 2024
Python

kohjiaxuan / Wikipedia-Article-Scraper

A complete Python text analytics package that allows users to search for a Wikipedia article, scrape it, conduct basic text analytics and integrate it to a data pipeline without writing excessive code.

wikipedia wikipedia-api text-analytics wikipedia-article wikipedia-search wikipedia-corpus wikipedia-scraper

Updated Dec 8, 2022
Python

OlehOnyshchak / pyWikiMM

Collects a multimodal dataset of Wikipedia articles and their images

Updated Mar 25, 2023
Python

uma-pi1 / OPIEC-pipeline

Updated Feb 26, 2022
Java

quqixun / ReadWiki-ZH

Convert WIKI dumped XML (Chinese) to human readable documents in markdown and txt.

wikipedia wikipedia-dump wikipedia-corpus

Updated Mar 25, 2020
Python

wolfgarbe / WikipediaExport

Convert Wikipedia XML dump files to JSON or Text files

wikipedia wikipedia-api wikipedia-page wikipedia-dump wikipedia-search wikipedia-corpus wikipedia-entries

Updated Sep 23, 2020
C#

kylemin / DeViSE

Implementation of DeViSE, including wordnet word2vec using gensim library (NIPS 2013)

word2vec wordnet gensim nips wikipedia-corpus nips2013

Updated Jun 30, 2017
MATLAB

ksipos / polysemy-assessment

Code and data for the paper 'Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings'

nlp machine-learning deep-learning rankings wordnet wsd ontonotes wikipedia-corpus elmo spark-pyspark pyramid-match-kernels contextual-embeddings polysemy senses unigrams polysemy-quantification multiresolution-grids wordnet-domains

Updated May 13, 2020
Shell

TomerAberbach / wikipedia-ngrams

📚 A Kotlin project which extracts ngram counts from Wikipedia data dumps.

kotlin nlp cli wikipedia ngram ngrams wikipedia-dump wikipedia-corpus wikiextractor wikipedia-data-dump extracts-ngram-counts wikipedia-ngrams

Updated Jul 3, 2023
Kotlin

LeviMatheus / tcc-readability-score-level

Repositório para disponibilização de bases de dados do Wikipedia e Simple Wikipedia pré-processadas, além de scripts de pré-processamento e geração de bases em Python.

python database wikipedia python3 weka readability corpus-data corpus-tools ingles wikipedia-corpus corpus-processing portuguese-brazilian base-de-dados legibilidade

Updated Jan 19, 2023

ArisPan / wiki-query

A desktop application that searches through a set of Wikipedia articles using Apache Lucene.

lucene search-interface results-viewer wikipedia-search search-highlighting wikipedia-corpus desktop-search apache-lucene

Updated Apr 15, 2021
Java

bashkirtsevich-llc / wiki-dump-parser

Wiki dump parser (jupyter)

python parser tutorial jupyter wiki wikipedia xml jupyter-notebook tutorials python3 xml-parser wikia jupyter-notebooks demos wikipedia-dump bz2 tutorial-code wiktionary wikipedia-corpus

Updated Sep 23, 2018
Jupyter Notebook

vikash212000yadav / Basic-Chatbot

Interactive chatbot using python :)

python chatbot jupyter-notebook nltk wikipedia-corpus

Updated Jun 19, 2020
Jupyter Notebook

OmerCohen71 / IR-Wikipedia-Search-Engine

IR search Engine for Wikipedia app

university-project wikipedia-corpus ir-engine

Updated Jan 16, 2023
Jupyter Notebook

macbre / faroese-corpus

Some Faroese language statistics taken from fo.wikipedia.org content dump

linguistics corpus-linguistics python3-script wikipedia-dump wikipedia-corpus linguistic-analysis faroe faroese faroese-language

Updated Dec 8, 2022
Python

Improve this page

Add a description, image, and links to the wikipedia-corpus topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the wikipedia-corpus topic, visit your repo's landing page and select "manage topics."