wikipedia-corpus

A complete Python text analytics package that allows users to search for a Wikipedia article, scrape it, conduct basic text analytics and integrate it to a data pipeline without writing excessive code.

wikipedia wikipedia-api text-analytics wikipedia-article wikipedia-search wikipedia-corpus wikipedia-scraper

Updated Dec 8, 2022
Python

OlehOnyshchak / pyWikiMM

Star

Collects a multimodal dataset of Wikipedia articles and their images

Updated Mar 25, 2023
Python

uma-pi1 / OPIEC-pipeline

Star

Updated Feb 26, 2022
Java

wolfgarbe / WikipediaExport

Star

Convert Wikipedia XML dump files to JSON or Text files

wikipedia wikipedia-api wikipedia-page wikipedia-dump wikipedia-search wikipedia-corpus wikipedia-entries

Updated Sep 23, 2020
C#

kylemin / DeViSE

Star

Implementation of DeViSE, including wordnet word2vec using gensim library (NIPS 2013)

word2vec wordnet gensim nips wikipedia-corpus nips2013

Updated Jun 30, 2017
MATLAB

ksipos / polysemy-assessment

Star

Code and data for the paper 'Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings'

nlp machine-learning deep-learning rankings wordnet wsd ontonotes wikipedia-corpus elmo spark-pyspark pyramid-match-kernels contextual-embeddings polysemy senses unigrams polysemy-quantification multiresolution-grids wordnet-domains

Updated May 13, 2020
Shell

TomerAberbach / wikipedia-ngrams

Sponsor

Star

?? A Kotlin project which extracts ngram counts from Wikipedia data dumps.

kotlin nlp cli wikipedia ngram ngrams wikipedia-dump wikipedia-corpus wikiextractor wikipedia-data-dump extracts-ngram-counts wikipedia-ngrams

Updated Jul 3, 2023
Kotlin

LeviMatheus / tcc-readability-score-level

Star

Repositorio para disponibilizacao de bases de dados do Wikipedia e Simple Wikipedia pre-processadas, alem de scripts de pre-processamento e geracao de bases em Python.

python database wikipedia python3 weka readability corpus-data corpus-tools ingles wikipedia-corpus corpus-processing portuguese-brazilian base-de-dados legibilidade

Updated Jan 19, 2023

quqixun / ReadWiki-ZH

Star

Convert WIKI dumped XML (Chinese) to human readable documents in markdown and txt.

wikipedia wikipedia-dump wikipedia-corpus

Updated Mar 25, 2020
Python

ArisPan / wiki-query

Star

A desktop application that searches through a set of Wikipedia articles using Apache Lucene.

lucene search-interface results-viewer wikipedia-search search-highlighting wikipedia-corpus desktop-search apache-lucene

Updated Apr 15, 2021
Java

bashkirtsevich-llc / wiki-dump-parser

Star

Wiki dump parser (jupyter)

python parser tutorial jupyter wiki wikipedia xml jupyter-notebook tutorials python3 xml-parser wikia jupyter-notebooks demos wikipedia-dump bz2 tutorial-code wiktionary wikipedia-corpus

Updated Sep 23, 2018
Jupyter Notebook

vikash212000yadav / Basic-Chatbot

Star

Interactive chatbot using python :)

python chatbot jupyter-notebook nltk wikipedia-corpus

Updated Jun 19, 2020
Jupyter Notebook

OmerCohen71 / IR-Wikipedia-Search-Engine

Star

IR search Engine for Wikipedia app

university-project wikipedia-corpus ir-engine

Updated Jan 16, 2023
Jupyter Notebook

Affenmilchmann / lingwiki

Star

(Ongoing module in development) Getting Wikipedia articles parsed content. Created for getting text corpuses data fast and easy. But can be freely used for other purpuses too

parser wikipedia multithreading linguistics corpus-linguistics corpus-data corpus-tools article-extractor wikipedia-corpus

Updated Jan 3, 2023
Python

Improve this page

Add a description, image, and links to the wikipedia-corpus topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the wikipedia-corpus topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

wikipedia-corpus

Here are 29 public repositories matching this topic...

howl-anderson / chinese-wikipedia-corpus-creator

uma-pi1 / OPIEC

GermanT5 / wikipedia2corpus

todd-cook / ML-You-Can-Use

ayushidalmia / Wikipedia-Search-Engine

macbre / mediawiki-dump

kohjiaxuan / Wikipedia-Article-Scraper

OlehOnyshchak / pyWikiMM

uma-pi1 / OPIEC-pipeline

wolfgarbe / WikipediaExport

kylemin / DeViSE

ksipos / polysemy-assessment

TomerAberbach / wikipedia-ngrams

LeviMatheus / tcc-readability-score-level

quqixun / ReadWiki-ZH

ArisPan / wiki-query

bashkirtsevich-llc / wiki-dump-parser

vikash212000yadav / Basic-Chatbot

OmerCohen71 / IR-Wikipedia-Search-Engine

Affenmilchmann / lingwiki

Improve this page

Add this topic to your repo