•  


GitHub - M4t1ss/parallel-corpora-tools: Tools for filtering and cleaning parallel and monolingual corpora for machine translation and other natural language processing tasks.
Skip to content

Tools for filtering and cleaning parallel and monolingual corpora for machine translation and other natural language processing tasks.

License

Notifications You must be signed in to change notification settings

M4t1ss/parallel-corpora-tools

Folders and files

Name Name
Last commit message
Last commit date

Latest commit

 

History

66 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Corpora Cleaning Tools

Tools for filtering and cleaning parallel and monolingual corpora in order to train better (neural) machine translation systems.

Inspired by the Data Filtering and Data Pre-processing sections of Tilde's WMT17 paper . This repository includes some of the more basic scripts that can help to get rid of the majority of junk from parallel corpora.

Tools included

  • parallel - tools for parallel corpora
  • mono - tools for monolingual corpora

Requirements

pip install subword-nmt
pip install langid

Publications

If you use this tool, please cite the following paper:

Mat?ss Rikters (2018). " Impact of Corpora Quality on Neural Machine Translation. " In Proceedings of the 8th Conference Human Language Technologies - The Baltic Perspective (Baltic HLT 2018) (2018).

@inproceedings
{
Rikters2018BalticHLT
,
	
author
 = 
{
Rikters, Mat?ss
}
,
	
booktitle
=
{
In Proceedings of the 8th Conference Human Language Technologies - The Baltic Perspective (Baltic HLT 2018)
}
,
	
title
 = 
{
{Impact of Corpora Quality on Neural Machine Translation}
}
,
	
address
=
{
Tartu, Estonia
}
,
	
year
 = 
{
2018
}

}
- "漢字路" 한글한자자동변환 서비스는 교육부 고전문헌국역지원사업의 지원으로 구축되었습니다.
- "漢字路" 한글한자자동변환 서비스는 전통문화연구회 "울산대학교한국어처리연구실 옥철영(IT융합전공)교수팀"에서 개발한 한글한자자동변환기를 바탕하여 지속적으로 공동 연구 개발하고 있는 서비스입니다.
- 현재 고유명사(인명, 지명등)을 비롯한 여러 변환오류가 있으며 이를 해결하고자 많은 연구 개발을 진행하고자 하고 있습니다. 이를 인지하시고 다른 곳에서 인용시 한자 변환 결과를 한번 더 검토하시고 사용해 주시기 바랍니다.
- 변환오류 및 건의,문의사항은 juntong@juntong.or.kr로 메일로 보내주시면 감사하겠습니다. .
Copyright ⓒ 2020 By '전통문화연구회(傳統文化硏究會)' All Rights reserved.
 한국   대만   중국   일본