한국   대만   중국   일본 
Короткий вступ до LanguageTool | Рос?йсько-укра?нськ? словники
  1. Опис
  2. Принцип роботи
  3. Загальний опис будови
  4. Напрямок роботи
  5. Джерела
  6. Нагальн? проблеми

 

Опис

LanguageTool ? це в?дкритий програмний зас?б для коректури (граматично? ? стильово? перев?рки) текст?в. LanguageTool ма? ширшу базу знань н?ж звичайн? засоби перев?рки орфограф?? ? оперу? складними правилами залежностей м?ж словами в реченн?.

LanguageTool доступний як

  • додаток до оф?сних пакунк?в LibreOffice.org, Apache OpenOffice
  • додаток для браузер?в Firefox та Chrome
  • додаток для Google Docs
  • як окрема програма (з граф?чним ?нтерфейсом або для командного рядка)
  • як веб-стор?нка
  • як веб-служба (REST API).

Спробувати останню зб?рку LanguageTool можна на стор?нц? граматично? перев?рки текст?в (яка працю? через веб-службу).

 

Як ви можете допомогти

 

Принцип роботи

Ось як LanguageTool анал?зу? текст на помилки:

  1. Текст розбива?ться на речення
  2. Кожне речення розбива?ться на лексеми (tokens)
  3. Кожному слову надаються його теги частин мови (напр. машини = ?менник, множина, наз. в?дм. тощо)
  4. Проанал?зований текст проганя?ться на в?дпов?дн?сть вбудованим правилам ? правилам з файлу grammar.xml

Важливо пам'ятати, що правила в LanguageTool описують, як вигляда? помилка, а не як вигляда? правильний текст (тобто протилежно тому, як люди вчать мову).

 

Загальний опис будови

П?дтримка мов у LanguageTool базу?ться на таких основних речах:

1. Словник тег?в ? словник, що опису? слова в мов?, ?х пох?дн?, частини мови, р?д, число, в?дм?нок, час тощо. Укра?нський словник тег?в базу?ться на проект? dict_uk нал?чу? близько 260 тис. лекскем ? м?стить досить докладну ?нформац?ю про словоформи. Опис наявних тег?в можна подивитися ось тут

2. Словник правил ? файл у формат? XML, що опису? неправильн? комб?нац?? лексем в реченн?. Подивитися один з укра?нських файл?в правил grammar-barbarism.xml можна ось тут , або можна переглянути ц? правила у спрощеному вигляд? . Якщо коротко, то правило м?стить наб?р лексем з ?х атрибутами, як? не повинн? зустр?чатися в реченн?. Правило також ма? надавати пов?домлення ? можлив? виправлення. В елемент? правила мусить бути також принаймн? по одному прикладу коректного ? некоректного речення. Елемент правила також дозволя? записати адресу URL на докладн?шу ?нформац?ю про помилку.

Файл grammar.xml розбитий на категор??: пунктуац?я, узгодження (в?дм?нк?в/род?в тощо), правила милозвучност?, кальки з ?нших мов тощо.

?сну? також невеликий наб?р правил, закодованих мовою програмування (Java). Одне з таких правил для укра?нсько? ? це знаходження сл?в, набраних м?шаниною розкладок (напр. коли в слов? ≪см?ття≫ л?теру ≪?≫ набрано латиницею).

3. Правила розбиття речень. Здеб?льшого речення розбиваються за к?нцевими знаками пунктуац??: крапка, знак наголос тощо, але також оброблюються деяк? особлив? випадки, напр. ?н?ц?али що йдуть з пр?звищем мають крапку, що не розбива? речення. Правила розбиття речення для укра?нсько? ? частиною загального файлу .

4. Часто одна й та сама словоформа може бути р?зними частинами мови/в?дм?нками тощо. ? в деяких випадках залежно в?д контексту можна в?дкинути непридатн? теги. Цим займа?ться модуль ≪деомон?м?зац??≫ (disambiguator). Укра?нська ма? поки лише одне правило: позначати слова з велико? л?тери в середин? речення як (власн?) ?менники.

5. Модуль укра?нсько? мови також ма? правило просто? зам?ни, файл replace.txt м?стить часто вживан? помилков? слова (напр. активн? д??прикметники) з пропозиц?ями зам?ни. Так? правила можна було б записати й в grammar.xml, але в replace.txt це виходить набагато компактн?ше. Формат запис?в досить простий: неправильне_слово=зам?на1|зам?на2…

6. LanguageTool ма? вбудовану перев?рку орфограф??, словник для укра?нсько? мови базу?ться на проект? dict_uk . Тож якщо потр?бно розширювати словник найкраще це робити через проект spell-uk.

 

Короткий вступ до удосконалення правил ? на стор?нц? LanguageTool

 

Напрямок роботи

Основний розвиток п?дтримки укра?нсько? мови поляга? в нарощуванн? бази правил (файл grammar.xml).

1. Найпрост?шою для реал?зац?? ? категор?я сталих сполук:

  • правило для знаходження ≪в деяк?й м?р?≫ ? досить прост?, бо м?стить лише незм?нюван? лексеми.
  • правило для ≪прийняти участь≫ лише тр?шки складн?ше, оск?льки д??слово ≪прийняти≫ може стояти у будь-якому час?/за будь-якою особою тощо, тож це правило залежить в?д словника тег?в (який зна? форми
    ?

    , що ?х

    ??

    може приймати це д??слово)

  • дал? йдуть випадки, де порядок сл?в необов'язковий (напр. м?ж ?менником та д??словом може бути ще слово)

2. В багатьох випадках також досить просто записуються правила пунктуац?? (напр. ≪будь ласка≫ мусить вид?лятися комами), але часто, щоб правила були компактними, треба оперувати регулярними виразами

3. Дещо складн?шими ? правила узгодження, напр. коли перев?ря?ться, щоб прикметник ? ?менник мали однаковий в?дм?нок або ?менник/прикметник п?сля прийменника ма? мати узгоджений з ним в?дм?нок. Так? правила сильно спираються на словник тег?в, а також мають багато нюанс?в.

4. Найскладн?шими ? правила, як? оперують з семантикою, б?льш?сть з них буде досить складно закодувати. Одне з вир?шень тако? проблеми ? додавання семантичних тег?в до словника, але це досить кроп?тка робота, тож ?? варто залишити на майбутн?.

При робот? над новими правилами постануть питання розширення словника тег?в, удосконалення самих тег?в, удосконалення розбиття на лексеми/речення ? побудова досконал?шо? системи деомон?м?зац??.

 

Джерела

Для нарощування бази правил можна спиратися на в?дом? й в?дкрит? джерела:

* Пономар?в. Культура слова

* Борис Антоненко-Давидович. Як ми говоримо

* Олена Курило.? Уваги до сучасно? укра?нсько? л?тературно? мови

* Олекса Синявський . Норми укра?нсько? л?тературно? мови

* Пунктуац?ю ? деяк? ?нш? реч? можна знайти в укра?нському правопис?

* Редакторськ? зауваги до текст?в книжок з форуму r2u.org.ua

* Можна також залучити як?сь статт?/стандарти щодо пунктуац??, скорочень тощо

* http://mova.kreschatic.kiev.ua/index.html

 

Нагальн? проблеми

  • Перев?рка орфограф?? не зна? багатьох наукових терм?н?в (потр?бно розширювати словник)
  • Перев?рка орфограф?? скаржиться про деяк? скорочення
  • Перев?рка орфограф?? не пропону? правильних виправлень на помилкових словах з деф?сами (потр?бно удосконалювати модуль орфограф??)
  • Багато пропонованих виправлень подаються в початков?й форм?, бажано подавати ?х у в?дм?нках/числах/часах, що в?дпов?дають ?х м?сцю в реченн?

 

Техн?чн? подробиц?