ngram

В директории Tomita-NGram содержится конфигурация с сопутствующими файлами, позволяющая извлекать из файла цепочки слов (минимум по два слова), для запуска необходимо добавить в директорию файл с кодом откомпилированной программы парсера Tomita, соответствующий операционной системе, и запустить из командной строки следующим образом, например:

./tomita-linux64 config.proto

Конфигурация создаёт цепочки четырёх видов:

цепочка из согласнованных одного или нескольких прилагательных и существительного в нормализованной форме;
цепочка из наречия и глагола;
цепочка из двух или более существительных, согласованных по роду, числу, падежу;
цепочка из нормализованного существительного и глагола, согласованного с ним.

Файл config.proto содержит информацию об используемых словарях и грамматиках, входном и выходных файлах. Файл, подаваемый на вход, называется "input.txt", на выходе файл "facts.txt", в котором после каждого предложения идёт перечисление выделенных в нём цепочек, и файл "PrettyOutput.html", в котором после текста выведена табличка с отдельными частями речи, а далее табличка с цепочками. Файл "first.cxx" -- грамматика, описывает правила извлечения цепочек. Файлы "text.proto" и "words.proto" описывают типы фактов и ключевые слова, файл "mydic.gzt" -- корневой словарь.

Если из текста, используемого для примера, извлекать только факты в виде самостоятельных частей речи, то количество фактов превышало минимум, а с переводом отдельных частей в цепочки сообщений с предупреждением о превышении количества фактов становилось всё меньше, пока с добавлением последней цепочки не исчезло вовсе. Это является большим плюсом выделения цепочек вместо отдельных слов, в качестве минуса стоит отметить то, что не всегда слова в цепочке получаются согласованными.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

ngram

About

Uh oh!

Releases

Packages

korskovan/ngram

Folders and files

Latest commit

History

Repository files navigation

ngram

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages