Skip to content

korskovan/ngram

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 

Repository files navigation

ngram

В директории Tomita-NGram содержится конфигурация с сопутствующими файлами, позволяющая извлекать из файла цепочки слов (минимум по два слова), для запуска необходимо добавить в директорию файл с кодом откомпилированной программы парсера Tomita, соответствующий операционной системе, и запустить из командной строки следующим образом, например:

./tomita-linux64 config.proto

Конфигурация создаёт цепочки четырёх видов:

  • цепочка из согласнованных одного или нескольких прилагательных и существительного в нормализованной форме;
  • цепочка из наречия и глагола;
  • цепочка из двух или более существительных, согласованных по роду, числу, падежу;
  • цепочка из нормализованного существительного и глагола, согласованного с ним.

Файл config.proto содержит информацию об используемых словарях и грамматиках, входном и выходных файлах. Файл, подаваемый на вход, называется "input.txt", на выходе файл "facts.txt", в котором после каждого предложения идёт перечисление выделенных в нём цепочек, и файл "PrettyOutput.html", в котором после текста выведена табличка с отдельными частями речи, а далее табличка с цепочками. Файл "first.cxx" -- грамматика, описывает правила извлечения цепочек. Файлы "text.proto" и "words.proto" описывают типы фактов и ключевые слова, файл "mydic.gzt" -- корневой словарь.

Если из текста, используемого для примера, извлекать только факты в виде самостоятельных частей речи, то количество фактов превышало минимум, а с переводом отдельных частей в цепочки сообщений с предупреждением о превышении количества фактов становилось всё меньше, пока с добавлением последней цепочки не исчезло вовсе. Это является большим плюсом выделения цепочек вместо отдельных слов, в качестве минуса стоит отметить то, что не всегда слова в цепочке получаются согласованными.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published