В директории Tomita-NGram содержится конфигурация с сопутствующими файлами, позволяющая извлекать из файла цепочки слов (минимум по два слова), для запуска необходимо добавить в директорию файл с кодом откомпилированной программы парсера Tomita, соответствующий операционной системе, и запустить из командной строки следующим образом, например:
./tomita-linux64 config.proto
Конфигурация создаёт цепочки четырёх видов:
- цепочка из согласнованных одного или нескольких прилагательных и существительного в нормализованной форме;
- цепочка из наречия и глагола;
- цепочка из двух или более существительных, согласованных по роду, числу, падежу;
- цепочка из нормализованного существительного и глагола, согласованного с ним.
Файл config.proto содержит информацию об используемых словарях и грамматиках, входном и выходных файлах. Файл, подаваемый на вход, называется "input.txt", на выходе файл "facts.txt", в котором после каждого предложения идёт перечисление выделенных в нём цепочек, и файл "PrettyOutput.html", в котором после текста выведена табличка с отдельными частями речи, а далее табличка с цепочками. Файл "first.cxx" -- грамматика, описывает правила извлечения цепочек. Файлы "text.proto" и "words.proto" описывают типы фактов и ключевые слова, файл "mydic.gzt" -- корневой словарь.
Если из текста, используемого для примера, извлекать только факты в виде самостоятельных частей речи, то количество фактов превышало минимум, а с переводом отдельных частей в цепочки сообщений с предупреждением о превышении количества фактов становилось всё меньше, пока с добавлением последней цепочки не исчезло вовсе. Это является большим плюсом выделения цепочек вместо отдельных слов, в качестве минуса стоит отметить то, что не всегда слова в цепочке получаются согласованными.