GitHub - algor512/tatar-lang

Подготовка данных

Надо положить скрипты flattenize.sh и tag2vec.sh на одну папку ниже файлов words.csv и disamed.csv (например, в подпапку scripts/). Далее запустить:

./flattenize.sh
./vec2tag.sh
./create_dataset.py all_tags.txt vectorized.tsv ans_vectorized.tsv sentences.jsonl # первые три файла - результат работы предыдущих скриптов

Теперь в sentences.jsonl записан необходимый для обучения и тестирования датасет.

Обучение и тестирование

Обучать модель можно, например, так:

./model_creator.py sentences.jsonl model.json roots.txt --texts 1 30 --states 10

Тестировать:

./model_tester_new.py sentences.jsonl model.json results.jsonl

На выходе --- jsonl-файл с результатами тестирования по предложениям.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
README.md		README.md
create_dataset.py		create_dataset.py
flattenize.py		flattenize.py
flattenize.sh		flattenize.sh
model_creator.py		model_creator.py
model_tester.py		model_tester.py
requirements.txt		requirements.txt
tag2vec.py		tag2vec.py
tag2vec.sh		tag2vec.sh
train_chains.zip		train_chains.zip

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Подготовка данных

Обучение и тестирование

About

Releases

Packages

Languages

algor512/tatar-lang

Folders and files

Latest commit

History

Repository files navigation

Подготовка данных

Обучение и тестирование

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages