Инструкция по использованию модели

Шаг 1: Получение истории Телеграмм-чата

Экспорт истории чата в Telegram:
- Откройте настройки Telegram.
- Перейдите в раздел "Данные и память".
- Нажмите на "Экспортировать историю чата".
- Выберите чат, историю которого вы хотите экспортировать.
- В настройках экспорта выберите формат "JSON (машинночитаемый)".
- Начните процесс экспорта и дождитесь его завершения.
Сохранение файла:
- Переместите скачанный файл в папку data на вашем компьютере.
Преобразование JSON в CSV:
- Откройте терминал или командную строку.
- Перейдите в директорию с вашим проектом.
- Запустите следующую команду:
```
python ./src/prepare_messages.py --tg-history-path './data/result.json' --output-path './data/data.csv'
```
- Дождитесь окончания выполнения скрипта.
Результат:
- В папке data появится файл data.csv, содержащий экспортированную историю чата в формате CSV с колонками context_1, context_2, context_3, response.

Очистка данных:
- Откройте файл data.csv.
- Удалите лишние контексты, оставив только необходимые для обучения пары вида context_1:input-response:output.
Токенизация данных:
- Используйте подходящий токенизатор для преобразования текста в токены.
Загрузка модели:
- Загрузите предобученную модель, rugpt-3-small.
Дообучение модели:
- Настройте параметры дообучения и запустите процесс.
Сохранение модели:
- Сохраните дообученную модель и токенизатор на платформе Hugging Face или локально.

Настройка окружения:
- Клонируйте репозиторий с кодом модели:
```
git clone https://github.com/danzzzlll/ii-labs.git
```
- Перейдите в папку проекта:
```
cd path_to_project
```
Создание виртуального окружения:
- Создайте виртуальное окружение:
```
python -m venv venv_name
```
- Активируйте виртуальное окружение:
```
venv_name\Scripts\activate
```
Установка зависимостей:
- Установите необходимые зависимости:
```
pip install -r requirements.txt
```
Запуск модели:
- Запустите скрипт:
```
python ./src/run.py
```
- После загрузки модели вы сможете взаимодействовать с ней, задавая вопросы. Обратите внимание на время ответа: на CPU оно может составлять 10-15 секунд, в то время как на GPU — 3-5 секунд.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
data		data
src		src
Readme.md		Readme.md
requirements.txt		requirements.txt