-
Экспорт истории чата в Telegram:
- Откройте настройки Telegram.
- Перейдите в раздел "Данные и память".
- Нажмите на "Экспортировать историю чата".
- Выберите чат, историю которого вы хотите экспортировать.
- В настройках экспорта выберите формат "JSON (машинночитаемый)".
- Начните процесс экспорта и дождитесь его завершения.
-
Сохранение файла:
- Переместите скачанный файл в папку
data
на вашем компьютере.
- Переместите скачанный файл в папку
-
Преобразование JSON в CSV:
- Откройте терминал или командную строку.
- Перейдите в директорию с вашим проектом.
- Запустите следующую команду:
python ./src/prepare_messages.py --tg-history-path './data/result.json' --output-path './data/data.csv'
- Дождитесь окончания выполнения скрипта.
-
Результат:
- В папке
data
появится файлdata.csv
, содержащий экспортированную историю чата в формате CSV с колонкамиcontext_1
,context_2
,context_3
,response
.
- В папке
-
Очистка данных:
- Откройте файл
data.csv
. - Удалите лишние контексты, оставив только необходимые для обучения пары вида
context_1:input-response:output
.
- Откройте файл
-
Токенизация данных:
- Используйте подходящий токенизатор для преобразования текста в токены.
-
Загрузка модели:
- Загрузите предобученную модель,
rugpt-3-small
.
- Загрузите предобученную модель,
-
Дообучение модели:
- Настройте параметры дообучения и запустите процесс.
-
Сохранение модели:
- Сохраните дообученную модель и токенизатор на платформе Hugging Face или локально.
-
Настройка окружения:
- Клонируйте репозиторий с кодом модели:
git clone https://github.com/danzzzlll/ii-labs.git
- Перейдите в папку проекта:
cd path_to_project
- Клонируйте репозиторий с кодом модели:
-
Создание виртуального окружения:
- Создайте виртуальное окружение:
python -m venv venv_name
- Активируйте виртуальное окружение:
venv_name\Scripts\activate
- Создайте виртуальное окружение:
-
Установка зависимостей:
- Установите необходимые зависимости:
pip install -r requirements.txt
- Установите необходимые зависимости:
-
Запуск модели:
-
Запустите скрипт:
python ./src/run.py
-
После загрузки модели вы сможете взаимодействовать с ней, задавая вопросы. Обратите внимание на время ответа: на CPU оно может составлять 10-15 секунд, в то время как на GPU — 3-5 секунд.
-