TBA
Чтобы установить пакет из этого репозитория, достаточно написать в терминале:
pip install git+https://github.com/windowsartesEmbeddings4Disease.git
Если каких-то изменений ещё нет в master-ветке, то можно установить пакет из любой другой ветки при помощи:
pip install git+https://github.com/windowsartes/Embeddings4Disease.git@branch
Где «branch» - название нужной вам ветки.
Например, чтобы установить версию пакеты из ветки «development», нужно выполнить
pip install git+https://github.com/windowsartes/Embeddings4Disease.git@development
Помимо этого, в нашем проекте есть опциональные зависимости, например, для визуализации или использования архитектуры RoFormer. Чтобы установить какие-то опциональные зависимости, выполните следующую команду:
pip install "Embeddings4Disease[optional dependencies] @ git+https://github.com/windowsartes/Embeddings4Disease.git
Где вместо «optional dependencies» перечислены через запятую названия наборов зависимостей. Их полный список вы можете найти в pyptoject'е.
Например, чтобы получить возможно использовать RoFormer и использовать проверку типов, линтер и автоформатор, нужно выполнить
pip install "Embeddings4Disease[roformer,development] @ git+https://github.com/windowsartes/Embeddings4Disease.git
Установив модуль в своё виртуальное окружение, вы сможете использовать его, как любой другой устанавливаемый пакет, а также использовать CLI.
В нашем проекте есть CLI в рамках которого реализованы утилиты для обучения и валидации моделей. Скрипты будут сгенерированы и добавлены автоматически после установки пакеты в виртуальное окружение. CLI полностью работает на основе конфига, который вы ему подадите. Примеры различных конфигов вы можете найти здесь.
Чтобы запустить обучение модели, выполните команду:
training *путь-до-конфига*
Путь до конфига следует указывать относительно той директории, из которой вы запускаете скрипт. Примеры конфигов для обучения с их подробным описанием вы найдёте здесь.
Также нами реализован CLI для валидации моделей:
validation *путь-до-конфига*
Как и при обучении, путь до конфиг-файла необходимо указывать относительно текущей директории. Примеры и описание вы можете найти здесь
CLI для обучения и для обучения ожидают, что данные будут в формате одной транзакции на одной строке. Чтобы привести данные к такому виду, а также иметь возможность создать токенайзер при помощи vocab-файла, у нас есть CLI для предобработки данных.
preprocessing *путь-до-конфига*
Детали создания конфига, а также пример для предобработки MIMIC-4 вы можете найти здесь.
В этом colab-блокноте вы найдёте пример использования CLI для обучения модели с нуля.
А в этом colab-блокноте вы найдёте пример использования валидации через CLI.
CLI был полностью протестирован на Windows 11, Ubuntu 22.04 через WSL, Ubuntu 20.04 и в гугл-колабе.