Skip to content

An open-source library for recognition of speech commands in the user dictionary using audiovisual data of the speaker

License

Notifications You must be signed in to change notification settings

DmitryRyumin/OpenAV

Repository files navigation

PyPI PyPI - Python Version PyPI - Implementation GitHub repo size PyPI - Status PyPI - License GitHub top language Documentation Status

Описание


OpenAV - библиотека с открытым исходным кодом, предназначена для решения задач автоматического распознавания речевых команд на основе интеллектуального анализа аудиовизуальных данных.

Подробная документация по использованию библиотеки OpenAV


Содержание

Перечень возможных направлений прикладного использования библиотеки

  1. Автомобильная промышленность
    • Системы помощи водителю: Голосовое управление навигацией, климат-контролем, мультимедийными системами.
    • Каршеринг и таксопарки: Безопасное управление транспортным средством и взаимодействие с пассажирами в шумных условиях.
    • Умные автомобили: Распознавание жестов и команд для управления функциями автомобиля.
  2. Авиация
    • Кабины пилотов: Голосовое управление бортовыми системами, особенно в условиях высокого уровня шума.
    • Обучение и симуляторы: Реалистичное взаимодействие с системами управления и обучающими симуляторами.
  3. Производственные предприятия
    • Управление оборудованием: Голосовое управление станками и роботами на производственных линиях.
    • Безопасность и контроль: Мониторинг и управление безопасностью в условиях шума.
  4. Логистика и складское хозяйство
    • Управление инвентарем: Голосовое управление системами управления складом.
    • Распознавание команд операторов: Автоматизация процессов загрузки и разгрузки товаров.
  5. Медицинские учреждения
    • Оборудование: Голосовое управление медицинскими устройствами и инструментами.
    • Запись и управление данными: Голосовое ведение медицинских записей и управление информационными системами.
  6. Охрана и безопасность
    • Системы видеонаблюдения: Анализ видеопотоков и распознавание подозрительных действий или команд.
    • Управление доступом: Голосовое управление системами безопасности и контроля доступа.
  7. Умный дом
    • Умные устройства: Голосовое управление бытовыми приборами, системами освещения, климат-контролем.
    • Безопасность дома: Распознавание голосовых команд для управления системами безопасности.
  8. Образование и тренинги
    • Обучающие программы: Голосовое управление обучающими системами и симуляторами.
    • Дистанционное обучение: Интерактивное взаимодействие с учебными материалами и системами.
  9. Развлечения и медиа
    • Мультимедийные системы: Голосовое управление телевизорами, музыкальными системами, игровыми консолями.
    • Интерактивные развлечения: Распознавание голосовых и жестовых команд в видеоиграх и VR/AR приложениях.
  10. Гостиничный и ресторанный бизнес
    • Обслуживание клиентов: Голосовое управление системами бронирования, обслуживания номеров, заказов в ресторанах.
    • Интерактивные системы: Голосовое взаимодействие с информационными киосками и справочными системами.
  11. Правоохранительные органы и аварийные службы
    • Оперативное управление: Голосовое управление системами связи и управления в условиях чрезвычайных ситуаций.
    • Мониторинг и контроль: Распознавание команд для автоматизации процессов управления и мониторинга.
  12. Публичные службы и правительственные учреждения
    • Обслуживание граждан: Голосовое взаимодействие с информационными системами и справочными службами.
    • Управление документами: Автоматизация голосового управления документооборотом и административными процессами.

Эти направления показывают, насколько универсальной и полезной может быть разработанная библиотека в самых разных областях. Она может существенно улучшить эффективность и удобство использования различных систем и устройств, особенно в условиях, требующих надежного распознавания речевых команд и устойчивости к шумам.

Рекомендуемые технические требования для использования библиотеки

  • Процессор: AMD Ryzen 5950x или лучше.
  • Видеокарта (GPU): NVIDIA GeForce 4090 RTX или лучше.
  • ОЗУ: 128GB или больше.
  • Накопитель: Твердотельный накопитель (SSD) или лучше (NVMe SSD M.2).
  • Операционная система: Windows 8 64-bit или новее / Linux Ubuntu 20.04 или новее.

Минимальные технические требования для использования библиотеки (при которых достигаются заявленные технические требования по точности и скорости обработки)

  • Процессор: 4-х ядерный процессор 2.8 ГГц или больше
  • Видеокарта (GPU): 16GB или больше.
  • ОЗУ: 32GB или больше.
  • Накопитель: Твердотельный накопитель (SSD).
  • Операционная система: Windows 8 64-bit или новее / Linux Ubuntu 20.04 или новее.

Пример обучения аудиовизуальных моделей распознавания речи на основе библиотеки OpenAV

Пример тестирования библиотеки OpenAV