audio-visual-speech-recognition

Here are 14 public repositories matching this topic...

modelscope / FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

pytorch speech-recognition vad punctuation whisper audio-visual-speech-recognition speaker-diarization voice-activity-detection conformer pretrained-model rnnt dfsmn paraformer speechgpt speechllm

Updated Feb 25, 2025
Python

smeetrs / deep_avsr

Star

A PyTorch implementation of the Deep Audio-Visual Speech Recognition paper.

speech-recognition automatic-speech-recognition speech-to-text audio-visual-speech-recognition lip-reading visual-speech-recognition

Updated Feb 15, 2024
Python

ankurbhatia24 / MULTIMODAL-EMOTION-RECOGNITION

Star

Human Emotion Understanding using multimodal dataset.

python machine-learning deep-learning tensorflow keras deeplearning opensmile librosa audio-visual-speech-recognition audio-visual multimodal-emotion-recognition audio-visualization

Updated Jul 27, 2020
Jupyter Notebook

georgesterpu / Taris

Sponsor

Star

Transformer-based online speech recognition system with TensorFlow 2

python online deep-learning tensorflow transformer speech-recognition audio-visual-speech-recognition speech-recognizer multimodal multimodal-deep-learning mahcine-learning audio-visual tensorflow2 live-caption taris

Updated Jan 22, 2021
Python

Sreyan88 / LipGER

Star

Code for InterSpeech 2024 Paper: LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition

speech-recognition audio-visual-speech-recognition audio-visual llm prompting generative-ai

Updated Jul 16, 2024
Python

lzuwei / end-to-end-multiview-lipreading

Star

End to End Multiview Lip Reading

deep-learning audio-visual-speech-recognition end-to-end-learning

Updated Jan 26, 2018
Python

sungnyun / avsr-temporal-dynamics

Star

(SLT 2024) Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition

audio-visual-speech-recognition

Updated Oct 22, 2024
Python

hmeutzner / kaldi-avsr

Star

Kaldi-based audio-visual speech recognition

deep-neural-networks speech-recognition kaldi avsr asr audio-visual-speech-recognition

Updated Apr 13, 2022
Shell

karlsimsBBC / cassette-bot

Star

🤖 📼 Command-line tool for remixing videos with time-coded transcriptions.

video audio-visual-speech-recognition text-to-video

Updated Nov 14, 2019
Python

zulfiqarAlibalti / audio-visual-Transcription

Star

Real-Time Audio-visual Speech Recongition

audio-processing audio-visual-speech-recognition realtime-analytics

Updated Aug 24, 2024
Python

luomingshuang / lipreading_with_icefall

Star

In this repository, I try to use k2, icefall and Lhotse for lip reading. I will modify it for the lip reading task. Many different lip-reading datasets should be added. -_-

audio-visual-speech-recognition k2 lip-reading visual-speech-recognition icefall