Multimodal Scene Text Recognition (work in progress)

Multimodal approach to optical character recognition

Installation

git clone https://github.com/JoshuaPlacidi/semantic-ocr
Set the path to COCO 2014 training image folder in config.py
Download pretrained model from (TPS-ResNet-BiLSTM-Atn): https://www.dropbox.com/sh/j3xmli4di1zuv3s/AAArdcPgz7UFxIHUuKNOeKv_a?dl=0&preview=TPS-ResNet-BiLSTM-Attn.pth
python train.py

Name		Name	Last commit message	Last commit date
Latest commit History 42 Commits
annotations		annotations
modules		modules
results		results
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
coco_dataset.py		coco_dataset.py
coco_text.py		coco_text.py
config.py		config.py
dataset.py		dataset.py
evaluate.py		evaluate.py
model.py		model.py
run.py		run.py
train.py		train.py
training_functions.py		training_functions.py
utils.py		utils.py