2020-1. SEJONG.UNIV_창의학기제 : 저화질 영상에 대한 Video Captioning 네트워크 성능 향상 연구
Video_Captioning 기술은 영상의 특징을 추출하는 딥러닝 CNN 네트워크와 이를 기반으로 문장과 매칭시켜 학습시크는 RNN 네트워크가 결합하여 있는 기술이다. 이 기술의 성능은 특징들을 사용하기 때문에 영상의 화질과 CNN모델에 민감하다. 이 중에서 영상의 화질에 중점을 두고, 영상의 QP 조절을 통하여 저화질에서도 고화질 Video Captioning 네트워크의 성능을 가질 수 있도록 하는 연구를 통하여, 테스트 영상에 대해 저화질 영상에서 정확한 자막 생성 성능을 가질 수 있도록 하는 것을 목표로 한다.
- linux 18.04 + docker
- cuda 8.0
- caffe
- python 2.7
-
1주차 : Video Captioning 논문 조사 및 CNN 학습 및 점수 비교
-
2주차 : 저화질 영상 생성 알고리즘 생성과 저화질 영상에 기존의 Video Captioning 네트워크 적용
-
3주차 : 저화질 Video Captioning 성능 향상 연구
-
마무리 보고서
Microsoft Video Description (MSVD) dataset comprises of 1,970 YouTube clips with human annotated sentences written by AMT workers. The audio is muted all clips to avoid bias. The play-time of each video in the dataset is usually between 10 to 25 seconds mainly showing one activity. The orignal datasets description comprises multilingual description. This project'll use English description. and Almost all research groups have split this dataset into training, validation and testing partitions of 1200, 100 and 670 videos respectively. thus, I use splited dataset form( training, validation and testing partitions of 1200, 100 and 670 videos ).
-
Paper
- Captioning
- CNN Feature
-
Github
- S2VT
- CNN FEATURES [InceptionV4][vgg16]
- COCO Captions
-
이용 Caffe 버전 - recurrent (Github link )
- 해당 Caffe는 recurrent 라는 브런치. 최신화할 경우 /examples/S2VT 가 존재하지않음에 주의.