Skip to content

[ S2VT ] Sequence to Sequence Video to Text

Yongho Choi edited this page Jul 4, 2020 · 2 revisions

Abstract

  • 해당 논문은 Video to Text 로 video description 혹은 video-captioning 이라는 기술의 명칭으로 불린다. 데이터셋으로는 과적합을 피하기 위한 다양성을 통하여, 유트브 영상에 대한 (MSVD)데이터셋등등으로 구성되어있다.
  • 위 논문의 기술의 데이터셋은 미리 뽑아져있는 단어와 자막을 text파일로 포맷팅하여, 'vid154':'youtube_id_초1_초2' 로 이루어진 Url 파일과 'vid154' : ['자막1','자막2'....] 로 이루어진 정답이 주어진 text 파일이 있다.
  • 위처럼 이루어진 train_text 파일을 통하여, 초1,초2 의 ffmpeg 의 portion of video 를 통하여 부분을 다운받아서 Extract_Feature.py 의 VGG16모델을 통하여, 각 프레임의 feature들을 .npy 벡터로 저장한다.
  • 트레이닝과 테스트 방식은 뽑아낸 Feature 들은 RNN 인 TOP LSTM LAYER을 통하여 Video frame sequence의 역할로 비디오 프레임에 해당하는 feature들을 the next layer에서의 의해서 hidden representation 를 통해 영상 프레임을 잇는다. 3.1.(2) 위 과정이 끝날 경우 ( 프레임이 없는 경우 ), 란 시작 태그가 주어지며, 인코딩에서 했던 사슬을 PARAMETER θ(세타) 식과 (5)에 해당하는 softmax 함수에 의하여, 가 토큰을 받을 때까지 벡터에 해당하는 단어를 병합한다. (decoding_stage)

S2VT Architecture