OSVOS(One-Shot Video Object Segmentation) [Paper]
- 각 frame을 독립적으로 연산하며 Time sequence상에서 continuous하게 correlation을 활용하지 않는다.
Frame-based processing introduces temporal inconsistencies
But results are still very convincing
MaskTrack(Learning Video Object Segmentation from Static Images) [Paper]
- Input fame과 이전 mask estimate를 concatenate해서 네트워크를 통과시키면 이전 mask를 refine하여 input frame에 맞는 mask를 생성한다.
- 이전 영상과 다음 frame의 연관성을 활용하여 mask를 생성한다.
The ConvNet is trained to refine the previous mask to the current frame
RGMP(Fast Video Object Segmentation by Reference-Guided Mask Propagation) [Paper]
- 이전 frame과 mask뿐만 아니라 Reference frame과 mask(첫번째 frame의 이미지와 mask정보)를 함께 넘겨준다.
RVOS(End-to-End Recurrent Network for Video Object Segmentation) [Paper]
- Spartial recurrence와 Temporal recurrence를 모두 고려한다.
- Frame sequence뿐만 아니라 Object sequence도 고려한다. 예) 사람-말-개 순서로 마스크를 생성
STMN(Video Object Segmentation using Space-Time Memory Networks) [Paper]
- 여러 개의 intermediate frame을 사용하는 방법을 제안한다.
-
Memory구조를 활용하여 이전 Frame들의 정보를 저장하고, 현재 Frame에 도움되는 부분을 읽어서 사용한다.
-
아래 그림의 왼쪽 부분처럼 이전 RGB frame과 foreground mask가 memory에 저장되고, 오른쪽 부분에서는 현재 주어진 frame을 기반으로 memory에서 정보를 가져온 후 mask를 예측한다.
-
Query key와 memory key의 similarity를 dot product로 계산한 후 softmax값을 memory value과 weighted sum을 한다. 이렇게 read된 memory는 query value와 concat되어 최종 read output이 된다.