Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
- 그동안의 Vision 연구에서는 ImageNet에서 classifier를 학습시켰을 때, 이러한 네트워크에서 뽑아낸 feature로 transfer learning을 하면, PASCAL VOC image recognition과 같이 다른 task에서도 잘 활용할 수 있다는 것이 밝혀졌다. 이 논문에서는 이러한 아이디어가 이미지가 아닌 비디오 환경에서도 잘 작동하는지 확인하고 있다.
- 저자들은 ImageNet pre-training의 장점을 살리기 위한 새로운 two-stream 방식의 I3D 모델을 제안하면서, 기존의 Action recognition 모델 (CNN + LSTM, C3D, Two-stream, Two-stream fusion) 소개하고, basline으로 사용하여 새롭게 제시한 I3D 모델과 비교하였다.
- ImageNet classifier와 같은 효과를 얻기 위해, Kinetics dataset을 새로 수집하였는데, action class는 400개, 각 class마다 400개 이상의 영상을 포함한다.
- 실험 결과, Two-stream(RGB + Optical Flow)의 방식이 RGB만 사용한 것보다 항상 성능이 좋게나왔으며, Kinetics에서 pre-training을 시켜 UCF/HMDB에 적용했을 때 더 좋은 결과를 얻을 수 있었다.
- 따라서, 비디오 연구에서 Kinetics dataset을 이용하면 ImageNet pre-training과 같은 효과를 얻을 수 있는 것은 확실에 보이나, semantic video segmentation이나 optical flow computation과 같이 다른 연구에서도 효과적일지는 불확실하므로 추후 연구를 위해 Kinetics 데이터셋에 학습시킨 I3D 모델을 공개한다고 하였다.
- 딥마인드 짱