본문 바로가기

CV/Sim2Real

[Paper Review] How Transferable are Video Representations Based onSynthetic Data?_2023-1

My Motivation

데이터 부족 문제를 시뮬레이션 데이터(or 합성데이터)를 통해 해결하는 것이 나의 연구/개발의 목표이다. 아직 합성데이터의 활용도가 높아지기에는 아직 가야할 길이 멀지만, 중간 스텝으로 합성데이터를 pre-train으로 사용하고, 합성데이터에서 배울 수 있는 representation을 타겟 테스크에 잘 가져오는 학습 방법이 유효하다고 생각하기에 해당 논문을 찾게 되었다. 

 

Contribution

1. Synthetic data 기반으로 action representation의 transferability를 6가지 테스크로 실험함

2. SynAPT(Synthetic Action Pre-training and Transfer) benchmark 제안

3. 위 실험을 통한 주요 인싸이트는 "the transferability gap between synthetic and real action recognition models is directly related to the object and scene bias of the datasets."

: Downstream task의 Scene-object bias가 낮을수록, Sim2Real Gap이 적은 편

 

Proposed Benchmark

Synthetic Dataset Sources

기존의 3가지 합성 데이터를 이용하여 150개의 action categories로 구성하고, 각 카테고리는 1,000 샘플씩 구성함.

ElderSim에서 55개 action, SURREACT에서 100개 액션, PHAV에서 35개 액션을 수집.

 

  • ElderSim: 집 안에서의 노인의 일상활동 액션(2d/3d)
    • 배경: 4개 실내 환경
    • 사람: 15 agents (randomizable)
    • 클래스: 55개 (28개 viewpoints)
    • 비디오: 462K 클립
    • 예시: 'eating food with a fork', 'sitting up/standing up'
  • SURREACT
    • ElderSim과 비교하여 고정된 배경만 제공
  • Procedural Human Action Videos (PHAV)
    • 배경: 7개 (4 light setting)
    • 사람: 20 agents 
    • 비디오: 약 40K 클립

Downstream Tasks

  • Scene-Object Bias를 고려한 benchmark 구성.
    • High object and scene bias (UCF101, HMDB51)
      • 바이올린을 연주하다와 같이 객체가 클래스에 절대적인 영향을 주는 것과 같이 비디오 내에서의 시간축의 움직임 보다는 객체에 따라 엑션 클래스가 정해지는 경우
    • Low object and scene bias (UCF101, HMDB51, Something-Something V2, Diving48)

 

 

Experiments

1. Implementation Details with Various Model Architectures

차원 축을 고려하여, 3가지 모델을 선정함: Temporal Segment Network (TSN) [59], I3D [7], and R(2+1)D [56], covering 2D, 3D, and 2.5D feature representations, respectively

 

2. Transfer Learning Results => 대표 실험

Transfer learning 실험: FT과 LP를 방식으로 각 downstream tasks에서 어느정도 성능이 있는 지 평가함.

비교 pre-training dataset은 아래와 같다.  

  • Kitnetics: 전체 Kinetics [28]에서 Synthetic data 클래스에 해당하는 클래스만을 사용하고, 랜덤 샘플링하여 구성함
  • Synthetic: 본 페이퍼에서 제안한 데이터
  • Scratch: Random initialization

정량적으로도 object and scene bias가 큰 UCF101, HMDB51에는 리얼 데이터셋인 Kinetics에서 pre-train할 때가 3가지 모델에서 일관적으로 성능이 Synthetic 보다 높다. 반면에 UCF101, HMDB51, Something-Something V2, Diving48에서는 일관적으로 Synthetic에서 pre-train 할 때가 일관적으로 높은 것을 보여줌

 

3. Representation Bias and Transferability 

Representiaion Bias과 Transferability간의 관계를 파악하기 위해 HMDB51 데이터셋 클래스에서 ImageNet pre-trained 된 모델로 예측한 정확도를 기준으로 다른 representation bias가 구분되는 8개의 서브셋(25개 클래스)을 구성하였다.

Synthetic vs Real data pre-training에서 downstream 성능 차이는 downstream representation bias가 작아질수록 줄어든다. x축의 서로 다른 지점은 HMDB51 데이터셋의 서로 다른 25개 클래스 하위 집합에 해당하고, 아래에는 bias가 증가하는 순서대로 클래스의 예시를 보여준다 

 

My Ideation-UP

Action Recognition 테스크에서 본인의 테스크 클래스가 Object-cene bias에 얼마나 민감한지 고려하는 것이 중요하다는 것이 가장 큰 메시지다.

합성데이터 구성시에 object-scene bias가 큰 클래스가 많은 경우에는 해당하는 주요 object class와 scene을 고의적으로 많이 학습데이터에 배치하고, 그것도 가능한 객체는 리얼셋으로 구성하는 것이 유리할 것이다. 하지만 object-scene bias가 적은 데이터셋의 경우에는 오히려 합성데이터의 Large-variance를 살려주는 것이 유리할 거 같다.

 

 

 

References

[7] Joao Carreira and Andrew Zisserman. Quo vadis, action recognition? a new model and the kinetics dataset. In Computer Vision and Pattern Recognition, 2017.

[28] Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman, and Andrew Zisserman. The kinetics human action video dataset. arXiv preprint arXiv:1705.06950, 2017.

[56] Du Tran, Heng Wang, Lorenzo Torresani, Jamie Ray, Yann LeCun, and Manohar Paluri. A closer look at spatiotemporal convolutions for action recognition. In Computer Vision and Pattern Recognition, 2017.

[59] Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, and Luc Van Gool. Temporal segment networks: Towards good practices for deep action recognition. In Computer Vision and Pattern Recognition, 2016.

 

Sources

https://openreview.net/pdf?id=lRUCfzs5Hzg 

How Transferable are Video Representations Based on Synthetic Data?