DomainAdaptor : A New Approach to Test-time Adaptation
Abstract
훈련 샘플과 테스트 샘플 간의 Domain shift를 처리하기 위해 현재 방법은 주로 훈련 중에 일반화 가능한 기능을 학습하는 데 중점을 두고 테스트 중에 보이지 않는 샘플의 특성을 무시한다. 본 논문에서는 훈련된 CNN 모델을 테스트 중에 보이지 않는 도메인에 적용하는 것을 목표로 하는 보다 어려운 작업을 진행한다. 테스트 데이터의 정보를 최대한 mining하기 위해 AdaMixBN 모듈과 GEM (Generalized Entropy Minimization) 손실로 구성된 TTA을 위한 DomainAdaptor을 제안한다. AdaMixBN은 dynamic mixture coefficient 및 statistic transformation operation을 통해 Normalization layer에서 훈련 및 테스트 통계를 적응적으로 융합하여 Domain shift를 해결하고자 한다. 나아가 AdaMixBN의 Adaptation 능력을 더 개선하기 위해 테스트 데이터의 정보를 더 잘 활용할 수 있는 GEM 손실을 설계했다.
Introduction
Domain Shift를 극복하기 위해 이전 연구들은 주로 훈련 단계의 복잡한 모델을 설계하는 것에 중점을 두었습니다.
Domain Adaptation과 관련된 딥러닝 연구에서, 모델이 소스와 타겟 도메인 간의 차이를 최소화하는 공통적인 특징을 학습하도록 하는 Domain-Invariant feature learning 그리고 최대 평균 불일치(MMD), 상관 정렬(CORAL), 대조적 도메인 불일치(CDD) 등과 같은 고급 통계 기술을 사용하여 두 도메인의 특징 분포를 정렬하기도 했습니다. 이러한 접근 방식을 통해 모델이 서로 다른 도메인의 데이터에 대해 더 잘 일반화되고, 타겟 도메인에서 더 나은 성능을 달성할 수 있도록 기대했던 것입니다.
하지만 이러한 방식을 사용했음에도 Test 단계에서 도메인 격차가 큰 경우가 존재할 때는 여전히 성능 저하가 일어날 수 밖에 없는데요.
테스트 단계에서 라벨이 없는 새로운(unseen) 데이터에는 방대한 정보가 존재하는데, 이는 훈련 단계에서의 일반화를 고려할 때 종종 무시됩니다.
따라서 훈련된 모델을 테스트 중인 unlabeled-unseen 데이터에 적응시키는 것이 더 실용적인 접근 방법입니다.
이를 위해 테스트 과정에서 이러한 정보를 모델에 통합하는 것이 중요하다고 할 수 있습니다. [i.e. tent: Fully test-time adaptation by entropy minimization]
소스 데이터와 라벨이 없는 타겟 데이터를 모두 통합하면 실제 세계 시나리오에서 보이지 않는 도메인을 처리하는 데 모델의 적응력을 향상시킬 수 있습니다.
그러나 테스트 중에 이러한 데이터를 처리하는 데 드는 높은 계산 비용 때문에 실제로 실행하기 어렵습니다. 또한, 많은 실제 시나리오에서 데이터
댓글