Domain Adaptation에서의 MMD, Hilbert Space
두 종류의 카메라로 찍은 사진들을 생각해봅시다.
하나는 고가의 DSLR 카메라로, 다른 하나는 일반적인 저렴한 스마트폰 카메라로 찍은 사진들입니다.
서로 다른 Source Domain으로 부터 만들어진 사진들은 색감, 해상도, 노이즈 등에서 차이가 있을 수 있습니다.
이 두 세트의 사진들을 하나의 앨범으로 만들고자 할 때, 앨범 내의 사진들이 일관된 스타일과 품질을 가지도록 조정하는 것이 데이터 관리할 때 바람직할 겁니다. 이때 두 Source에서 나온 데이터의 차이점을 줄이는 것을 Domain Adaptation이라고 부릅니다.
위와 같은 상황에서 Domain Adaptation 문제를 해결하기 위해 MMD를 활용하여 두 데이터셋의 차이를 최소화하도록 적용할 수 있습니다. 가령, 머신러닝 모델을 학습시킬 때, MMD를 최소화하도록 모델을 조절하면, 두 카메라로 찍은 사진들에 대해 비슷하게 반응하게 됩니다.
이렇게 MMD를 활용한 Domain Adaptation은 다른 Source에서 온 데이터들의 차이점을 효과적으로 조절하는데 유용하게 사용됩니다.
더 자세히 알아보자면, Hilbert Space라는 개념이 나옵니다. 이 힐베르트 공간은 무한한 차원의 벡터 공간을 표현하며, 이 공간에서는 함수들을 벡터처럼 다룰 수 있습니다. 선형대수학을 공부하신 분들이라면 낯이 익은 용어일거에요.
MMD의 핵심은 데이터 분포 간의 차이를 계산하는 것이지만, 이 차이를 직접 계산하는 것은 정말 어렵습니다.
그렇기 때문에 MMD는 힐베르트 공간에서 커널 트릭을 이용해보자는 아이디어를 도입하게 된것입니다.
커널 트릭을 통해 데이터를 높은 차원의 Hilbert Space로 Mapping하고, 이 공간에서는 데이터 분포 간의 차이를 보다 쉽게 파악할 수 있습니다. 결과적으로, MMD는 Hilbert Space에서 두 데이터 분포의 평균 사이의 거리를 계산하여 실제 데이터 공간에서의 차이를 측정합니다.
정리하자면, 힐베르트 공간은 MMD에서 데이터 분포 간의 차이를 효과적으로 측정하기 위한 무한한 차원의 공간으로이 공간에서는 데이터를 벡터처럼 취급하며, 이를 통해 두 데이터 세트 간의 차이를 정확하게 파악할 수 있게 됩니다.
댓글