어릴 적 ‘다른 그림 찾기’ 놀이를 해본 적 있으신가요? 여러 그림 중 유독 튀는 하나를 고르는 간단한 게임이죠. 사람은 대부분 비슷한 답을 고릅니다. 맥, 양, 그리고 생일 케이크가 있다면 망설임 없이 케이크를 고를 겁니다.
그런데 만약 AI에게 같은 문제를 내면 어떨까요? 놀랍게도 AI는 우리와 전혀 다른 답을 내놓곤 합니다. AI는 왜 우리와 다르게 세상을 ‘보고’ 있을까요? 이 작은 차이가 AI의 신뢰성과 직결되는 중요한 문제입니다.
AI는 왜 우리와 다르게 볼까요?
우리는 사진을 분류하고, 꽃 이름을 찾고, 자동차를 운전하는 데 AI를 사용합니다. 하지만 이 똑똑한 AI가 우리와 같은 방식으로 세상을 ‘본다’고 말하긴 어렵습니다.
예를 들어, AI는 수백 가지 자동차 모델을 구별하면서도, 정작 자동차와 비행기의 공통점(둘 다 금속으로 만든 큰 운송 수단)은 파악하지 못할 수 있습니다.
이는 AI가 세상을 인식하고 정보를 조직하는 방식, 즉 ‘표현(representation)’이 인간과 다르기 때문입니다.
AI의 ‘눈’을 테스트하는 방법
연구진은 AI와 인간의 인식 차이를 알아보기 위해 고전적인 ‘이상한 것 골라내기’ 과제를 사용했습니다. 세 개의 이미지를 보여주고, 나머지 둘과 어울리지 않는 하나를 고르게 하는 방식입니다.
이 테스트는 AI가 어떤 두 항목을 ‘가장 비슷하게’ 보는지, 즉 세상을 어떻게 분류하는지 명확히 보여줍니다.
AI가 자꾸 틀리는 이유
어떤 문제는 사람과 AI 모두 쉽게 맞춥니다. 맥, 양, 케이크 중에서는 당연히 케이크를 골라냅니다. 하지만 사람이 쉽게 동의하는 답을 AI는 틀리는 경우가 많았습니다.
고양이, 불가사리, 말미잘 사진이 있을 때, 대부분의 사람은 불가사리를 ‘다른 하나’로 꼽습니다. 하지만 AI 모델은 배경색이나 질감 같은 피상적인 특징에 집중해, 엉뚱하게도 고양이를 골랐습니다.
이는 AI가 인간과 체계적으로 다르게 세상을 보고 있다는 증거입니다.
AI를 ‘재교육’하기 어려운 이유
이 문제를 해결하기 위해 인간의 판단이 담긴 데이터셋(THINGS)을 사용할 수 있습니다. 하지만 이 데이터셋은 수천 장의 이미지에 불과해 너무 작다는 한계가 있습니다.
강력한 AI 모델을 이 작은 데이터로 직접 미세조정(fine-tuning)하면 ‘과적합(overfitting)’이 발생합니다. 즉, 새 데이터에만 과도하게 적응한 나머지, 이전에 배운 다른 모든 기술을 잊어버리는 문제가 생깁니다.
3단계로 AI를 정렬하는 법
그래서 연구진은 영리한 3단계 접근법을 제안했습니다.
첫째, 기존 AI 모델을 기반으로 작은 어댑터만 훈련시켜 ‘교사 모델’을 만듭니다. 이 교사 모델은 기존 지식은 잊지 않으면서 인간의 판단을 흉내 냅니다.
둘째, 이 교사 모델을 사용해 수백만 개의 ‘인간과 유사한’ 판단이 담긴 대규모 데이터셋(AligNet)을 생성합니다.
마지막으로, 이 방대한 새 데이터셋으로 ‘학생 모델’을 훈련시킵니다. 데이터가 풍부하기 때문에 과적합 없이 모델의 내부 지도를 완전히 재구성할 수 있습니다.
드디어 ‘개념’을 이해하기 시작한 AI
이 훈련을 거친 AI의 내부 지도는 놀랍게 변했습니다. 뒤죽박죽 섞여 있던 개념들이 동물, 음식처럼 명확한 범주로 나뉘어 정리되었습니다.
AI가 드디어 인간의 ‘개념적 계층 구조’를 이해하기 시작한 것입니다.
예를 들어, ‘두 마리의 개’처럼 비슷한 항목은 더 가깝게, ‘올빼미와 트럭’처럼 아주 다른 항목은 더 멀어지도록 스스로 지도를 재편성했습니다.
‘사람처럼’ 생각하자 더 똑똑해졌다
모델을 인간과 비슷하게 정렬하자, 인지 과학 테스트 점수만 높아진 게 아니었습니다. AI 모델 자체가 전반적으로 더 똑똑해졌습니다.
단 하나의 이미지만 보고도 새 범주를 학습하는 능력(few-shot learning)이나, 새로운 유형의 이미지에도 안정적으로 작동하는 능력(distribution shift)이 크게 향상되었습니다.
심지어 AI가 결정을 망설이는 정도가, 실제 인간이 고민하는 시간과 비례하는 ‘인간다운 불확실성’까지 배우게 되었습니다.
더 신뢰할 수 있는 AI를 향해
많은 AI가 아직 인간의 지식 구조나 상식을 제대로 포착하지 못합니다. 이번 연구는 AI가 세상을 ‘오해’하는 문제를 해결하고, 그들의 인지 지도를 인간의 것과 더 가깝게 정렬하는 중요한 방법을 제시했습니다.
AI가 우리와 더 비슷하게 세상을 바라보게 될수록, 우리는 더 견고하고 신뢰할 수 있는 AI 시스템을 만들 수 있을 것입니다.
답글 남기기