AI Story로 돌아가기

비지도 학습 클러스터링

비지도 학습 클러스터링

비지도 학습 클러스터링

비지도 학습

방법 - 답안지 없이 시험지만

비지도 학습은 시험지와 답안지 중에서 시험지만 인공 지능 엔진에 제공하는 방식입니다. 사진의 경우라면 사진 속이 사물이 무엇인지 그 이름은 뺀 채로 이미지만 달랑 주는 것입니다. 수백만 장의 사진 이미지만 인공 지능이 학습하게 되면 그 인공 지능 모델은 새로운 입력 사진 속 사물의 이름을 맞힐 수는 없습니다.

쓸모 - 비슷한 것들끼리 묶어내기

사물의 이름을 알아 맞히지 못하는 인공 지능은 쓸모가 없다고요? 그렇지 않습니다. 이름은 몰라도 새로운 사진이 기존의 사진과 비슷한지 여부를 알아낼 수 있다면 꽤 쓸모가 있게 됩니다. 아예 비슷한 사진들끼리 모아준다면 더 긴요할 수 있습니다. 비지도 학습의 으뜸은 비슷한 것들끼리 묶어내기입니다.

클러스터링: 클러스터와 아웃라이어

클러스터링 (비슷한 것들끼리 묶기) 결과: 클러스터와 아웃라이어

비지도 학습 중에서 단연 제일 중요한 목표는 비슷한 데이터들끼리 묶어내는 것인데, 이 작업을 클러스터링이라고 부릅니다. 클러스터링을 하고 난 결과로 얻어지는 것은 다수의 클러스터와 아웃라이어입니다. 하나의 클러스터 안에는 비슷한 데이터들이 들어가게 됩니다. 어느 클러스터에도 속하지 않은 것들은 별나게 생긴 것들인데요, 이를 아웃라이어라고 부릅니다.

비슷하다는 판단은 인공 지능이 그때 그때 알아서

그렇다면, 과연 어떤 기준으로 두 데이터가 비슷하다고 판단을 할까요? 바로 이 대목에서 인공 지능의 역량이 발휘가 됩니다. 모든 데이터를 다 고려해서 가장 적절한 기준을 도출하는 것이지요. 물론 이 기준은 새로운 데이터가 입력될 때마다 새롭게 조정이 됩니다.

인간, 인공 지능의 감독관

인공 지능이 정한 기준이 우리가 원하는 목표에 부합하는 것일까요? 늘 그렇지는 않습니다. 바로 이 대목에서 인간 지성의 역량이 필요하게 됩니다. 인공 지능의 결과를 인간이 검토하고 판단해서 필요하다면 인공 지능에게 기준을 바꾸라고 지시해야 하는 것입니다.

클러스터링의 활용: 비정상 탐지

비슷한 것끼리 묶어서 비슷하지 않은 것 찾기

비슷한 것들끼리 묶어내는 클러스터링이 어디에 효용이 있을까요? 흥미롭게도 “비슷하지 않은 것”을 찾는 데에 큰 효용이 있습니다. 우리의 관심사 중에서 다른 데이터들과 비슷하지 않은 경우 비정상이라고 봐도 될만한 것들이 제법 많이 있습니다. 흔히 “사고”라고 부를 수 있는 것들은 대개 다수의 다른 것들과는 비슷하지 않은 경우일 수 있습니다.

비슷하지 않은 것은 비정상 의심 대상

아웃라이어나 소량의 데이터만 포함하는 작은 클러스터들은 비정상일 가능성이 있습니다. 물론 데이터를 추가해서 클러스터링을 하게 되면 이들은 큰 클러스터에 포함될 수도 있고, 그렇게 되면 많은 다른 데이터와 비슷하기 때문에 정상일 가능성이 높아집니다. 그러나, 시간이 지나도 계속 아웃라이어나 작은 클러스터로 남는다면 의심해 봐도 좋습니다.

비정상 탐지의 으뜸, 클러스터링

뭔가 평상 시와 달리 비정상인 데이터를 찾아내고 싶다면 클러스터링이 효과적인 접근법입니다.

클러스터링의 활용: 반복 작업

비슷한 것들끼리 잘 묶였다면, 그들을 모두 하나로 간주해도 무방할 때가 종종 있습니다.

고객의 여러 정보를 바탕으로 클러스터링을 하게 되면 비슷한 고객들이 하나의 클러스터에 모이게 됩니다. 고객마다 맞춤 정보를 제공하고자 할 때 각각의 고객에 대해서 같은 일을 반복하기 보다는, 같은 클러스터에 포함된 고객에게 같은 정보를 제공하는 방식이 더 효율적입니다.

AI Story로 돌아가기