인공 지능의 기본 개념
인공 지능과 인간 지성의 교차
인공 지능이 인간 지성을 곧 뛰어 넘을 것처럼 보입니다. 기대도 많고 그만큼 우려도 많습니다.
다가올 인공 지능은 더 이상 사람을 필요로 하지 않을까요? 그래서 사람은 아무 것도 하지 않아도 행복하게 살게 될까요? 인공 지능은 사람을 해치지는 않을까요? 인공 지능이 인간의 행복을 위해 동작하도록 인간은 무엇을 해야 할까요?
미래를 지금 정확히 예측할 수는 없어도, 한 가지 너무나 분명한 것이 있습니다. 인간 지성이 더욱 중요할 것이라는 점 말입니다.
클럼엘은 인공 지능과 인간 지성이 만나는 지점에서 기술을 바라봅니다. 아직은 부족한 인공 지능에 인간의 지성을 어떻게 보탤지 연구합니다. 인공 지능의 범람 속에서 인간 지성의 가치를 고양합니다.
인공 지능의 쌍두마차
시험지와 답안지를 인공 지능에게 - 지도 학습
우리가 흔히 보는 인공 지능은 학습 데이터를 인공 지능에게 주는 방식입니다. 시험지와 답안지를 함께 주어서 인공 지능이 어떻게 답을 내면 되는지 방법을 만들게 하는 것이지요.
답안지가 없거나 부실한 시험지이거나 - 비지도 학습
인공 지능의 다른 방식은 인공 지능에게 시험지만 주는 것입니다. 답안지를 안 주면 인공 지능이 도대체 무엇을 학습하고 어떤 결과를 내 놓게 될까요? 시험지와 답안지를 함께 인공 지능에 주는 방식을 지도 학습이라고 부르고, 시험지만 주거나 부실한 시험지를 주는 방식을 비지도 학습이라고 부릅니다.
인공 지능 = 지도 학습 + 비지도 학습
지도 학습과 비지도 학습은 인공 지능의 쌍두마차입니다.
인공 지능의 미래
세상의 많은 문제들이 지도 학습 기반의 인공 지능만으로는 해결할 수가 없습니다. 또한, 인간을 대신하는 수단으로서의 인공 지능을 뛰어넘어 인간의 한계를 극복하는 인공 지능이 필요합니다. 이를 위해서는 인공 지능에 더불어 인간의 지성이 함께 가야만 합니다.
지도 학습과 비지도 학습의 원리
사람이 답안지를 제대로 줄 수가 없을 때
사람이 쉽게 만들 수 있는 답안지
자율 주행 모델을 만들기 위해서 필요한 데이터는 사람이 정확하게 만들어 인공 지능에게 줄 수 있습니다. 직접 사람이 운전해서 만들면 되니까요.
사람이 만들기 어려운 답안지
지진 예측 모델을 만든다고 생각해 보세요. 이 경우 시험지는 지질 정보, 답안지는 지진 유무와 같은 것이 될 것입니다. 학습 데이터가 몇 개나 될까요? 운전하는 것처럼 지진을 만들어 낼 수는 없습니다.해커의 침입을 탐지하는 모델도 비슷한 난관에 마주하게 됩니다. 해커가 새로운 공격을 만들어 낼텐데 그건 어떻게 모을 수 있을까요? 기존 수법으로 해커가 공격하지 않는데 기존에 모아둔 공격 데이터는 과연 쓸모가 있을까요?
사람이 시험지를 제대로 줄 수가 없을 때
답안지를 쉽게 만든다고 해도…
주가 예측 모델을 생각해 보겠습니다. 시험지는 오늘의 각종 경제 정보가 될 것이고, 답안지는 다음 날 주가가 올랐는지 내렸는지가 될 것입니다. 답안지는 쉽게 모을 수 있습니다.
시험지에 포함할 정보는 어디까지?
그런데, 시험지가 참으로 곤란합니다. 도대체 어떤 정보들을 시험지에 포함해야 할까요? 이자율, 물가 지수, 실업률, 뭐 그런 지표들을 잔뜩 시험지에 넣는 것으로 충분할까요? 코로나가 경제에 미친 영향이 지대한데, 그런 정보도 필요하지 않을까요? 선거 결과도 경제에 미치는 영향이 클테니 그런 뉴스 정보도 넣어야 할 것입니다. 장마가 지속되면 경제에 영향을 미치지 않을까요? 날씨 정보도 시험지에 넣어야 할 것입니다.사실 시험지에 어느 범위까지 정보를 채워야 할지 우리는 알지 못합니다.
지도 학습 인공 지능
지금까지는 시험지와 답안지가 충분한 경우인 지도 학습 위주로
우리가 최근에 목격하고 있는 인공 지능은 사람이 시험지와 답안지를 모두 충분히 잘 만들 수 있는 경우들이 대부분입니다. 인공 지능을 지도 학습시킨 것입니다. 사람이 만든 시험지와 답안지를 학습한 인공 지능은 사람을 대신하여 그 일을 할 수가 있습니다.
지도 학습: 사람이 가르치고, 사람을 대신하고
엄청나게 많은 양의 데이터를 학습하게 되면 사람과 비슷하게, 혹은 사람보다 훨씬 빠르고 정확하게 결과를 낼 수가 있게 되는 것입니다. 사람이 인공 지능을 지도하고 가르치니 인공 지능이 똑똑해져서 사람을 대신한다는 것입니다.
비지도 학습 인공 지능
사람이 가르쳐 주지 않는 인공 지능에게는 무엇을 기대할까?재해, 보안, 주식 등은 지도 학습할 수가 없습니다. 원래 사람이 잘 모르거나 못하는 것들이니 그럴만도 합니다. 이런 분야에는 비지도 학습을 적용합니다. 시험지와 답안지를 충분히 인공 지능에 주지 않는다면 우리가 인공 지능에 무엇을 기대할 수 있을까요?
비지도 학습: 사람이 풀기 어려운 문제를 인공 지능과 함께 풀다비지도 학습은 사람이 풀기 어려운 문제를 사람과 인공 지능이 함께 풀어내는 것이 목표입니다. 따라서, 비지도 학습을 통해 인공 지능이 내 놓는 결과물은 늘 인간 지성을 필요로 합니다.
비지도 학습 클러스터링의 역할
비지도 학습
방법 - 답안지 없이 시험지만
비지도 학습은 시험지와 답안지 중에서 시험지만 인공 지능 엔진에 제공하는 방식입니다. 사진의 경우라면 사진 속이 사물이 무엇인지 그 이름은 뺀 채로 이미지만 달랑 주는 것입니다. 수백만 장의 사진 이미지만 인공 지능이 학습하게 되면 그 인공 지능 모델은 새로운 입력 사진 속 사물의 이름을 맞힐 수는 없습니다.
쓸모 - 비슷한 것들끼리 묶어내기
사물의 이름을 알아 맞히지 못하는 인공 지능은 쓸모가 없다고요? 그렇지 않습니다. 이름은 몰라도 새로운 사진이 기존의 사진과 비슷한지 여부를 알아낼 수 있다면 꽤 쓸모가 있게 됩니다. 아예 비슷한 사진들끼리 모아준다면 더 긴요할 수 있습니다. 비지도 학습의 으뜸은 비슷한 것들끼리 묶어내기입니다.
클러스터링: 클러스터와 아웃라이어
클러스터링 (비슷한 것들끼리 묶기) 결과: 클러스터와 아웃라이어
비지도 학습 중에서 단연 제일 중요한 목표는 비슷한 데이터들끼리 묶어내는 것인데, 이 작업을 클러스터링이라고 부릅니다. 클러스터링을 하고 난 결과로 얻어지는 것은 다수의 클러스터와 아웃라이어입니다. 하나의 클러스터 안에는 비슷한 데이터들이 들어가게 됩니다. 어느 클러스터에도 속하지 않은 것들은 별나게 생긴 것들인데요, 이를 아웃라이어라고 부릅니다.
비슷하다는 판단은 인공 지능이 그때 그때 알아서
그렇다면, 과연 어떤 기준으로 두 데이터가 비슷하다고 판단을 할까요? 바로 이 대목에서 인공 지능의 역량이 발휘가 됩니다. 모든 데이터를 다 고려해서 가장 적절한 기준을 도출하는 것이지요. 물론 이 기준은 새로운 데이터가 입력될 때마다 새롭게 조정이 됩니다.
인간, 인공 지능의 감독관
인공 지능이 정한 기준이 우리가 원하는 목표에 부합하는 것일까요? 늘 그렇지는 않습니다. 바로 이 대목에서 인간 지성의 역량이 필요하게 됩니다. 인공 지능의 결과를 인간이 검토하고 판단해서 필요하다면 인공 지능에게 기준을 바꾸라고 지시해야 하는 것입니다.
클러스터링의 활용: 비정상 탐지
비슷한 것끼리 묶어서 비슷하지 않은 것 찾기
비슷한 것들끼리 묶어내는 클러스터링이 어디에 효용이 있을까요? 흥미롭게도 “비슷하지 않은 것”을 찾는 데에 큰 효용이 있습니다. 우리의 관심사 중에서 다른 데이터들과 비슷하지 않은 경우 비정상이라고 봐도 될만한 것들이 제법 많이 있습니다. 흔히 “사고”라고 부를 수 있는 것들은 대개 다수의 다른 것들과는 비슷하지 않은 경우일 수 있습니다.
비슷하지 않은 것은 비정상 의심 대상
아웃라이어나 소량의 데이터만 포함하는 작은 클러스터들은 비정상일 가능성이 있습니다. 물론 데이터를 추가해서 클러스터링을 하게 되면 이들은 큰 클러스터에 포함될 수도 있고, 그렇게 되면 많은 다른 데이터와 비슷하기 때문에 정상일 가능성이 높아집니다. 그러나, 시간이 지나도 계속 아웃라이어나 작은 클러스터로 남는다면 의심해 봐도 좋습니다.
비정상 탐지의 으뜸, 클러스터링
뭔가 평상 시와 달리 비정상인 데이터를 찾아내고 싶다면 클러스터링이 효과적인 접근법입니다.
클러스터링의 활용: 반복 작업
비슷한 것들끼리 잘 묶였다면, 그들을 모두 하나로 간주해도 무방할 때가 종종 있습니다.
고객의 여러 정보를 바탕으로 클러스터링을 하게 되면 비슷한 고객들이 하나의 클러스터에 모이게 됩니다. 고객마다 맞춤 정보를 제공하고자 할 때 각각의 고객에 대해서 같은 일을 반복하기 보다는, 같은 클러스터에 포함된 고객에게 같은 정보를 제공하는 방식이 더 효율적입니다.