AI Story로 돌아가기

보안에 필요한 인공 지능 기술

고성능 비지도 학습 엔진
- 클러스터링 엔진

비지도 학습 엔진은 고성능이어야 한다

새로운 위협을 탐지하기 위해서는 지도 학습 대신에 비지도 학습을 우선적으로 활용해야 합니다. 비지도 학습 엔진은 성능이 매우 중요합니다. 끊임없이 들어오는 새로운 사용자 데이터를 계산해야 하기 때문입니다.

비지도 학습 엔진은 다양한 알고리즘을 사용해야 한다

다양한 비지도 학습 알고리즘을 활용할 수 있어야 합니다. 데이터 종류나 어떤 결과를 내고 싶은지에 따라 여러 알고리즘 중에서 가장 적합한 것을 활용해야 하기 때문입니다.

지도 학습 활용

지도 학습이 가능할 때는 적극 활용해야

특정한 위협을 잘 탐지하고 싶을 때에는 지도 학습 엔진을 활용할 필요가 있습니다. 보안의 특성 상 지도 학습에 필요한 시험지 데이터와 답안지 데이터를 충분한 수량으로 구비할 수는 없습니다. 따라서 완전한 지도 학습 모델을 만들 수 없으므로 이에 전적으로 의존할 수는 없지만, 이를 잘 활용하는 것은 필요한 일입니다.

100% 지도 학습이 아니므로 결과를 보강하는 기술 필요

지도 학습에 전적으로 의존할 수 없으므로, 당연하게도, 머신러닝 외의 다양한 기술로 지도 학습의 결과를 보충할 수 있어야 합니다.

대용량 데이터 처리 플랫폼

대용량 데이터에 대해서 쉴틈없는 비지도 학습

보안에서 다루는 데이터는 그 양이 어마어마합니다. 사진 인식 모델처럼 데이터를 한 번 모아서 모델링하면 그 모델을 상당한 기간 동안 사용할 수 있는 방식이 아닙니다. 보안에서는 사용자의 데이터가 끊임없이 만들어지고, 공격자의 위협도 늘 새로운 것이 출현합니다. 따라서, 쉴틈없이 머신러닝 엔진에 데이터를 넣고 학습 시키고 분석해야 합니다.

데이터의 시작과 끝의 전 지점에서 병목 제거

그런데, 고성능 머신러닝 엔진만으로 충분하지 않습니다. 엔진에 데이터를 입력하는 과정, 엔진이 학습 및 분석 결과를 출력하는 과정, 그 결과를 사용자가 분석할 수 있도록 해 주는 과정, 이 모든 과정에서 한 군데라도 병목이 있어서는 안 됩니다. 따라서, 대용량 데이터를 실시간으로 성능의 저하없이 다룰 수 있는 플랫폼이 필요합니다. 고도의 컴퓨터 엔지니어링이 요구되는 것은 당연합니다.

자동 라벨링

라벨이 없거나 확실하지 않거나

비지도 학습의 결과는 지도 학습과 달리 라벨을 특정하지 않습니다. 지도 학습의 경우라도 시험지와 답안지를 충분히 제공받지 못한 지도 학습 모델이라면 모델의 결과가 제시하는 라벨을 마음 놓고 사용할 수는 없습니다.

자동 라벨링 또는 라벨링 보강 기술이 필요하다

비지도 학습의 경우에는 라벨을 붙여주어야 하고, 지도 학습의 경우에는 라벨을 보강해 주어야 합니다. 이를 위해 머신러닝 영역 바깥에서도 필요한 원천 기술을 확보할 수 있어야 합니다.

AI Story로 돌아가기