AI 보안 핵심 데이터셋 8억건 구축…KISA "1차 개방 추진" [데이터링]

[아이뉴스24 김혜경 기자] 디지털 전환 가속화로 공격 포인트가 확대되면서 기존 보안체계로는 감당하기 어려운 상황이 전개되고 있다. 사이버 위협에 대응하기 위해 국‧내외에서는 사이버보안과 인공지능(AI)‧빅데이터 등을 융합, 대응 역량을 지능화하고 있다.

향후 인간이 아닌 AI가 공격하는 상황도 발생할 수 있다는 것. 지난해부터 정부 차원의 '사이버보안 AI 데이터셋' 구축 사업이 진행되고 있는 가운데 올해부터는 데이터셋이 순차적으로 민간에 개방될 전망이다.

21일 서울 플라자호텔에서 열린 '사이버보안 AI 데이터셋 구축 사업성과 공유회'에서 이정민 한국인터넷진흥원(KISA) AI빅데이터보안팀장이 추진 경과를 설명하고 있다. [사진=김혜경 기자]

21일 서울 플라자호텔에서 열린 '사이버보안 AI 데이터셋 구축 사업성과 공유회'에서 이정민 한국인터넷진흥원(KISA) AI빅데이터보안팀장은 "데이터셋 8억 건에 대해 개방심의위원회에서 저작권, 기술적 처리, 법적 이슈 등을 검토한 후 단계적으로 개방을 추진할 것"이라며 "다음달까지 1차 개방을 위한 수요조사를 실시해 신청한 기업‧학교 가운데 30곳을 선발할 계획"이라고 말했다.

학계와 유관기관 전문가로 구성된 개방심의위가 1차 데이터셋 활용 결과를 검토한 후 추가 개방 여부를 심의하다. 2차 개방 심의는 10월 중 실시될 예정이다.

데이터셋이란 데이터 집합체를 뜻한다. AI 데이터셋은 AI 기술을 활용한 보안제품‧서비스 개발을 위해 필요한 정상‧공격 데이터를 수집‧분석‧가공해 모아둔 AI 학습용 데이터다. 악성코드와 도메인, 접속기록, 인터넷주소 등 원본 정보가 포함된다.

그동안 국내 보안기업들은 양질의 학습용 데이터셋이 없어 어려움을 겪은 바 있다. AI를 사이버보안에 적용하기 위해서는 데이터셋이 필수다. 과학기술정보통신부와 KISA는 이 같은 문제를 해결하기 위해 지난해부터 AI 데이터셋 구축 사업을 추진, 악성코드와 침해사고 분야에서 총 8억건의 데이터셋을 구축했다.

AI 데이터셋 구축 과정은 ▲네크워크 트래픽 데이터 수집 ▲주요 데이터 전처리 ▲정상‧공격 데이터 라벨링 ▲AI 모델 활용 AI 데이터셋 생성 등의 순으로 진행된다. 개방된 데이터셋을 토대로 국내 보안조직이 신‧변종 위협에 선제 대응할 수 있도록 기반을 마련하는 것이 해당 사업의 목표다.

이 팀장은 "정보통신망법, 개인정보보호법 등과 충돌하지 않는 방향으로 민간 개방이 이뤄져야 하고 특히 악성코드 유통 행위는 현행법 위반이기 때문에 외부 공개 관련 제도적 고민이 있었다"며 "보안기술과 AI, 법률 분야 등 25명의 전문가로 구성된 자문단을 운영해 데이터셋 구축 전 단계에 대한 심도있는 논의를 진행했다"고 설명했다.

이어 "올해는 오프라인 방식뿐만 아니라 온라인으로도 제공할 수 있도록 플랫폼을 구축할 예정"이라며 "국가관제센터와 포털사 등 생활밀접 서비스 분야로 수요 실증처를 확대할 것"이라고 덧붙였다.

이날 현장에서는 AI 데이터셋 활용 사례도 공유됐다. KT의 경우 이메일 서비스 첨부파일 내 악성코드 탐지 정확도가 기존 95%에서 98%로 향상됐다. 권정현 KT 박사는 "KISA 데이터셋을 활용한 결과 기존 모델로 탐지하지 못했던 악성파일 탐지가 가능해졌다"며 "데이터셋을 AI 모델 업데이트 프로세스에 추가, AI 모델 품질 개선 방안을 다각화할 것"이라고 말했다.

/김혜경 기자(hkmind9000@inews24.com)

김혜경 기자의 다른 기사 보기

AI 보안 핵심 데이터셋 8억건 구축…KISA "1차 개방 추진" [데이터링]

AI, 인간과 손잡고 사이버공격 막는다

댓글 쓰기 ^제목 AI 보안 핵심 데이터셋 8억건 구축…KISA "1차 개방 추진" [데이터링]

댓글-

AI, 인간과 손잡고 사이버공격 막는다

끝나지 않은 '샌드웜' 사이버 위협

우크라 침공 3개월…탐지된 사이버 위협 1천만 건 ↑

댓글 쓰기 제목 AI 보안 핵심 데이터셋 8억건 구축…KISA "1차 개방 추진" [데이터링]

댓글 쓰기 ^제목 AI 보안 핵심 데이터셋 8억건 구축…KISA "1차 개방 추진" [데이터링]