정부, 공공부문 AI 학습용 데이터 첫 전수조사 착수 -

정부가 공공부문 인공지능(AI) 학습용 데이터 전수조사에 처음으로 착수한다. 생성형 AI 확산으로 데이터 수요가 급증하는 가운데, 분산된 공공 데이터의 체계적 활용 기반을 마련하기 위한 조치다.

과학기술정보통신부와 한국지능정보사회진흥원은 10일 ‘AI 학습용 데이터 현황조사’를 실시한다고 밝혔다. 이번 조사는 각 부처와 공공기관이 보유한 데이터를 전수 파악해 AI 학습 활용 가능성을 점검하고, 고품질 데이터 확보 기반을 구축하기 위해 처음 추진된다.

그간 공공기관 데이터는 기관별로 분산돼 규모와 활용 가능성을 종합적으로 파악하기 어려웠다. 이로 인해 AI 기업들이 학습용 데이터로 연계·활용하는 데 한계가 있다는 지적이 지속돼 왔다.

정부는 ‘AI 기본법’을 근거로 전 부처를 대상으로 데이터 보유 현황을 조사하고, AI 학습 활용도가 높은 데이터 100종을 선별할 계획이다. 선정된 데이터는 통합 제공 체계를 통해 공개된다.

이번 조사에서는 단순 보유 데이터뿐 아니라 가공을 통해 활용 가능한 데이터 발굴도 병행한다. 조사 항목은 데이터 유형과 구조, 구축 목적, 제공 가능 범위 등 AI 학습 활용성 중심으로 구성된다.

조사 결과를 토대로 기관 및 분야별 데이터 제공 가능 여부와 가공 수준을 검토한 뒤 전문가 인터뷰와 민간 수요조사를 거쳐 최종 100종을 선정한다. 이후 품질 보완과 비식별 조치를 진행하며, 공개가 어려운 데이터는 데이터 안심구역을 통해 제한적으로 활용할 방침이다.

정부는 기존 AI 허브를 통합 제공 체계로 고도화해 공공·민간 데이터를 집적하고, 검색과 활용이 가능한 국가 플랫폼으로 확대할 계획이다. 과기정통부 관계자는 “AI 경쟁력의 핵심은 활용 가능한 데이터에 있다”며 “공공 데이터 자산을 체계적으로 발굴하고 활용 기반을 강화하겠다”고 밝혔다.