1) 제주도 사투리도 알아듣는 AI비서 나온다…정부 AI 학습용데이터 170종 공개 [이미지 출처 : 과학기술정보통신부] 과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 지난해 라벨링을 진행한 자연어, 헬스케어 등 인공지능 학습용 데이터 170종(4억8000만건)을 AI 허브를 통해 단계적으로 개방한다고 18일 밝혔습니다. 이번에 공개하는 170종의 AI학습용 데이터는 지난해 디지털뉴딜의 일환으로 본예산 380억원, 추경예산 2,925억원을 투입해 만든 데이터입니다. AI·데이터 기업, 대학, 병원 등 674개 기업·기관과 4만여명 국민이 참여했습니다. 정부는 올해도 2925억원의 본예산과 780억원의 추경예산을 투입해 AI 학습용 데이터를 만들고 있고, 결과물은 내년에 공개될 예정입니다. AI학습용 데이터는 기존에 AI서비스를 하는 있는 곳에서 서비스를 고도화하거나, 스타트업들이 새로운 서비스를 개발할 때 이용할 수 있습니다. 특히 이번에 공개하는 데이터 중에서는 음성·자연어(한국어 방언 등 39종), 헬스케어(암진단 영상 등 32종), 자율주행(도로주행영상 등 21종) 데이터가 주목됩니다. 오는 30일 공개하는 음성·자연어 데이터는 강원도, 경상도, 전라도, 제주도, 충청도 등 각 지역별 농어촌 주민의 실제 사투리 음성을 녹음한 방언 데이터입니다. 이를 활용하면 SKT 누구, KT 기가지니 등 AI비서가 사투리도 알아들을 수 있도록 서비스 고도화를 할 수 있습니다. 네이버, KT 등 대기업들의 사전 검토결과 "기존 서비스의 인식률이 12% 향상"됐다는 평가를 받기도 했습니다. 암 진단 의료영상 등 비식별 처리된 헬스케어 데이터도 '폐쇄형 안심존'을 통해 30일 공개합니다. 뷰노 등 헬스케어 스타트업이 서비스를 고도화할 때 바로 활용할 수 있을 것으로 보입니다. 과기정통부는 또 이날 오전 마곡의 LG사이언스파크에서 '인공지능(AI) 데이터 활용협의회' 출범식을 갖고, 의견수렴을 위한 간담회를 개최했습니다. 협의회 출범식에는 LG, 네이버, 삼성전자, SK...