공공서비스디자인, 접근성의 문턱을 없애자(4) 디지털 자산 경쟁의 시대, 정부는 어떤 역할을 해야 할까?

2023. 4. 1. 09:58디자인/디자인이야기

인공지능으로 시작된 디지털 자산 경쟁의 시대, 정부는 어떤 역할을 해야 할까?

AI 시대의 도래는 의심할 여지없이 우리의 생활, 업무, 소통 방식을 변화시키고 있다. 데이터가 AI 시스템을 구동하는 원동력인 만큼 고품질의 접근 가능한 데이터에 대한 필요성은 어느 때보다 중요해졌다. 그러나 모든 데이터가 동등한 활용 가치를 갖는 것은 아니다.
참고로, 이 글에서 데이터의 활용 가치에 대해 지적하고자 하는 점은 데이터 내용의 질적 수준을 말하는 것이 아니라 데이터가 활용될 수 있는 형식적 조건을 갖추었나- 글자가 한 자도 빠짐없이 제대로 읽히는지 등- 의 여부에 한정한다.
그렇다. 그것도 제대로 안되고 있다. 바로 그 문제를 말하고자 하는 것이다.
정부는 AI시대를 맞아 혁신을 촉진하고 국가 경쟁력을 유지하기 위해 유용하고 접근 가능한 데이터의 생산과 배포를 보장하는 중요한 역할을 해주어야 한다. 이 글에서는 디지털 자산으로서 공공 데이터의 중요성과 액세스 부적합성으로 인해 생길수 있는 문제, 공공 데이터의 관리를 위해 정부가 해야 할 역할에 대해 살펴본다.


디지털 자산으로서 데이터의 중요성

공공 부문은 데이터 공개를 통해 누구나 쉽게 데이터를 이용할 수 있게 하고 국민들의 정보 이용 편의를 높이려 노력하고 있다. 이제 공공 데이터는 국민뿐 아니라 AI 기술 개발에도 중요한 영향을 미치게 되었다. AI시대에 데이터는 자동화, 의사 결정, 문제 해결을 주도하는 다양한 시스템의 재료 역할을 한다. AI 모델을 효과적으로 학습시키고 최적의 성능을 보장하려면 고품질의 액세스 가능한 많은 데이터가 필수적이며 AI 모델을 효과적으로 학습시키고 편견을 피하기 위해서도 다양한 데이터가 필요하다(Dignum & Dignum, 2020).
데이터 연구자들은 정부가 오픈 데이터 이니셔티브를 촉진하여 데이터에 대한 접근성뿐 아니라 재사용 및 재배포를 위해 데이터를 자유롭게 사용할 수 있도록 보장해야 한다고 강조한다. AI기술의 발전으로 국가 간 데이터 자산 경쟁이 치열해지면서 더 나은 품질과 더 많은 양의 데이터를 확보하는 것이 R&D 또는 국방비 지출만큼이나 중요해지고 있다(Sullivan, 2021).
행정안전부도 공공부문에서의 데이터 제공, 관리의 중요성에 대해 인식하고 '행정, 공공기관 웹사이트 구축운영 가이드'(행정안전부, 2021.3.)에 '첨부파일은 검색 편의 및 접근성을 높이기 위해 이미지 형태의 제공을 자제하고 문서에서 텍스트 찾기가 가능하도록 제공하라' 등 데이터 접근성을 높이지 위한 지침을 명시하고 있다. 또한 이 가이드는 '첨부파일은 다양한 환경의 이용자가 해당 정보에 접근할 수 있도록 2종 이상의 파일 형태로 제공하라'라고 권고하고 있기도 하다. 하지만 이러한 지침은 데이터의 활용도를 높이는데 절대적이고 중요한 지침임에도 잘 지켜지고 있지 않다. 
 

액세스가 불가능하거나 불완전하게 제공되는 데이터 문제

오로지 정보공개 자체를 목적으로 하는 정부(행정안전부 정보공개과) 정보공개 웹사이트 https://www.open.go.kr/ 에서마저 그 지침은 무시되고 있다. 여기에서 첨부파일은 HWP(정부가 사용하는 한글 워드프로세서의 포맷) 파일 포맷으로만 제공되고 있으며 필요한 경우에는 사용자가 일일이 PDF로 전환하게끔 하고 있다. 구글 등 외부 검색엔진은 정보공개 웹사이트 내의 첨부문서를 인덱싱할 수 없을 것이다. 그렇다면 이것들은 온전한 디지털 자산으로 보기 어렵다.
공공 데이터의 공개를 위한 서비스의 상황이 이런 지경이니, 통제력이 떨어지는 다른 부처나 부처 산하의 공공기관, 지자체의 공공 웹서비스 등의 사정은 더 말할 것 없다. 각종 사유를 들어 공개되지 않는 데이터가 많으며 공개된 데이터도 제대로 사용할 수 없는 경우가 많다. 안타깝게도 공개된 데이터들 모두가 유용하거나 접근할 수 있는 것도 아니다.
이 같은 문제의 대표적인 예로, 이미지로 만들어진 문서 데이터를 꼽을 수 있다. 연구보고서, 정책자료, 가이드라인, 매뉴얼 등 공개된 자료 중 첨부파일을 열어보면 웬일인지 내용 검색이 되지 않는 경우를 가끔 경험해 보았을 것이다. 언뜻 보기엔 멀쩡한 문서인데 이미지로 바뀌어 저장되어서 이미 텍스트 정보가 사라진 파일이다. 영혼 없는 좀비와도 같다. 검색도 안 되고 재활용도 못 하고 읽는 기능을 활용할 수도 없다. 검색엔진도 이런 좀비 문서들은 잘 찾지 못한다. 
다행스럽게도 광학 문자 인식(OCR)이라는 편리한 기술이 함께 개발 중이어서 이미지에서 다시 텍스트 추출하는 것이 가능하다. 구글은 Vision API를 이용한 “이미지의 텍스트 감지” 기술로 이미지에서 텍스트를 감지하고 추출하고 있으며 네이버 등 다른 검색엔진들도 이미지 문자를 읽는 OCR 기술을 이미 구현하고 있다.
하지만 이미지를 다시 문자로 해석하는 과정에서 컴퓨터의 자원이 불필요하게 사용되며 많은 에너지 소비와 탄소배출... 이런 식으로 문제를 제기하지 않더라도 텍스트를 인덱싱하는 것이 이미지에서 텍스트를 추출하고 이것을 다시 인덱싱하는 것보다 훨씬 효율적이며 정확한 것은 분명하다.
특히 초성, 중성, 종성이 조합되어 글자를 이루는 자모 형식의 한글은 영문자보다 형태적으로 복잡해 한글의 OCR 인식률은 영어보다 월등히 떨어진다. 그 때문에 한글의 경우 문자를 이미지로 저장한다면 그 활용성은 현격히 낮아진다. 잘못 인식된 텍스트는 결함이 있는 AI 모델로 이어져 AI 기술이 갖는 잠재적 이점을 훼손하게 된다.
'당장 나한테 영향을 미치는 일이 아니니까'하고 무시할 일이 아니다. 국가 간 경쟁 속에서 우리나라가 조금씩 뒤처져 가게 된다는 점을 생각하면, 그것도 공공부문의 데이터가 잘 정비되지 않는 결과로 그렇게 된다고 생각하면 끔찍하다.


정부가 취해야 할 조치가 있다

이 문제를 해결하는데는 절대적으로 정부의 역할이 필요하다. 아래의 10가지 내용을 시행한다면 상황을 개선할 수 있을 것이다. 

1. 전수조사 실시
정부는 공공기관의 데이터 접근성, 가용성, 품질 현황을 종합하는 조사를 해야 한다. 어떤 기관이 가진 데이터가 몇 건이며 그중 제대로 활용할 수 있는 텍스트 문서가 몇 건이고 읽을 수 없게 만들어진 이미지 텍스트 문서가 몇 건인지, 공개된 데이터 중 몇 퍼센트나 잘못되어 있는지 전체를 확인해야 한다. 이것은 검색로봇을 이용해 어렵지 않게 파악할 수 있을 것이다. 이를 통해 개선이 필요한 영역을 파악하고 문제를 해결하기 위한 목표와 개선 전략을 개발할 수 있다.

2. 오픈 데이터 정책 강화
정부는 사용자들이 민감하지 않은 데이터 세트에 접근할 수 있게 하고 데이터를 기계 판독이 가능한 형식으로 공개하도록 의무화하는 오픈 데이터 정책을 강화하고 시행한다. 규정 수립, 권고, 평가, 인센티브 등 다양한 조치를 통해 투명성을 높이고 혁신을 촉진하며 다양한 이해관계자 간의 협업을 장려할 수 있다. 공공 및 학계, 연구기관에서 FAIR(검색 가능, 접근 가능, 상호 운용 가능, 재사용 가능) 데이터 원칙을 채택하도록 유도한다. 

3. 범용 공개데이터 포맷 수립
다양한 연구 영역에서 원활한 공유, 상호 운용성, 협업을 가능하게 하는 연구 데이터의 표준화된 형식을 확립한다. 이 형식은 쉽게 액세스할 수 있으며, 기계 판독이 가능하고, 다양한 데이터 분석 도구와 호환되어야 한다. 

4. 자금과 자원 제공
정부는 데이터 접근성과 유용성을 개선하는 데이터 인프라, 도구, 기술(예: OCR 도구 및 검색 로봇)의 개발을 지원하기 위해 자금과 자원을 할당할 수 있다.

5. 교육 및 역량 강화 프로그램 제공
정부는 공공 데이터 관리자, AI 개발자 및 기타 관련 이해관계자를 위한 교육 프로그램을 조직하여 데이터 접근성, 품질 및 관리 모범 사례에 대한 이해를 높일 수 있다. 기존 사람을 위한 데이터 접근성에 치중되었었던 부분은 AI, 기계의 이용을 고려한 범위로 확대되어야 할 것이다. 

6. 중앙 집중식 데이터 저장소 구축
정부는 다양한 공공 기관 및 학계, 연구계를 포괄하는 데이터 집합을 통합하는 중앙 데이터 저장소를 구축하여 사용자가 데이터에 더 쉽게 액세스 하게 할 수 있다. 이 저장소는 접근성 표준을 준수하고 정보를 쉽게 검색할 수 있어야 하며, 확립된 데이터 공유 표준을 준수해야 한다.

7. 민간 부문 및 학계와 협력
정부는 민간 부문 조직 및 학술 기관과 협력하여 모범 사례를 공유하고, 혁신적인 솔루션을 개발하며, 데이터 관리 및 AI 개발의 새로운 동향에 대한 최신 정보를 얻을 수 있다. 유사한 주제를 연구하는 연구자 간의 데이터 공유, 협업, 커뮤니케이션을 촉진하는 공동 연구 플랫폼의 개발과 사용을 지원한다. 이러한 플랫폼은 연구자들이 자원을 모으고, 아이디어를 교환하고, 서로의 작업을 기반으로 연구 진행을 가속하는 데 도움이 될 수 있다.

8. 모니터링 및 평가
정부는 공공부문의 데이터 관리와 접근성 이니셔티브의 효과를 추적할 수 있는 모니터링 및 평가 프레임워크를 구축해야 한다. 이를 통해 지속적으로 현황을 진단하고 개선이 필요한 영역을 파악, 문제를 개선할 수 있는 방향을 제시하고 그 이행 여부를 평가함으로써 개선할 수 있다.

9. 대중의 인식 제고
정부는 데이터 접근성의 중요성과 공공 정보에 접근할 권리에 대해 시민들에게 알리기 위한 대중 인식 캠페인을 시작할 수 있다. 이를 통해 대중의 참여를 독려하고 투명성과 책임감의 문화를 장려할 수 있다.

10. 개인정보 및 데이터 보호
AI 시스템이 수집하고 처리하는 데이터의 양이 계속 증가함에 따라 정부는 AI 시스템이 개인의 프라이버시를 침해하지 않으면서도 데이터 학습이 이루어질 수 있도록 감시해야 한다. 동시에 개인정보 침해의 우려가 있는 자료가 공개되지 않는지 최신의 수집 기술을 활용하여 모니터링해야 할 것이다.


데이터 자원 관리에서 정부의 역할


공공기관이 공개하는 데이터(PDF 파일) 중 상당수가 이미지로 공개되고 있어 국민들이 이 파일 속에서 관련 정보를 찾기 어렵고 이에 따라 많은 시간이 낭비된다. 별것 아닌 것에서 시작되지만 이것은 결국 국가의 경쟁력을 떨어뜨리고 AI 개발의 진전을 저해할 수 있다(Bajarin, 2020). 정부는 데이터가 본연의 가치를 발휘할 수 있고 접근성을 보장할 수 있도록 하기 위해 데이터의 생산과 배포에 있어 한층 적극적인 역할을 수행해야 한다.
위의 10가지 지침이 참고가 될 수 있을 것이다. 공공 웹사이트에 대한 강화된 접근성 표준을 구현하고 모든 기관이 이를 준수하도록 강제함으로써 잘못 끼워진 단추를 바로잡을 수 있다. 또한 정부는 읽을 수 없거나 액세스 할 수 없는 파일을 식별하는 검색 로봇을 이용해 기관들이 어떤 문제에 처해있는지 식별하고 문제를 해결하고 접근성을 개선할 수 있도록 유도해야 한다.
일부 기관에는 민감한 정보를 보호하거나 문서 레이아웃의 원형을 보존하기 위한 목적으로 읽을 수 없도록 바꾸어 공개하는 경우가 있을 수도 있다. 하지만 그들의 회피 노력이 무색하게 지금, 이 순간에도 앞서 말했던 검색엔진의 OCR 기능이 이미지 속에서 드러나는 불완전한 텍스트를 긁어가고 있을 것이다. 

왜 그렇게 많은 기관이 쓸모가 떨어지는 데이터를 제공하고 있는 것일까? 글을 접하는 분들의 충격이 클까 봐 이제야 밝히지만, 현재와 같이 좀비화된 배포 문서들과 접근성 지침을 지키지 않는 서비스가 높은 빈도로 존재하는 이유는 놀랍게도 대게는 '아무 이유가 없다'. 상당수의 공공서비스는 어떠한 불순한 의도마저 없이, 그냥 무심하게 그렇게 만들어지고 확산되고 있는 것이다. 문제 인식이 없다는 것이 가장 문제다. 그리고 그것이 정부가 신속하게 기준을 정하고 강제적 조치를 시행해야 하는 이유다.
전 세계가 AI 시대를 맞이하기 위해 촉각을 곤두세우고 경쟁하는 지금, 디지털 자산으로서 데이터의 중요성은 아무리 강조해도 지나치지 않다. 정부는 데이터 자산을 관리하고 모든 사람의 접근성과 유용성을 확보할 책임을 져야 한다. 이를 통해 모든 국민에게 보다 공평한 디지털 환경을 조성할 수 있다. 아. 그렇지, AI에게도.


2023.4.1.
윤성원 + chatGPT
#chatGPT글쓰기



(질문)
1. 'AI 시대에는 데이터가 자산이다. 하지만 이렇게 이미지로 만들어지는 가짜 텍스트 데이터는 자산이 아니다. AI가 효율적으로 학습할 수 있는 많은 텍스트 데이터가 필요한데 이미지로 만들어진 문서 파일은 활용성이 떨어진다. 인공지능 시대가 도래한 지금, 더 좋은 품질과 더 많은 물량을 확보하기 위한 국가 간 데이터 자산 경쟁은 R&D나 국방비 못지않게 중요하다. 정부의 의지가 필요한 부분이다. 아무 강요 없이 관례대로 방치하면 공공부문에 이미지 형태로 공개되는 PDF 파일이 많아질 것이고, 이로 인해 대중은 공공 데이터에서 원하는 것을 찾기 어렵게 되고 시간을 낭비하게 될 것이다. 이것은 궁극적으로 한국의 정보 경쟁력을 떨어뜨릴 것이다.'
위 글에서 주장하려는 것에 대한 권위 있는 증거를 인용하는 블로그 게시물을 작성해 줘. 제목은 ' AI로 열리는 디지털 자산 경쟁시대, 정부는 어떤 역할을 해야 할까?' 

2. 데이터 공학자, AI 개발자, 공공데이터 관리자의 입장에서 위 글에 논리적 허점이 있다면 이를 지적하고 응답 논리를 포함시켜서 글의 논리적 타당성을 높여줘.
3. 정부가 어떤 조치를 취할 수 있는지 제안해 줘. 1) 전수조사를 실시한다. 그다음은 뭐야?
1~3으로 작성된 내용을 수정하여 완성함.