미래 기술 격차를 좌우할 특화 ‘AI Ready Data’, 민·관 협력으로 속도 높인다
범용 인공지능(AI)의 현장 적용 한계를 보완하는 산업 맞춤형 ‘버티컬 AI’ 시장이 확대됨에 따라, AI가 스스로 이해하고 추론할 수 있도록 정제한 ‘AI 레디 데이터(AI Ready Data)’의 중요성이 제기되고 있다. 시장조사기관 그랜드뷰리서치 분석에 따르면 글로벌 버티컬 AI 시장은 연평균 약 28% 성장해 2026년 기준 130억 달러를 넘어설 것으로 전망된다.
버티컬 AI의 성패는 각 산업에 맞춰 구조화된 ‘AI 레디 데이터’ 확보 여부에 달려 있다. AI 레디 데이터는 AI가 스스로 이해하고 추론하도록 정제·가공한 데이터를 뜻한다. 의료·국방·법률·특허 등 도메인별 전문 데이터를 선점하려는 경쟁은 국가 간 주도권 다툼으로 확산되는 양상이다. 특히 특허 데이터는 기업의 기술 전략이 공개 논문보다 평균 18개월가량 앞서 담기는 기술 선행 지표로 평가되며, 특허 데이터의 AI 레디 데이터 전환 여부가 국가 간 기술 정보 격차로 이어질 수 있다는 지적이 나온다.
글로벌 시장에서는 앤트로픽, 메타, 마이크로소프트, IBM 등 빅테크 9개사가 AI 특허 공유 협력체 ‘SAIL’을 결성해 파운데이션 모델 관련 핵심 특허를 결집하고 있다. 회원사 간 AI 기술과 특허를 상호 라이선스하는 구조로, 회원사 보유 특허는 약 2만 건 이상으로 집계된다.
국내에서도 과학기술정보통신부가 ‘K-문샷’ 8대 분야 연구 데이터를 AI 레디 데이터로 변환하는 작업을 진행 중이며, 지식재산처는 AI 기반 지식재산 데이터 분석 체계 구축에 나섰다. 다만 도메인 맥락 이해가 필요한 특화 데이터 특성상 공공 역량만으로는 한계가 있다는 평가에 따라, 민간 기업과의 연계가 과제로 떠오르고 있다.
소버린 AI 국방 AI 풀스택 전략… 네이버클라우드
국방 영역은 무전 음성, 작전 문서, 드론 영상 등 다양한 형태의 데이터를 통합 처리하는 기술과 철저한 보안이 요구돼 외부 클라우드나 범용 AI 모델 적용이 어렵다. 네이버클라우드는 소버린 AI 기반 국방 AX 전담 조직을 신설하고 국방 특화 경량 옴니모달 AI 모델을 공개했다. 최근 공개한 ‘하이퍼클로바X 시드 4B’는 자체 개발한 비전 인코더 ‘하이퍼클로바X 클립’과 오디오 인코더를 적용해 텍스트·음성·영상을 동시에 처리하며, 경량화로 모델 크기를 절반으로 줄여 제한된 연산 환경에서도 저지연 추론이 가능하도록 설계됐다.
인프라부터 MLOps, 거대언어모델(LLM)까지 전 과정을 폐쇄망 환경에 배포·운영해 보안성을 확보했으며, 육·해·공군과 합동참모본부 데이터를 통합 학습하는 ‘중앙 데이터센터’와 통신 단절 상황에 대응하는 ‘엣지 데이터센터’를 연계한 국방 전용 AI 데이터센터도 제공한다. 네이버클라우드는 올해 국방 AX 기반을 구축하고 관련 사업에 참여하며, 2030년까지 국방 전 영역에 AI 에이전트를 확산한다는 계획이다.
국가 기술 경쟁력 견인하는 특허 AI Ready Data… 워트인텔리전스
특허 데이터는 복잡한 법률·기술적 언어로 구성돼 AI 레디 데이터로 가공하기 까다로운 영역으로 꼽힌다. 복잡한 권리 구조와 도면·텍스트 연결, 고난도 기술 용어 매핑에 전문성이 요구되며, 높은 진입 장벽으로 공공 주도만으로는 인프라 구축과 가공이 어렵다는 지적이 나온다.
특허 버티컬 AI 기업 워트인텔리전스는 106개국 1억 7000만 건의 특허 데이터를 AI 레디 데이터로 구조화하고 있다. AI가 특허 원문에서 직접 기술 맥락을 읽어내는 구조로 설계해 분석 과정의 주관적 판단 개입을 줄였다는 설명이다. 자체 AI 레디 데이터와 이를 학습한 특허 특화 모델 ‘플루토LM’을 결합한 ‘키워트 인사이트’를 통해 기술 탐색부터 분석, 인사이트 도출까지 이어지는 구조를 구현했다. 플루토LM은 특허 1억 7000만 건, 특허 문장 2500억 개를 학습한 LLM으로, 리서치 과정의 정보 왜곡을 최소화했다는 설명이다.
워트인텔리전스는 LG AI연구원과 기업 IP 조직의 AX 협력을 진행 중이며, IP팀과 외부 대리인 간 데이터 흐름·자동화 범위에 대한 운영 가이드를 단계적으로 구체화한 뒤 유사 산업군으로 협력 모델을 확장한다는 방침이다. 지식재산처 AX 프로젝트에 특허 특화 LLM과 AI 레디 데이터를 공급하고 있으며, 산업통상자원부 ‘AI+R&DI 추진전략’ 핵심 프로젝트 ‘테크-GPT’에 참여해 LLM을 개발했다. 최근에는 트릴리온랩스와 화학 특화 AI 모델 공동 개발을 위한 업무협약을 체결했으며, 해당 모델은 8월 키워트 인사이트에 탑재될 예정이다.
1500건의 프로젝트 레퍼런스 보유… 엔코아
금융·제조·유통 등 산업 전반에서 AX 도입이 늘고 있지만, 시스템별로 흩어진 데이터를 AI 모델에 곧바로 학습시키지 못하는 경우가 많아 고품질 데이터 거버넌스와 자산화 전략이 필요하다는 지적이 나온다.
SK네트웍스 자회사 엔코아는 국내외에서 약 1500건 이상의 기업·공공 데이터 및 AI 프로젝트를 수행했다. 기업의 다양한 데이터를 의미 기반으로 연결해 데이터 간 관계와 맥락을 통합 관리하는 ‘데이터 맥락 지도’ 개념을 제시했다는 설명이다. 엔코아는 이 같은 기술력을 바탕으로 금융의 보안, 유통의 공급망 관리 등 산업 특성에 맞춘 모델로 영역을 확장하고 있다.
최근에는 국가데이터처가 엔코아를 방문해 AX 시대에 적합한 공공데이터 품질관리 고도화 방안을 논의했다. 엔코아는 공공데이터가 AI Ready Data 관점에서 재정비돼야 민간 활용과 산업 전반의 AX를 견인할 수 있다는 입장을 밝혔다.
이 같은 데이터 체계 구축 철학은 실무 인재 양성으로도 이어지고 있다. 엔코아는 오프라인 부트캠프를 통해 3500명 이상의 수료생을 배출했으며, 실무 훈련 역량을 인정받아 ‘2025 훈련성과 우수기관’으로 선정됐다. 이를 바탕으로 올해 고용노동부의 AI 특화 직업훈련 사업 ‘K-디지털트레이닝 AI 캠퍼스’ 운영기관에 선정돼 현장 수요에 맞춘 AI Ready Data 인재 양성에 집중할 계획이다.