서울신문 검색

오케스트로, GPU 활용률 높이는 AI 추론 운영 플랫폼 ‘콘체르토 AI’ 공개

- 분산 서빙 기반 추론 최적화… 보유 GPU 인프라 활용 효율 높여- 고부하 환경서 토큰 출력 속도 2.2배 향상… AI 서비스 응답 지연 완화- 국내 유일 GPU·국산 NPU 이기종 가속기 지원… 소버린 AI 인프라 선택권 확대 AI·클라우드 소프트웨어 전문 기업 오케스트로(대표 김범재, 김영광)는 보유 GPU 인프라의 활용 효율을 높여 기업 AI 서비스의 추론 병목을 줄이는 AI 추론 운영 플랫폼 ‘콘체르토 AI(CONCERTO A.I.)’를 선보였다고 29일 밝혔다. 생성형 AI 도입이 확산되면서 기업 AI 인프라의 핵심 과제는 GPU 확보에서 추론 운영 효율화로 전환되고 있다. AI 챗봇, 업무 자동화 에이전트, 검색증강생성(RAG) 기반 서비스 등 상시 운영 AI 서비스가 늘어나면서 모델 호출과 추론 연산 수요도 함께 증가하고 있다. 에이전트형 AI 환경에서는 단일 요청이 복수의 모델 호출과 반복 연산으로 이어져 추론 작업량이 단기간에 급증할 수 있다. GPU를 보유하더라도 추론 요청이 특정 자원에 집중되면 병목으로 인한 응답 지연과 자원 낭비가 동시에 발생하는 구조적 문제가 따른다. 콘체르토 AI는 분산 서빙 기반의 추론 최적화를 핵심 기술로 채택했다. 기존 단일 처리 방식은 질문 분석과 답변 생성을 동일 GPU 자원에서 처리해 요청 집중 시 전체 응답 속도가 저하된다. 콘체르토 AI는 두 작업을 분리해 각각에 적합한 자원을 배치함으로써 병목을 줄인다. 여기에 키-값 캐시(KV Cache) 최적화와 메모리 재사용 기술을 적용해 초기 응답 시간과 토큰 처리 속도를 개선하고, 실시간 대기열·자원 상태 기반 지능형 라우팅 기능을 결합해 고부하 환경에서도 응답 성능을 유지한다. 오케스트로가 자체 온프레미스 AI 인프라 환경에서 수행한 벤치마크 테스트에 따르면, 동시 요청이 집중되는 고부하 환경에서 콘체르토 AI의 분산 서빙 방식은 기존 단일 처리 방식 대비 토큰 출력 속도를 2.2배 높게 유지한 것으로 나타났다. 운영 자동화 기능도 탑재됐다. 콘체르토 AI는 AI 모델 배포부터 추론 요청 처리, 자원 배분, 성능 모니터링까지 LLMOps에 필요한 기능을 단일 플랫폼에서 제공한다. 표준화된 모델 패키징 기술을 기반으로 쿠버네티스 파드(Pod) 생성부터 엔드포인트 연결까지 배포 과정을 자동화하며, 배포 이후에는 초기 응답 시간·토큰 처리 속도·자원 사용량 등 주요 지표를 통합 모니터링 환경에서 확인할 수 있다. 인프라 호환성 측면에서는 엔비디아 GPU 외에 리벨리온·퓨리오사AI 등 국산 NPU 환경까지 지원하는 이기종 가속기 구조를 채택했다. 오케스트로 측은 GPU와 국산 NPU를 아우르는 상용화 수준의 AI 추론 운영 플랫폼은 국내에서 콘체르토 AI가 유일하다고 밝혔다. 이를 통해 기업·기관은 프라이빗 AI 및 소버린 AI 환경에서 특정 하드웨어 벤더 의존도를 낮추고 서비스 특성과 보유 인프라에 맞춰 추론 자원을 구성할 수 있다. 김범재 오케스트로 대표는 “기업 AI 인프라의 과제는 더 많은 GPU를 확보하는 것에서 보유 자원을 얼마나 효율적으로 운영하느냐로 옮겨가고 있다”며 “콘체르토 AI를 기반으로 기업이 보유한 AI 인프라의 활용 효율을 높이고, 프라이빗 AI 환경에서도 안정적인 AI 서비스 운영을 지원하겠다”고 밝혔다.

2026-05-29 10:18 서울신문

‘2026년 지속가능한 AI 전환 전략’ 발표

AI·데이터 인프라 솔루션 전문기업 HS효성인포메이션시스템이 기업 환경 변화에 대응하기 위한 ‘2026년 지속가능한 AI 전환 전략’을 발표했다. 25일 HS효성인포메이션시스템에 따르면 이번 전략의 핵심은 크게 네 가지로 구성된다. ‘파트너 에코시스템 강화’, ‘프라이빗 클라우드(Private Cloud) AI 인프라 확대’, ‘HS효성 AI 플랫폼 고도화’, ‘VSP One 데이터 플랫폼 강화’ 등이다. HS효성인포메이션시스템은 GPU 서버, 고성능 스토리지, 저전력 Arm 서버, 데이터 레이크, AIOps 등을 통합한 ‘HS효성 AI 플랫폼’을 통해 구축부터 운영까지 AI 인프라 전 과정을 지원하고 있다. 향후 DataOps, MLOps, LLMOps, AI 에이전트 등 활용 고도화 영역까지 포트폴리오를 확대한다는 계획이다. 또한 AI 연산 최적화를 중심으로 빠르게 진화하는 클라우드 환경에 맞춰 프라이빗 클라우드 기반 AI 인프라 수요에도 대응하고 있다. GPU 자원 관리와 AI 워크로드 운영을 통합한 ‘UCP 프라이빗 클라우드 AI’ 솔루션을 통해 모델 학습부터 추론, 운영까지 지원하는 풀스택 환경을 제공한다. 데이터 인프라 부문에서는 스토리지와 소프트웨어 정의 스토리지를 통합한 ‘VSP One’ 포트폴리오를 중심으로 랜섬웨어 대응과 재해복구 역량을 강화하고 있다.

2026-02-26 02:40 서울신문

와이즈넛, 비전문가도 쉽게 AI 기술 활용 가능한 ‘MLOps 플랫폼’ 3차년도 연구 완료

인공지능 모델과 운영까지 통합 관리 가능한 MLOps 플랫폼으로 AI기술 상용화 도모 대규모 언어모델(LLM)과 생성형 AI를 포함한 각종 인공지능 기술의 비약적인 발전에 따라, AI 기술을 활용 및 운영하는 역량은 현대 비즈니스의 핵심 요소로 자리 잡고 있다. 이러한 추세에 발맞추어, 비전문가도 손쉽게 AI 기술을 활용하고자 하는 니즈가 점차 확대되고 있다. 이러한 상황 속, 인공지능 전문기업 와이즈넛(대표 강용성)은 과학기술정보통신부 주관 SW컴퓨팅산업원천기술개발 사업 중 ‘머신러닝 개발 전주기를 연결하고 쉽게 사용할 수 있는 자동화 MLOps 플랫폼 기술 개발’ 과제의 주관기관으로서 3차년도 개발을 완료했다고 20일 밝혔다. 2025년까지 총 4년에 걸쳐 진행되는 본 연구는 전문가뿐만 아니라 비전문가도 손쉽게 인공지능 모델을 활용할 수 있는 MLOps 플랫폼 구축을 최종 목표로 한다. MLOps(Machine Learning Operations)는 인공지능 개발과 운영 과정에서 소요되는 데이터 수집 및 분석, 모델 학습, 배포, 운영 모니터링 등 전 과정을 통합 관리하는 기술 플랫폼으로, AI 기술 활용 효과를 극대화하는 핵심 기술로서 주목받고 있다. 특히, 이번 3차년도는 지난 1~2차년도에 개발된 DataOps(데이터옵스) 플랫폼을 기반으로 다양한 범용 데이터와 공공데이터를 수집하고 관리하는 기술을 지자체의 관광 정보 및 의료기관 정보 분석에 실증하는 데에 집중했으며, 이를 통해 사용자가 손쉽게 AI 학습 파이프라인을 제작하고 실행할 수 있도록 사용자 친화적 인터페이스로 설계한 것이 특징이다. 또한, 고성능의 효율적인 컴퓨팅 환경을 위한 검증도 성공적으로 마쳤는데, AutoML 기술과 GPU 클러스터링 기술을 탑재하여 MLOps 플랫폼 고도화를 진행함으로써 사용자가 빠르고 간편하게 고성능 AI모델을 개발하고 다수의 GPU 인프라를 효율적으로 활용할 수 있도록 했다. 이를 통해, 실시간 데이터 반영과 AI모델 성능을 지속적으로 개선하는 개발에 속도를 내고 있으며, 제조/ 의료/ 미디어 등 이후 더욱 다양한 산업에서 AI기술의 빠른 도입과 적용이 가능할 수 있도록 실증을 확대해 나갈 예정이다. 강용성 대표는 “우리가 목표하는 MLOps플랫폼은 AI모델 개발의 진입 장벽을 낮춤으로써, 현재와는 비교할 수 없을 정도로 AI상용화에 큰 변화를 가져올 것으로 기대하고 있다”라며, “와이즈넛은 이러한 변화의 중심에서 기업의 경쟁력 향상과 혁신적 비즈니스 모델 창출을 위해, 최신의 생성형AI와 초대규모 언어모델을 접목한 LLMOps로의 확장을 통한 최적의 AI접근 방식을 제공해 나갈 수 있도록 더욱 연구에 매진할 것”이라고 말했다.

2024-11-20 13:11 서울신문