서울신문 검색

검색 필터 목록

오케스트로, GPU 활용률 높이는 AI 추론 운영 플랫폼 ‘콘체르토 AI’ 공개

- 분산 서빙 기반 추론 최적화… 보유 GPU 인프라 활용 효율 높여- 고부하 환경서 토큰 출력 속도 2.2배 향상… AI 서비스 응답 지연 완화- 국내 유일 GPU·국산 NPU 이기종 가속기 지원… 소버린 AI 인프라 선택권 확대 AI·클라우드 소프트웨어 전문 기업 오케스트로(대표 김범재, 김영광)는 보유 GPU 인프라의 활용 효율을 높여 기업 AI 서비스의 추론 병목을 줄이는 AI 추론 운영 플랫폼 ‘콘체르토 AI(CONCERTO A.I.)’를 선보였다고 29일 밝혔다. 생성형 AI 도입이 확산되면서 기업 AI 인프라의 핵심 과제는 GPU 확보에서 추론 운영 효율화로 전환되고 있다. AI 챗봇, 업무 자동화 에이전트, 검색증강생성(RAG) 기반 서비스 등 상시 운영 AI 서비스가 늘어나면서 모델 호출과 추론 연산 수요도 함께 증가하고 있다. 에이전트형 AI 환경에서는 단일 요청이 복수의 모델 호출과 반복 연산으로 이어져 추론 작업량이 단기간에 급증할 수 있다. GPU를 보유하더라도 추론 요청이 특정 자원에 집중되면 병목으로 인한 응답 지연과 자원 낭비가 동시에 발생하는 구조적 문제가 따른다. 콘체르토 AI는 분산 서빙 기반의 추론 최적화를 핵심 기술로 채택했다. 기존 단일 처리 방식은 질문 분석과 답변 생성을 동일 GPU 자원에서 처리해 요청 집중 시 전체 응답 속도가 저하된다. 콘체르토 AI는 두 작업을 분리해 각각에 적합한 자원을 배치함으로써 병목을 줄인다. 여기에 키-값 캐시(KV Cache) 최적화와 메모리 재사용 기술을 적용해 초기 응답 시간과 토큰 처리 속도를 개선하고, 실시간 대기열·자원 상태 기반 지능형 라우팅 기능을 결합해 고부하 환경에서도 응답 성능을 유지한다. 오케스트로가 자체 온프레미스 AI 인프라 환경에서 수행한 벤치마크 테스트에 따르면, 동시 요청이 집중되는 고부하 환경에서 콘체르토 AI의 분산 서빙 방식은 기존 단일 처리 방식 대비 토큰 출력 속도를 2.2배 높게 유지한 것으로 나타났다. 운영 자동화 기능도 탑재됐다. 콘체르토 AI는 AI 모델 배포부터 추론 요청 처리, 자원 배분, 성능 모니터링까지 LLMOps에 필요한 기능을 단일 플랫폼에서 제공한다. 표준화된 모델 패키징 기술을 기반으로 쿠버네티스 파드(Pod) 생성부터 엔드포인트 연결까지 배포 과정을 자동화하며, 배포 이후에는 초기 응답 시간·토큰 처리 속도·자원 사용량 등 주요 지표를 통합 모니터링 환경에서 확인할 수 있다. 인프라 호환성 측면에서는 엔비디아 GPU 외에 리벨리온·퓨리오사AI 등 국산 NPU 환경까지 지원하는 이기종 가속기 구조를 채택했다. 오케스트로 측은 GPU와 국산 NPU를 아우르는 상용화 수준의 AI 추론 운영 플랫폼은 국내에서 콘체르토 AI가 유일하다고 밝혔다. 이를 통해 기업·기관은 프라이빗 AI 및 소버린 AI 환경에서 특정 하드웨어 벤더 의존도를 낮추고 서비스 특성과 보유 인프라에 맞춰 추론 자원을 구성할 수 있다. 김범재 오케스트로 대표는 “기업 AI 인프라의 과제는 더 많은 GPU를 확보하는 것에서 보유 자원을 얼마나 효율적으로 운영하느냐로 옮겨가고 있다”며 “콘체르토 AI를 기반으로 기업이 보유한 AI 인프라의 활용 효율을 높이고, 프라이빗 AI 환경에서도 안정적인 AI 서비스 운영을 지원하겠다”고 밝혔다.

2026-05-29 10:18 서울신문
구글 ‘터보퀀트’ 반도체 저승사자냐 시장 키울 촉진제냐

소프트웨어가 하드웨어 수요 잠식‘훈련’ 필요 없어 이르면 연내 가능비용 줄어 ‘온디바이스 AI’ 앞당겨판매 대수 늘면 반도체 수요도 증가‘지능형 메모리’ 미래 기술 선점해야 구글 리서치가 인공지능(AI) 모델의 메모리 사용량을 6분의1로 줄이는 혁신 알고리즘 ‘터보퀀트’(TurboQuant)를 전격 공개해 글로벌 반도체 시장에 파장이 일고 있다. 소프트웨어가 하드웨어 수요를 잠식할 것이라는 ‘수요 절벽’ 위기론과 시장 파이가 커질 것이라는 낙관론이 팽팽하다. 29일 핵심 쟁점을 일문일답으로 풀었다. Q. 터보퀀트란 어떤 기술인가. A. AI가 대화 맥락을 기억하는 ‘실시간 메모장’(KV 캐시)의 용량을 획기적으로 줄이는 기술이다. 기존에 데이터를 무거운 ‘고화질 사진’로 저장했다면, 화질 손상은 거의 없으면서 용량만 6분의 1로 줄인 ‘고효율 압축 이미지’로 변환하는 식이다. 여기에 보정 필터를 더해 미세 정보까지 선명하게 되살린다. 예컨대 백과사전 6권을 핵심만 요약한 1권으로 만들면서도 답변 정확도는 그대로 유지하는 셈이다. Q. 과거 구글의 ‘텐서 처리 장치’(TPU)가 공개됐을 때보다 시장이 더 민감한 이유는. A. TPU가 엔비디아 그래픽처리장치(GPU)라는 하드웨어 장비를 ‘구글 칩’으로 바꿔보겠다는 하드웨어 간의 대체 경쟁이었다면, 터보퀀트는 어떤 연산 장치를 써도 메모리 ‘구매량’ 자체를 6분의 1로 줄일 수 있는 범용 소프트웨어 솔루션이다. 메모리 업체 입장에서 고객사가 칩 브랜드(하드웨어)를 바꾸는 게 아니라, 주문서의 수량(메모리 용량) 자체를 지워버리는 셈이라 타격의 결이 다르다. Q. 그럼에도 ‘장기 낙관론’이 나오는 이유는. A. 자원의 이용 효율이 높아져 비용이 낮아지면 전체 소비량이 늘어나는 ‘제본스의 역설’ 때문이다. AI 운영비가 낮아지면 모든 기기에 AI가 기본 탑재되는 ‘온디바이스 AI’ 시대가 앞당겨진다. 개별 기기당 탑재량은 줄어도 판매 대수가 압도적으로 늘어 전체 메모리 수요는 더 커질 것으로 전망된다. Q. 시장에선 상용화가 이르면 연내 가능할 것으로 보는데. A. 그렇다. 터보퀀트는 기존 AI 모델을 새로 학습시킬 필요 없이 운영 중인 시스템에 ‘필터’처럼 갈아 끼우는 ‘훈련 불필요’ 방식이다. Q. 상용화 신중론이 나오는 이유는. A. 해결할 과제가 많다. 수만 대의 서버가 얽힌 클라우드 시스템에 병목 없이 녹여내는 기술적 최적화가 필수다. 다양한 모델에서 동일한 품질을 내는지 증명해야 하고, 주요 환경에서 별도 튜닝 없이 쓸 수 있는 범용 표준으로 채택돼야 한다. 데이터 복원 과정에서 발생하는 시간 지연과 실시간 대화 품질 저하 우려도 넘어야 한다. Q. 한국 기업들은 어떻게 대응해야 하나. A. 삼성전자나 SK하이닉스는 단순히 정해진 규격의 부품만 납품하는 공급자에서 벗어나 AI 시스템 전체의 효율을 설계하는 ‘통합 솔루션 파트너’로서의 역량을 입증해야 한다. 메모리 스스로 연산까지 돕는 지능형 메모리(PIM)나 기기 간 연결 장벽을 허무는 차세대 연결 기술(CXL) 같은 미래 기술을 선점해야 한다.

2026-03-29 23:45 서울신문

오케스트로, GPU 활용률 높이는 AI 추론 운영 플랫폼 ‘콘체르토 AI’ 공개

구글 ‘터보퀀트’ 반도체 저승사자냐 시장 키울 촉진제냐