카카오 “AI, 사람처럼 보고 듣고 대화한다”…기술 성과 공개
글·말·이미지 함께 이해하는 AI ‘카나나’ 고도화 감정·의도까지 파악…검색·광고 서비스에 적용 GPT-4o급 음성 성능, 연내 차세대 모델 연내
카카오가 사람처럼 보고 듣고 대화하는 인공지능(AI) 기술의 최신 성과를 공개했다. 텍스트 중심이던 기존 AI에서 한 단계 나아가, 음성과 이미지까지 함께 이해하는 기술을 실제 서비스에 적용하겠다는 구상이다.
카카오는 12일 테크블로그를 통해 통합 AI 모델 ‘카나나-o’와 이미지 검색에 활용되는 ‘카나나-v-임베딩’의 개발 현황과 성능을 소개했다. 두 모델은 카카오가 자체 개발한 AI로, 연구 성과에 그치지 않고 서비스 활용을 염두에 두고 설계됐다.
카나나-o는 글로 입력된 질문뿐 아니라 음성이나 이미지도 함께 이해해 답변을 만들어내는 AI다. 사진을 보여주며 질문하거나 말로 대화를 이어가도 상황에 맞는 응답을 할 수 있다. 카카오는 기존 AI가 음성 대화에서는 답변이 단순해지는 경향이 있다고 보고, 사용자의 말 속 맥락과 의도를 더 잘 파악하는 데 초점을 맞췄다고 설명했다.
자체 데이터를 활용해 학습을 진행하면서 요약과 번역은 물론, 감정과 의도를 파악하는 능력도 함께 끌어올렸다. 질문에 담긴 뉘앙스를 고려해 답변하도록 설계해, 단순한 정보 전달을 넘어 대화에 가까운 응답을 구현하는 것이 목표다.
음성 표현의 자연스러움도 개선됐다. 말의 억양과 감정, 말하는 속도까지 반영해 기쁨이나 슬픔 같은 감정을 비교적 자연스럽게 표현할 수 있도록 했다. 여러 차례 대화가 이어져도 흐름이 끊기지 않도록, 실제 대화 상황을 반영한 데이터도 학습에 활용했다.
카카오에 따르면 성능 평가 결과, 카나나-o는 영어 음성 처리에서 오픈AI의 GPT-4o와 유사한 수준을 보였으며, 한국어 음성 인식과 감정 이해에서는 더 높은 성능을 기록했다.
함께 공개된 카나나-v-임베딩은 이미지 검색에 특화된 AI 모델이다. 글로 이미지를 찾거나, 특정 이미지와 비슷한 사진을 골라내는 데 활용된다. ‘경복궁’이나 ‘붕어빵’처럼 한국적인 표현은 물론, 오타가 포함된 검색어도 문맥을 바탕으로 이해하는 점이 특징이다. 현재 카카오 내부에서는 광고 이미지 심사와 검색 품질 개선 등에 사용되고 있다.
카카오는 앞으로 스마트폰 같은 기기에서도 AI가 작동할 수 있도록 모델을 가볍게 만드는 연구를 이어가는 한편, 성능과 효율을 함께 높인 차세대 모델 ‘카나나-2’를 연내 선보일 계획이다. 사람과 자연스럽게 상호작용하는 AI를 구현하겠다는 목표다.
김병학 카카오 카나나 성과리더는 “카나나는 정보를 나열하는 AI가 아니라, 사람의 말과 감정을 이해하며 소통하는 AI를 지향하고 있다”며 “이용자들이 일상 속에서 자연스럽게 AI를 경험할 수 있도록 기술을 발전시켜 나가겠다”고 말했다.