검색결과 총 8건
-
-
카카오, '카나나' AI 모델 공개…글로벌 AI 시장에서 한국어 우위 강조
[이코노믹데일리] 카카오는 23일 경기도 용인에서 열린 '이프카카오 2024' 행사에서 자사의 새로운 생성형 AI 모델 시리즈인 '카나나(Kanana)'를 공개했다. '카나나'는 카카오가 지금까지 개발한 다양한 인공지능(AI) 기술을 통합한 모델로 특히 한국어 처리 능력에서 글로벌 경쟁 모델을 크게 능가하는 성과를 보였다. 카카오는 이를 통해 국내 시장을 넘어 글로벌 AI 시장에서 경쟁력을 강화할 계획이다. 김병학 카나나알파 성과리더는 이날 발표에서 “카나나 모델은 한국어 처리 능력이 매우 뛰어나 글로벌 AI 시장에서도 중요한 경쟁력을 확보할 수 있을 것”이라고 말했다. 특히 그는 "카나나 모델은 GPT-4.0, 라마 3.1 등 세계적인 AI 모델과 비교해도 경쟁력을 갖추고 있으며 한국어 성능에서는 압도적인 성능을 보이고 있다"고 강조했다. 카카오는 이번 발표에서 ‘카나나’ 브랜드를 중심으로 다양한 AI 기술을 하나의 통합 플랫폼으로 제공할 것이라고 밝혔다. 이 통합 모델은 언어모델, 비주얼 생성모델, 음성모델, 멀티모달 언어모델 등 다양한 기능을 포괄하며 이를 통해 사용자들에게 보다 일관되고 고도화된 AI 경험을 제공할 계획이다. ◆ 카나나 모델 라인업, 언어모델부터 비디오 생성까지 카카오는 '카나나' 모델을 통해 다양한 목적에 맞는 AI 서비스를 제공할 예정이다. 이번에 공개된 카나나 시리즈는 크게 언어모델, 멀티모달 언어모델, 비주얼 생성모델, 음성모델 등으로 구분된다. 언어모델은 처리 용량에 따라 △카나나 나노(초경량 언어모델) △카나나 에센스(중소형 언어모델) △카나나 플래그(고성능 초거대 언어모델)로 세분화된다. 이를 통해 각기 다른 서비스 환경에 맞춘 맞춤형 AI 서비스를 제공할 수 있으며 서비스 목적에 맞게 성능과 비용 효율성을 최적화할 수 있다. 멀티모달 언어모델은 다양한 데이터를 통합적으로 처리할 수 있는 능력을 갖추고 있다. 이 모델은 △오디오 언어모델(카나나-a) △이미지/비디오 언어모델(카나나-v) △통합 멀티모달 언어모델(카나나-o)로 구성된다. 김병학 성과리더는 "카나나-o 모델은 텍스트뿐만 아니라 이미지, 오디오, 영상 데이터를 통합적으로 처리할 수 있으며 한국어에서는 세계적으로 가장 뛰어난 성능을 보였다"고 말했다. 비주얼 생성 모델인 '키네마'는 사용자가 텍스트 입력이나 이미지를 기반으로 영상 콘텐츠를 제작할 수 있는 AI 기술이다. 특히 카메라 움직임이나 캐릭터의 움직임을 마우스 조작만으로 제어할 수 있어 비디오 콘텐츠 제작 과정이 훨씬 간단해질 전망이다. '콜라주'는 개인화된 이미지 생성을 지원하는 모델로 다양한 콘텐츠 제작에 활용될 수 있다. 음성모델은 음성 인식과 음성 합성 두 가지로 구분된다. 음성 인식 모델인 '카브'와 음성 합성 모델인 '캐스트'는 자연스러운 음성 상호작용을 지원한다. 이 기술을 통해 카카오는 다양한 서비스에서 AI 기반 음성 인식과 합성 기능을 적용할 예정이다. 카나나 모델의 가장 큰 강점은 한국어 처리에서 세계 최고 수준의 성능을 보인다는 점이다. 김병학 성과리더는 "카나나 에센스 모델은 글로벌 성능을 가진 유사한 모델들과 비교했을 때 평균적으로 동등하거나 더 우수한 성능을 보였으며 한국어 성능에서는 특히 월등했다"고 강조했다. 카카오는 자체적으로 구축한 고품질의 한국어 데이터셋을 기반으로 모델을 학습시켜 한국어 처리에 있어 강력한 경쟁력을 확보했다. 또한 저작권과 개인정보 이슈를 해결한 투명한 학습 과정을 거쳐 데이터의 신뢰성 또한 높였다. 이를 바탕으로 카카나는 한국뿐 아니라 글로벌 AI 시장에서도 경쟁력을 갖출 것으로 기대된다. ◆ AI 기술 가속화...엔비디아와의 협력 강화 카카오는 글로벌 반도체 기업 엔비디아와 협력해 AI 기술 개발을 가속화하고 있다. 엔비디아는 카카오의 AI 모델 개발 조직인 '카나나 알파'와 협력하여 AI 모델을 제작하고 있으며 '카나나 엑스'와는 인프라 협업을 진행하고 있다. 엔비디아의 최신 그래픽 처리 장치(GPU)인 GH200은 카나나 모델의 효율적인 추론을 돕고 있다. 타이 맥커처 엔비디아 수석 부사장은 "카카오는 엔비디아와의 협력을 통해 더 빠르고 효율적으로 AI 기술을 도입할 수 있을 것"이라며 "우리는 한국을 넘어 글로벌 AI 생태계를 확장할 계획"이라고 밝혔다. 카카오는 이번 협력을 통해 AI 네이티브 컴퍼니로의 전환을 가속화하고 글로벌 시장에서도 더 큰 경쟁력을 확보해 나갈 것으로 예상된다. 한편 카카오는 '카나나' 모델을 자사의 주요 서비스에 적극적으로 적용할 예정이다. 특히 카카오톡의 AI 대화 요약 기능, 톡채널의 AI 매니저 등 사용자와의 상호작용을 개선하는 서비스에 AI 기술을 적용할 계획이다. 이를 통해 사용자는 더욱 자연스럽고 지능적인 AI 서비스를 경험할 수 있을 것이다. 김병학 리더는 "카나나 모델은 단순히 기술력을 과시하는 데 그치지 않고 실제 사용자 문제를 해결하는 실용적인 서비스를 제공할 것"이라고 밝혔다. 그는 이어서 "카카오는 AI 네이티브 컴퍼니로 전환해 AI를 기반으로 모든 비즈니스 활동을 혁신하고 내외부 생산성을 극대화할 것"이라고 강조했다.
2024-10-23 14:50:23
-
-
SK브로드밴드, AI 기술로 지역채널 뉴스 제작 혁신
[이코노믹데일리] SK브로드밴드는 SK텔레콤과 협력하여 개발한 AI 방송 제작 솔루션을 4일부터 자사의 지역채널 ‘ch B tv’ 뉴스 제작에 활용하고 있다고 5일 밝혔다. 이번 솔루션은 SK브로드밴드의 방송 전문가들과 SK텔레콤의 AI 기술이 결합되어 개발되었으며, 인터넷이 있는 환경에서 누구나 간편하게 뉴스 제작을 할 수 있다. 사용자는 AI 기자, 음성, 템플릿, 배경 음악(BGM) 등을 선택하고 기사 내용을 입력하기만 하면, 기존에 45분 소요되던 뉴스 제작이 4분 만에 완료된다. 이는 제작 시간과 공간의 제약을 획기적으로 줄여준다. 특히 이 솔루션은 긴급 재난이나 재해 발생 시 신속하게 현장 상황을 전달할 수 있어 뉴스 경쟁력과 시청자 만족도를 높일 것으로 기대된다. SK브로드밴드는 이 AI 솔루션을 통해 뉴스 제작 시간을 크게 단축시키면서도 방송 품질을 한층 향상시킬 수 있을 것으로 보고 있다. AI 방송 제작 솔루션은 SK브로드밴드 케이블방송사업단의 PD, 기자, 기술 감독 등 방송 전문가들의 경험과 SK텔레콤의 최첨단 AI 기술을 결합해 개발되었다. 이 솔루션은 AI 기술을 방송 제작 과정 전반에 맞춤형으로 적용하여 방송의 품질과 효율성을 크게 향상시키는 것으로 평가받고 있다. 선택한 기자의 목소리와 말투를 그대로 재현하는 음성 합성 기술과, 기자가 직접 기사를 읽는 것처럼 보이게 하는 립싱크 기술이 포함되어 있다. SK브로드밴드는 솔루션의 내부 안정화를 마친 후, 상용화하여 외부 기관에 판매하는 방안도 검토하고 있다. 김혁 SK브로드밴드 케이블방송사업 담당은 “AI 방송 제작 솔루션은 기존의 제작 방식을 넘어서 AI를 활용한 효율적인 방송 제작을 가능하게 할 것”이라며, “앞으로 방송 제작의 모든 영역에 AI를 적용하여 효율성을 높이고, 혁신적인 방송 콘텐츠를 제공함으로써 빠르게 변화하는 미디어 환경에 대응하겠다”고 밝혔다.
2024-09-05 11:44:00
-
네이버, 하이퍼클로바X로 이미지·음성 처리 기술 공개
[이코노믹데일리] 네이버가 오는 27일 자사의 대화형 AI 에이전트 클로바X(CLOVA X)에 시각 정보 처리 기능을 새롭게 추가한다고 발표했다. 이번 업데이트로 사용자는 클로바X 대화창에 이미지를 업로드하고, 해당 이미지에서 추출된 정보를 바탕으로 AI와 대화를 나눌 수 있게 된다. 네이버는 하이퍼클로바X(HyperCLOVA X)를 텍스트뿐만 아니라 이미지와 음성까지 동시에 처리할 수 있는 '멀티모달(Multimodal)' AI로 고도화하며, 생성형 AI 기술의 경쟁력을 강화하고 있다. 이번 업데이트를 통해 클로바X는 사진 속 상황을 묘사하거나, 표·그래프 등 복잡한 이미지 정보를 분석하는 능력을 갖추게 된다. 예를 들어, 사용자가 업로드한 수학 도형 문제를 AI가 이해하고, 풀이하는 것도 가능해진다. 이러한 기능 확장은 클로바X의 활용 범위를 넓혀, 개인의 생산성을 크게 향상시킬 것으로 기대된다. 네이버는 하이퍼클로바X의 우수한 문서 처리 및 문자 인식 기술과 다양한 지식을 갖춘 거대 언어 모델(LLM)을 결합해 보다 정확하고 신뢰성 있는 서비스를 제공할 계획이다. 네이버는 이미 대한민국 초·중·고등학교 검정고시 문제 1,480개를 AI에 이미지 형태로 입력해 84%의 정답률을 기록하며, 오픈AI GPT-4의 78%를 능가하는 성과를 보였다. 네이버는 또한 20일, 자사 기술 블로그를 통해 하이퍼클로바X 기반의 음성 멀티모달 기술도 공개했다. 기존 음성 인식과 음성 합성 기술을 뛰어넘어, LLM의 문맥 이해 능력을 활용한 자연스러운 대화가 가능해졌다. 이 기술은 발음 정확도와 감정 표현까지 더해져 사용자와의 대화 경험을 더욱 향상시킨다. 네이버는 이미 클로바노트, 클로바 케어콜, 클로바더빙 등 다양한 음성 AI 서비스로 기술력을 입증했으며, 이번 멀티모달 LLM 기술로 더 편리하고 진보된 서비스를 제공할 계획이다. 실시간 음성 번역, 언어 학습, 상담 등 여러 분야에서 활용 가능성을 제시한 바 있다. 성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 "하이퍼클로바X는 이미지와 음성까지 이해하는 거대 시각 언어 모델로 발전하고 있다"며 "이를 통해 네이버의 다양한 서비스에 새로운 사용자 가치를 창출하고, 기업용 AI 솔루션으로도 제공할 것"이라고 밝혔다. 한편, 네이버는 하이퍼클로바X의 멀티모달 기능을 고도화하는 과정에서도 'AI 안전성'을 최우선으로 고려하고 있다. 네이버는 지난 6월 발표한 '네이버 ASF(AI Safety Framework)'를 바탕으로 AI 시스템의 잠재적 위험을 평가하고, 특히 음성 AI 기술의 경우 다각적인 검토를 통해 안전한 서비스를 제공할 계획이다.
2024-08-22 08:29:54
-
국내 최대 전자책 플랫폼 밀리의서재, AI TTS 기능으로 '책 읽는 즐거움' 새롭게 선사
[이코노믹데일리] 국내 최대 전자책 플랫폼 밀리의서재(대표 박현진)가 AI TTS(Text To Speech) 기능을 도입하며 새로운 독서 경험을 선사한다고 11일 밝혔다. 밀리의서재 AI TTS는 고품질, 안정성, 다양성을 핵심 가치로 한다. 다양한 음성 샘플을 학습해 실제 사람의 억양, 발음, 미세한 호흡까지 모방하는 고품질 AI 음성 합성 기술을 적용했다. 특히 사람 수준으로 읽어주는 듯한 자연스러운 발화로 오랜 시간 들어도 노이즈 없이 편안한 독서가 가능하다. 또한 온라인뿐만 아니라 오프라인 환경에서도 실시간으로 들을 수 있는 안정성과 4가지 AI 보이스를 제공해 독자가 취향에 맞춰 선택할 수 있도록 다양성을 추구했다. 새롭게 도입된 AI TTS는 밀리의서재가 보유한 18만권의 콘텐츠에 적용된다. 베스트셀러부터 월 1천권 이상의 신간에 적용될 뿐만 아니라 소설, 에세이, 시, 자기계발, 경제경영 등 기존에 서비스하고 있는 다양한 카테고리의 도서에도 적용된다. AI TTS는 기존 TTS와 동일한 방식으로 이용이 가능하며, 뷰어 내 재생 버튼을 클릭하면 AI TTS로 바로 들을 수 있다. 밀리의서재는 이번 AI TTS 서비스를 안정적으로 제공하기 위해 인공지능 전문기업 셀바스AI(대표 곽민철)의 온디바이스 AI 음성합성 솔루션 ‘Selvy deepTTS On-Device’를 적용했다. 해당 솔루션은 자연스러운 음성과 정확한 발음, 적절한 끊어 읽기 기능을 제공해 이어폰과 헤드폰을 착용한 상태에서 장시간 청취해도 편안한 음성을 제공하는 고품질 AI 보이스이다. 방은혜 밀리의서재 AI 서비스 본부 본부장은 “AI TTS 기능 도입은 밀리의서재가 그려 나갈 ‘큰 그림’의 시작에 불과하다”라며 “책의 가치에 집중한 새로운 독서 경험 확장과 생태계 구축을 지속해 나갈 것”이라고 말했다. 한편 밀리의서재는 AI 기술을 적극 활용하여 책을 고르고, 읽고, 곱씹는 모든 독서 과정에 새로운 바람을 일으키고 있다. 지난해에는 KT AI 기술을 활용해 아나운서 AI 보이스 오디오북과 AI 오브제북을 선보였다. 최근에는 AI 페르소나 챗봇, AI 스마트 키워드 서비스 등을 출시하며 주목받고 있다. 이번에 도입된 AI TTS 기능은 안드로이드 버전에서 사용할 수 있으며 연내 iOS 버전이 출시될 계획이다.
2024-07-11 10:38:58
-
-