검색결과 총 6건
-
알리바바 클라우드, 엣지 기기용 멀티모달 AI 'Qwen2.5-Omni-7B' 공개
[이코노믹데일리] 알리바바 그룹의 디지털 기술 및 인텔리전스 핵심 부문인 알리바바 클라우드가 최신 멀티모달 인공지능(AI) 모델 'Qwen2.5-Omni-7B'를 31일 새롭게 선보였다. Qwen2.5-Omni-7B 모델은 텍스트, 이미지, 음성, 영상 등 여러 유형의 입력 데이터를 동시에 이해하고 처리할 수 있는 엔드투엔드(end-to-end) 방식으로 개발되었다. 사용자의 다양한 입력에 대해 실시간 텍스트 응답은 물론, 자연스러운 음성 답변까지 생성 가능하다. 특히 70억 개(7B)의 상대적으로 적은 파라미터로 구성된 경량 모델임에도 불구하고 성능 저하 없이 강력한 멀티모달 처리 능력을 구현한 점이 특징이다. 이러한 컴팩트한 설계와 고성능의 조합은 지능형 음성 애플리케이션과 같이 실제 환경에서 민첩하고 비용 효율적으로 작동해야 하는 AI 에이전트 개발에 유리하다. 예를 들어 시각 장애인이 주변 환경을 실시간 음성 설명으로 인지하도록 돕거나 동영상 속 재료를 분석해 요리법을 단계별로 안내하는 등의 서비스 구현이 가능하다. 알리바바 클라우드는 Qwen2.5-Omni-7B 모델을 오픈소스 커뮤니티에 공개했다. 현재 허깅페이스(Hugging Face)와 깃허브(GitHub)를 통해 누구나 접근할 수 있으며 자체 플랫폼인 큐원 챗(Qwen Chat)과 모델스코프(ModelScope)에서도 이용 가능하다. 이번 모델의 우수한 성능은 혁신적인 아키텍처 설계에 기반한다. 텍스트 생성(Thinker)과 음성 합성(Talker) 기능을 분리하여 모달 간 간섭을 최소화한 'Thinker-Talker 아키텍처', 비디오와 오디오 입력을 효과적으로 동기화하여 일관된 콘텐츠 생성을 돕는 'TMRoPE' 위치 임베딩 기술 그리고 끊김 없는 음성 상호작용을 위해 지연 시간을 줄인 '블록와이즈 스트리밍 처리' 기술 등이 적용되었다. Qwen2.5-Omni-7B는 이미지-텍스트, 영상-텍스트, 영상-음성 등 다양한 조합의 방대한 데이터셋으로 사전 학습되어 여러 종류의 작업에서 강력한 성능을 발휘한다. 특히 시각, 청각, 텍스트 정보를 복합적으로 이해하고 추론하는 능력을 평가하는 OmniBench 벤치마크 등 멀티모달 처리 능력이 중요한 평가에서도 최고 수준의 성능을 기록했다. 또한 인컨텍스트 러닝(ICL)과 강화학습(RL)을 통해 문맥에 맞는 음성 이해 및 생성 능력을 향상시키고 음성 응답 시 발음 오류나 부자연스러운 끊김 현상을 크게 줄여 안정성을 높였다. 한편 알리바바 클라우드는 지난해 9월 Qwen2.5 시리즈를 처음 선보인 이후 올해 1월에는 'Qwen2.5-Max'를 출시하여 챗봇 아레나에서 7위를 기록하는 등 우수한 성능을 입증한 바 있다. 시각 이해 모델 'Qwen2.5-VL', 장문 처리 모델 'Qwen2.5-1M' 등도 오픈소스로 공개하며 Qwen 모델 라인업을 지속적으로 확장하고 있다.
2025-03-31 15:54:50
-
-
-
-
카카오, 자체 개발 AI 모델 '카나나' 공개…오픈소스로 생태계 확장 '선언'
[이코노믹데일리] 카카오가 자체 개발한 인공지능(AI) 언어모델 ‘카나나(Kanana)’의 연구 성과를 공개하며 AI 기술 생태계 확장에 본격적으로 나선다. 카카오는 ‘카나나 테크니컬 리포트’를 통해 자체 AI 모델의 개발 과정과 성능을 상세히 밝히고 경량 모델인 ‘카나나 나노 2.1B’를 오픈소스로 공개했다고 27일 밝혔다. 이번에 공개된 테크니컬 리포트는 카카오가 개발한 ‘카나나’ 언어모델의 구조, 학습 방법, 성능 등을 담은 기술 논문이다. 리포트에는 ‘카나나’ 언어모델의 전체 라인업인 ‘카나나 플래그(Flag)’, ‘카나나 에센스(Essence)’, ‘카나나 나노(Nano)’의 사전 학습부터 후속 학습까지 전 과정이 상세히 기술되어 있다. 특히 ‘카나나 플래그’는 글로벌 최고 수준의 한국어 및 영어 성능을 확보한 초거대 언어모델로 한국어 성능 평가 벤치마크 ‘LogicKor’와 ‘KMMLU’에서 압도적인 성능을, 영어 성능 평가 벤치마크 ‘MT-bench’와 ‘MMLU’에서 경쟁 모델과 유사한 수준의 성과를 기록했다. 카카오는 ‘카나나’ 언어모델 개발에 혁신적인 학습 기법들을 적용하여 효율성과 성능을 동시에 향상시켰다. ‘단계별 사전 학습(Staged pre-training)’, ‘가지치기(Pruning)’, ‘지식 증류(Distillation)’, ‘깊이 업스케일링(DUS, Depth Upscaling)’ 등 최신 기술을 통해 학습 비용을 유사 모델 대비 50% 이상 절감했다. 이러한 기술적 진보를 통해 카카오는 경량 모델부터 초거대 모델까지 다양한 크기의 고성능 ‘카나나’ 언어모델 라인업을 구축하는 데 성공했다. AI 연구 생태계 활성화에 기여하기 위해 카카오는 경량 모델 ‘카나나 나노 2.1B’를 오픈소스로 공개했다. ‘카나나 나노 2.1B’는 베이스 모델, 인스트럭트 모델, 임베딩 모델 형태로 오픈소스 커뮤니티 깃허브를 통해 제공된다. 이 모델은 연구 및 개발에 용이한 크기이며 온디바이스 환경에서도 활용 가능한 고성능 경량 모델이다. 특히 한국어와 영어 처리 능력이 뛰어나 다양한 응용 분야에 활용될 것으로 기대된다. 카카오는 오픈소스 공개를 통해 AI 기술 접근성을 높이고 연구자와 개발자들이 ‘카나나 나노 2.1B’를 기반으로 다양한 연구 및 개발을 진행할 수 있도록 지속적인 모델 업데이트를 지원할 계획이다. 카카오는 향후 ‘카나나’ 모델에 강화 학습, 연속 학습 등 최신 기술을 접목하여 추론, 수학, 코딩 능력과 사용자 요청 수행 정확도를 더욱 향상시킬 예정이다. 또한 음성, 이미지, 영상 등 다양한 형태로 소통할 수 있도록 모델을 지속적으로 고도화하여 실생활에 더욱 유용한 AI 기술로 발전시켜 나갈 방침이다. 김병학 카카오 카나나 성과리더는 “모델 최적화 및 경량화 기술을 통해 글로벌 AI 모델과 견줄 수 있는 고성능 자체 언어모델 라인업을 효율적으로 확보했다”며 “이번 오픈소스 공개가 국내 AI 생태계 활성화에 기여할 수 있기를 기대하며 앞으로도 효율성과 성능 중심의 실용적이고 안전한 AI 모델 개발을 통해 AI 기술 경쟁력을 강화해 나갈 것”이라고 밝혔다.
2025-02-27 15:15:24
-
구글 클라우드, 개인 개발자 위한 '제미나이 코드 어시스트' 무료 공개
[이코노믹데일리] 구글 클라우드가 개인 개발자들의 코딩 역량 강화를 위해 인공지능(AI) 기반 코딩 지원 도구 ‘제미나이 코드 어시스트(Gemini Code Assist)’ 개인용 버전을 무료로 공개하며 AI 코딩 시대의 본격적인 개막을 알렸다. 이번 퍼블릭 프리뷰 버전 공개를 통해 기업 소속 개발자뿐만 아니라 학생, 프리랜서, 스타트업 개발자 등 모든 개발자들이 비용 부담 없이 제미나이 2.0의 강력한 AI 코딩 기능을 무제한으로 활용할 수 있게 됐다. 구글 클라우드 데브옵스 연구팀(DORA)의 최신 보고서에 따르면 이미 개발자의 75% 이상이 업무에 AI를 활용하고 있으며 구글 내부적으로도 새로운 코드의 25% 이상이 AI에 의해 생성되고 있다. 이러한 추세 속에서 구글 클라우드는 전 세계 개발자들이 AI 기술의 혜택을 고르게 누릴 수 있도록 개인용 제미나이 코드 어시스트를 무료로 제공하기로 결정했다. 개인용 제미나이 코드 어시스트는 구글의 최첨단 AI 모델인 제미나이 2.0을 기반으로 작동하며 퍼블릭 도메인의 모든 프로그래밍 언어를 지원한다. 방대한 코딩 데이터 학습과 검증을 거쳐 코딩에 특화된 제미나이 2.0 모델을 탑재, 이전보다 더욱 향상된 코드 추천 기능을 제공하며 개발자 수준에 맞는 맞춤형 솔루션을 제시한다. 개발자는 한국어를 포함한 다양한 자연어를 사용하여 코드 생성, 설명, 개선 등 다양한 작업을 제미나이 코드 어시스트에게 요청할 수 있다. 예를 들어 “이름, 이메일, 메시지 필드를 갖는 HTML 양식 생성”과 같은 간단한 명령만으로도 즉시 코드를 얻을 수 있으며 반복적인 코딩 작업 자동화나 기존 코드 오류 분석 및 개선 등도 AI의 도움을 받아 효율적으로 수행할 수 있다. 개인용 제미나이 코드 어시스트의 또 다른 강점은 사실상 무제한에 가까운 사용량이다. 기존 무료 코딩 어시스턴트 제품들의 월 코드 완성 횟수 제한이 약 2000회 수준인 것에 비해 제미나이 코드 어시스트는 월 최대 18만 회의 코드 완성을 지원한다. 이는 전문 개발자에게도 충분한 수준으로 사용량 제한으로 인해 코딩 작업이 중단될 염려 없이 프로젝트에 집중할 수 있는 환경을 제공한다. 더불어 최대 12만 8000 토큰의 컨텍스트 창을 지원하여 대용량 코드 파일 처리 및 코드 전체 구조 파악에도 용이하며 코드 주석 작성이나 테스트 자동화 등 반복 업무를 AI에 맡기고 개발자는 보다 창의적인 작업에 집중할 수 있도록 돕는다. 지기성 구글 클라우드 코리아 사장은 “개인용 제미나이 코드 어시스트는 학생부터 전문 개발자까지 누구나 무료로 더욱 빠르고 전문적인 코딩 작업을 수행할 수 있도록 지원하는 강력한 도구”라며 “앞으로도 모든 개발자가 뛰어난 AI 도구를 갖춰 역량을 펼칠 수 있도록 기술 격차를 해소하고 개발자 생태계를 조성해 나갈 것”이라고 밝혔다. 개인 지메일 계정을 가진 사용자라면 누구나 깃허브, 비주얼 스튜디오 코드, 젯브레인스 IDE에서 제미나이 코드 어시스트를 설치하여 즉시 사용해 볼 수 있으며 IDE 내 피드백 기능을 통해 서비스 개선에 참여할 수 있다. 구글 클라우드는 사용자 피드백을 바탕으로 제미나이 코드 어시스트를 지속적으로 개선해 나갈 계획이다.
2025-02-26 18:37:24