GPT-4o自发布以来,支持端到端实时多模态成为国内外大模型厂商纷纷跟进的新方向,先是AI初创公司Character.AI表示其已经推出了一项通话功能,允许用户与其人工智能角色进行语音对话,并支持多种语言。微软AI CEO Mustafa Suleyman近日也表示,今年年底,微软的AI将拥有实时的语音界面,允许完全动态的交互。人与AI的实时音视频互动正在走进现实。
端到端实时多模态技术在市场火热,汤姆猫(300459.SZ)战略性投资的国内AI大模型研发商西湖心辰,其研发的心辰Lingo端到端语音大模型在近日问世。所谓端到端语音对话模型,即一个能倾听“心声”的朋友。它能够敏锐捕捉语气、节奏和情绪,以同样生动的语音流畅地对话。这不仅大大提高了对话的自然度,还为AI赋予了“倾听”“引导”和“共情”的能力。
赋能汤姆猫 产品交互能力升级
据悉,心辰Lingo模型融合了多项前沿技术,具备实时打断、实时指令控制、超级拟人、能说会唱等能力。研发团队针对模型能力在多个领域和中文上进行增强,使大模型的中文语音效果,相较GPT4o更为出色。因此,除了能有效改善语音响应速度外,端到端处理其实还有一个天然的优势,早些时候三段式解决方案在语音转文本环节往往会丢失大量重要信息,比如说话者的笑声、语气词、音调等,这些信息往往无法在文本信息上面反映但对于聊天却有至关重要的作用,而端到端处理信息能有效保留这些内容。
对比来看,传统的语音交互系统就像一个复杂的翻译机器,先将话语转成文字,再理解文字,然后生成回复文字,最后再将文字转为语音。这个过程不可避免地会丢失许多信息,就像一个笑话经过多次转述后失去了原有的幽默感。
心辰Lingo语音模型的正式发布,对上市公司汤姆猫来说,意味着“会聊天的汤姆猫”有望加速实现。上述汤姆猫负责人表示,心辰Lingo语音对话模型的能力也将在汤姆猫AI产品中体现。
据悉,西湖心辰正联手汤姆猫将“会说话的汤姆猫”升级迭代为有记忆、有情感、能主动聊天的汤姆猫。首先,端对端语音技术的突破能提升“会说话的汤姆猫”交互体验,从而提高用户粘性。例如,用户与汤姆猫的对话将更加生动和真实,情感化的回应和高情商的交互能够增加用户的满意度和忠诚度,使用户更愿意长时间使用产品,从而提高用户粘性。
此外,公司以更智能的交互体验扩展应用场景,吸引更多的品牌合作和广告植入。AI语音技术的超级拟人特性可以使得汤姆猫在多种场景下都能以适当的角色出现,无论是教育、娱乐还是陪伴,都能提供更加丰富的互动形式。随着用户体验的提升,汤姆猫可以通过内购、广告、订阅服务等方式增加收入。
心辰Lingo模型市场潜力巨大
国内外大模型厂商纷纷跟进端到端实时多模态技术,证明了心辰Lingo大模型应用潜力巨大。以AI教育领域为例,AI教育行业的市场空间正在迅速增长。据艾瑞估算,2023年中国在线教育市场的规模达2628亿元,AI贡献率约在7%左右。随着AI技术的不断突破与创新,预计到2027年,AI在在线教育市场中的贡献率将攀升至16%左右。
类似心辰Lingo等语音大模型对于在线教育市场的影响主要体现在学习软件的功能迭代及教师效率提升等方面。在C端市场,C端用户能够通过这类技术获得定制化的学习建议和反馈,如发音纠正、阅读材料的朗读等,从而提升学习效率和动机。随着技术的进步和应用的普及,端到端语音大模型有望成为辅助个人学习的重要工具,满足用户多样化和灵活的学习需求。
在B端市场,端到端语音识别技术可以用于实时捕捉和分析课堂互动,自动生成课堂记录和反馈,从而帮助教师更好地了解学生需求和教学效果。此外,B端用户还可以利用语音大模型进行教学内容的自动生成和定制,提供与特定教学大纲或标准相匹配的教育材料,实现教育资源的规模化和个性化。
可以预见的是,未来基于AI的人机界面从键盘、鼠标、触屏到实时对话的变革,语音将是必须走过的进化,实时语音互动也将成为未来对话式多模态大模型交互的终极形态。
纵观全局,通过西湖心辰端对端语音技术的赋能,未来汤姆猫可将产品的应用场景从游戏移动应用拓展至教育、智能硬件、智能家庭等场景,丰富营收渠道。另一方面,作为投资方,汤姆猫更能分享心辰Lingo在智能语音市场快速发展中的红利,实现双方的共赢发展。(CIS)