声网刘斌:实时音视频RTE,成为生成式AI时代关键基础设施
摘要:
在MEET2025智能未来大会上,声网COO刘斌发表演讲,指出实时音视频技术RTE正成为生成式AI时代AI基础设施的关键部分。他提到,随着大模型交互转向实时多模态,对实时性、低延时...
在MEET2025智能未来大会上,声网COO刘斌发表演讲,指出实时音视频技术RTE正成为生成式AI时代AI基础设施的关键部分。他提到,随着大模型交互转向实时多模态,对实时性、低延时、智能打断等提出了更高要求。
刘斌以声网与OpenAI、MiniMax的合作为例,说明了实时音视频在AI Agent应用中的重要性。他强调,传统的异步交互已无法满足需求,实时双工交互成为关键。然而,实际应用场景中,网络环境和设备差异导致延迟问题突出。声网的RTE技术,通过SD-RTN?等技术,将语音对话延迟降低至500ms,并支持智能打断、30000+移动终端和领先的音频处理技术(如AI回声消除、AI智能降噪等),显著提升用户体验。
声网的Conversational AI Agents解决方案,提供灵活可扩展的AI Agent架构,兼容主流ASR、LLM和TTS技术,帮助开发者快速构建AI实时语音对话服务。
刘斌认为,RTE技术需要不断演进以满足大模型在各种场景下的应用需求。Gen AI也驱动着RTE技术变革,从QoS到QoE,再到AI QoE甚至多模态AI QoE,最终目标是实现更自然、更智能的人机交互,让AI真正“听得懂”甚至“听得心”。声网的产品体系也相应加强,涵盖Linux Sever SDK、AI VAD能力、AI Agent Service等。
总而言之,声网致力于将RTE与AI深度融合,构建更完善的AI基础设施,推动生成式AI的应用落地。
还没有评论,来说两句吧...