声网刘斌：实时音视频RTE，成为生成式AI时代关键基础设施

author 2024-12-23 77 1条评论

默认

摘要： 在MEET2025智能未来大会上，声网COO刘斌发表演讲，指出实时音视频技术RTE正成为生成式AI时代AI基础设施的关键部分。他提到，随着大模型交互转向实时多模态，对实时性、低延时...

在MEET2025智能未来大会上，声网COO刘斌发表演讲，指出实时音视频技术RTE正成为生成式AI时代AI基础设施的关键部分。他提到，随着大模型交互转向实时多模态，对实时性、低延时、智能打断等提出了更高要求。

刘斌以声网与OpenAI、MiniMax的合作为例，说明了实时音视频在AI Agent应用中的重要性。他强调，传统的异步交互已无法满足需求，实时双工交互成为关键。然而，实际应用场景中，网络环境和设备差异导致延迟问题突出。声网的RTE技术，通过SD-RTN?等技术，将语音对话延迟降低至500ms，并支持智能打断、30000+移动终端和领先的音频处理技术（如AI回声消除、AI智能降噪等），显著提升用户体验。

声网的Conversational AI Agents解决方案，提供灵活可扩展的AI Agent架构，兼容主流ASR、LLM和TTS技术，帮助开发者快速构建AI实时语音对话服务。

刘斌认为，RTE技术需要不断演进以满足大模型在各种场景下的应用需求。Gen AI也驱动着RTE技术变革，从QoS到QoE，再到AI QoE甚至多模态AI QoE，最终目标是实现更自然、更智能的人机交互，让AI真正“听得懂”甚至“听得心”。声网的产品体系也相应加强，涵盖Linux Sever SDK、AI VAD能力、AI Agent Service等。

总而言之，声网致力于将RTE与AI深度融合，构建更完善的AI基础设施，推动生成式AI的应用落地。

分享

发表评论取消回复

评论列表（有 1 条评论，77人围观）参与讨论

暮光沉醉铁粉沙发

01-02 回复

了解到实时音视频技术在生成式AI发展中的重要性，特别是声网在低延时和智能打断方面的技术突破，感觉未来AI交互会更流畅自然。