百度端到端语音语言大模型发布,成本宣称最高降90%
IT之家 3 月 31 日消息,在今日的百度 AI DAY 上,百度发布首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型,宣布实现超低时延与超低成本,在电话语音频道的语音问答场景中,调用成本较行业均值下降约 50%-90%。
当日,文小言宣布品牌焕新,率先接入该模型,还带来多模型融合调度、图片问答等功能升级。接入该模型后,文小言不仅能支持更拟真的语聊效果,而且支持重庆、广西、河南、广东、山东等特色方言。据介绍,语音大模型具备极低的训练和使用成本,极快的推理响应速度,语音交互时,可将用户等待时长从行业常见的 3-5 秒降低至 1 秒左右。
更新后的文小言还支持“多模型融合调度”,整合了百度自研的文心 X1、文心 4.5 等模型,并接入 DeepSeek-R1 等第三方优质模型,实现了多模型间的智能协同。用户可以选择“自动模式”,一键调用最优模型组合,也可根据需求选择单一模型完成特定任务,提升响应速度与任务处理能力。
IT之家从活动中获悉,文小言还加强了图片问答功能,用户拍摄或上传图片,以文字或语音提问即可直接获取深度解析。例如,拍摄一道数学题可实时生成解题思路与视频解析;上传多款商品图可对比参数、价格,辅助购物决策。
此外,文小言新增“图个冷知识”功能,用户可预设“历史学者”“科技达人”等人设视角,为同一图片赋予多维解读。例如,当用户询问“猫窗探秘,为何猫爱窗边的科学真相?”,文小言能从狩猎本能、能量获取、领地意识等角度给出独特解读。
百度语音首席架构师贾磊透露,该模型是百度在业界首个推出、基于全新互相关注意力 (Cross-Attention) 的端到端语音语言大模型。“在语音场景满足一定交互指标下,大模型调用成本比行业平均降低 50%-90%,推理响应速度极快,将语音交互等待时间压缩至 1 秒左右,极大提升了交互流畅性。同时,在大模型加持下,实现了流式逐字的 LLM 驱动的多情感语音合成,情感饱满、逼真、拟人,交互听感也得到极大提升。”
-
小米车祸引发热议,如何看待智驾?
3月29日,小米SU7的一起事故引发公众对智驾安全性的热议。其中有两种完全对立的观点:一种观点认为,要以发展的眼光看智驾,呼吁对智驾保持包容性,智驾是新兴技术,早期技术总有一些缺陷,当前智驾又是中国车企全球竞争优势的关键所在,而很多智驾技术缺陷要靠发展技术的方式来补足;另一种观点认为安全的重要性远大
-
上汽大通G50 PHEV车型将于4月9日上市,预售价15.28万元
IT之家 4 月 2 日消息,上汽大通宣布旗下 G50 PHEV 将于 4 月 9 日上市,该车系基于 MPV 大通 G50 开发的插电混动版车型,已于今年 3 月 6 日开启预售,预售价为 15.28 万元。外观方面,该车沿用“电感美学”设计,拥有全新星河之翼前格栅、分体式设计前大灯组。新车远 /
-
挖来90后机器人大牛出任首席科学家,智元推进具身智能落地
4月2日,南都记者从智元机器人方面了解获悉,智元机器人已与国际顶尖具身智能公司 Physical Intelligence(Pi)携手,双方将围绕动态环境下的长周期复杂任务,在具身智能领域展开深度技术合作。另外,智元还引入了具身智能领域90后国际领军学者罗剑岚出任智元机器人首席科学家,罗剑岚将全面领
-
今晚油价上调!加满一箱92号汽油将多花9元
4月2日下午,国家发改委官网发布消息称,根据近期国际市场油价变化情况,按照现行成品油价格形成机制,4月2日24时,国内汽、柴油价格(标准品,下同)每吨分别上涨230元和220元。折升价92#汽油、95#汽油、0#柴油分别上调0.18元、0.19元、0.19元。清明节假期即将来临,外出旅行人次增多,本
-
钠离子电池实现量产 未来或成锂电价格“平衡器”
钠离子电池在储能和物流领域的应用加快落地,对电池的产量也将带来新的需求。目前,国内钠离子电池生产能力如何?未来市场空间有多大?在安徽阜阳,全球首条钠离子电芯吉瓦时生产线已经投运,生产流程与锂离子电池相似,包括制浆、涂布、装配等多道工序。据业内机构统计,当前钠离子电池储能成本还明显高于锂离子电池储能,