2025.10.29.12 过去4小时全球AI发生了什么?
以下是过去4小时内全球AI领域的重要动态:
SoulX-Podcast语音模型发布,实现高真实度、长时段、多说话人语音生成-小互
Soul发布了SoulX-Podcast语音模型,实现高真实度、长时段、多说话人、多语种(中英双语+多方言)播客式语音生成。该模型具备方言和副语言控制能力(如笑声、叹息声、呼吸声),可连续生成90分钟以上的对话内容而不失稳定性。SoulX-Podcast还支持在零样本条件下完成声音与语气的克隆与迁移,显著提升了语音表达的真实感与感染力,并支持情境化生成,改善播客式语音的韵律变化与情绪丰富度。
玉伯的Youmind更新至0.5版本,整合研究创作产出流程-歸藏(guizang.ai)
玉伯的Youmind更新至0.5版本,旨在将“研究—创作—产出”流程整合到同一块看板里,帮助用户更快起步并持续深化。新版本强调内容可随时重写、组织、引用,并支持一键转音频以延伸思考。此外,ListenHub的中文自然音色已通过API方式接入Youmind,用户现在可以直接在Youmind中收听3分钟的音频概览,进一步增强了知识学习与内容消化的效率。
Adobe Firefly 5图像模型更新,支持高级图像编辑功能-歸藏(guizang.ai)
Adobe Firefly图像模型更新至5版本,引入了强大的图像编辑新能力。现在,用户可以将一张图片拆分成不同的图层,并且每个图层的内容都支持通过自然语言进行编辑,同时还可进行拖动操作。这一更新极大地提升了图像后期处理的灵活性和便捷性,为创作者提供了更直观和精细的控制方式。
Cartesia发布Sonic-3实时语音AI引擎,并宣布完成1亿美元融资-小互
Cartesia发布了Sonic-3,一款宣称是新一代实时语音AI引擎。该引擎能够生成像真人一样自然且富有情感(如兴奋或悲伤)的语音,并实现几乎无延迟的实时语音回应。Sonic-3支持42种语言,可在10秒内完成声音克隆,并具备智能上下文理解能力,同时其成本比ElevenLabs更具优势。Cartesia同时宣布完成1亿美元融资,并提供API、SDK和Web Playground,以支持快速原型开发和生产部署。
AI数据中心推动电力需求激增,批发电价五年内上涨267%-Peter H. Diamandis, MD
最新报告指出,过去五年间,数据中心附近的批发电力价格上涨了约267%,这直接导致周边居民的电费负担增加。这一显著的能源成本上升,凸显了人工智能产业发展对全球电力基础设施的巨大压力。专家呼吁加速发展可再生能源和核能,以应对AI日益增长的能源需求,避免因高昂的电费账单对社会经济造成严重影响。