2025.11.13.00 过去4小时全球AI发生了什么?

  1. Meta发布多语言MetaCLIP2模型,支持300+语言进行图像↔文本搜索 - merve

    Meta公司最新发布了多语言MetaCLIP2模型,该模型支持超过300种语言,极大地拓展了图像与文本之间的跨语言搜索能力。开发者可以利用这些模型在多语言数据库中进行高效的图像到文本或文本到图像的检索。相关的模型集合和使用FAISS与transformers的Jupyter Notebook也已公开,方便社区进一步探索和应用。

  2. 字节跳动AI编程工具TRAE SOLO版正式上线并限时免费 - 向阳乔木

    字节跳动的AI编程工具TRAE SOLO版已正式上线,并取消了邀请码限制,同时提供限时免费至11月15日23:59。该工具亮点包括使用GPT5 high的Max模式,支持272k上下文;通过多智能体协作完成开发流程,涵盖PRD撰写、技术架构设计及代码编写;支持多任务并行开发。用户可在IDE模式(AI辅助)和SOLO模式(AI主导)之间选择,以适应不同开发需求。

  3. 18岁开发者@eddybuild在Hugging Face发布热门数据集,超越Nvidia和Meta - clem 🤗

    一位年仅18岁的开发者**@eddybuild**在Hugging Face上发布了目前趋势排名第一的数据集,其影响力甚至超越了Nvidia和Meta等行业巨头。Hugging Face的CEO Clement Delangue以此案例强调了开源精神的强大,鼓励所有开发者,无论经验或资源如何,都能积极参与并发布有用的开源项目。

  4. 11Labs推出Scribe v2 Realtime实时AI语音模型,精度和多语言支持领先 - 小互

    11Labs发布了Scribe v2 Realtime实时AI语音模型,该模型在全球范围内实现了小于150毫秒的最低延迟和最高精度,支持超过90种语言。Scribe v2在实时性和多语言准确度上超越了GPT-4o和Deepgram等顶尖竞品,尤其在背景噪音复杂和困难语料样本中表现突出。其核心功能包括自动识别说话起止、断线续写、预测式转录以及内置专业术语库,适用于构建自然人声风格的AI代理,广泛应用于客服、销售和产品交互等场景。

  5. Google Photos全面集成「Nano Banana」模型,强化AI照片编辑与搜索功能 - 小互

    Google Photos全面引入了**「Nano Banana」模型**,显著增强了用户体验,推出了六大新功能。其中包括一键个性化修图,用户可通过文字指令(如“去掉Riley的太阳镜”、“让Engel笑一下”)编辑人物细节,AI能利用私人面部分组生成准确自然的修复效果。同时,Ask Photos功能支持用户通过自然语言(如“找出我去年冬天在东京拍的猫”)搜索照片,并理解照片语义信息。新增的“Ask”按钮则允许在单张照片内进行语义问答和即时编辑。这些功能正在全球100多个国家和17种新语言中逐步推出。

  6. Google Gemini 3的Riftrunner模型展示复杂SVG动画生成能力 - 歸藏(guizang.ai)

    Google Gemini 3的Riftrunner模型展示了令人印象深刻的SVG动画生成能力。该模型能够创作出具有逼真物理表现的内燃机与车轮连杆结构动画,以及复杂的客户端-服务器数据请求SVG动画。这些案例突显了Riftrunner在处理细节精度和物理模拟方面的先进性,预示着AI在矢量图形设计和动态内容生成领域具备巨大潜力。