以下是过去4小时全球AI领域的一些主要动态: FactoryAI Droids在Terminal Bench基准测试中排名第一-Nathan Lands \n\n FactoryAI宣布推出其最新的Droids编码代理,并在Terminal Bench基准测试中超越Claude Code,位居第一。该代理被多位用户誉为现有编码AI的“类固醇升级版”,可作为Claude AI代码的即时替代品,并据称运行在GPT-5-Codex上。有评论指出,一个仅由四名研究工程师组成的团队,在创建最佳编码代理方面,超越了OpenAI和Anthropic等百亿美元级别的大型实验室,其性能甚至被认为优于Cursor,标志着编码AI领域的新突破。 \n\n …
阅读更多以下是过去4小时全球AI领域的一些重要动态和观察: NVIDIA成为美国开源AI领导者-clem 🤗 Hugging Face首席执行官Clement Delangue指出,NVIDIA正在迅速崛起为美国在AI开源领域的领导者。在过去一年中,NVIDIA已向Hugging Face平台贡献了超过300个模型、数据集和应用程序。这一举动表明NVIDIA不仅在硬件方面占据主导地位,还在积极推动AI软件和研究的开放共享,预示着其在AI生态系统中的影响力将进一步扩大。 AI代理能力拓展至餐厅预订-Demis Hassabis Google DeepMind首席执行官Demis Hassabis转发消息称,AI模式中的代理能力正在扩展,现已支 …
阅读更多OpenAI论文揭示大模型幻觉根源与解决之道-向阳乔木 OpenAI九月份的一篇论文深入探讨了大语言模型产生“幻觉”的根本原因。研究指出,即使训练数据无误,模型在优化目标下仍可能因无法区分事实与错误而自然产生幻觉,且训练数据中“单例事实”越多,幻觉率越高。核心问题在于现有评测机制的激励错位,鼓励模型“猜测”而非表达不确定性。为解决此问题,论文建议修改评测标准,让模型在不确定时选择“我不知道”也能获得分数,并设定“信心阈值”,从而从根本上减少幻觉,提升AI系统的可信度。 加勒比小岛国安圭拉因“.ai”域名意外暴富-向阳乔木 人口仅1.6万的加勒比海小岛国安圭拉共和国,因其国家顶级域名“.ai”与“人工智能”的缩写不谋而合,意外成为全 …
阅读更多Google DeepMind发布Gemini Robotics 1.5模型及Gemini Live更新-Demis Hassabis Google DeepMind 宣布推出 Gemini Robotics 1.5 模型,该模型旨在利用多模态Gemini模型作为基础,使其能够更好地理解和推理物理世界,预示着机器人技术在未来将扮演重要角色。此外,Demis Hassabis还转发了关于最新 Gemini Live 模型的更新,强调其在Gemini原有优势基础上的显著性能提升。这些进展共同展现了Google DeepMind在多模态AI和机器人领域的前沿探索。 Factory AI的Droids在Terminal-Bench排名第 …
阅读更多阿里巴巴云栖大会发布Qwen3-Max与通义万相2.5等系列大模型-向阳乔木 阿里巴巴在云栖大会上集中发布了多款重磅AI模型,包括超万亿参数的旗舰模型Qwen3-Max,该模型在SWE-Bench编码测试中斩获69.6分,在数学基准AIME 25和HMMT测试中达到满分100分,被认为能力已接近Claude 4 Opus及GPT-5。同时,通义万相2.5 preview视频生成模型也正式亮相,支持5-10秒1080P音画一体视频,被评价为国产“Veo3”最强平替,在图片和视频生成领域达到国际顶级水平。此外,Qwen系列共发布了300多个不同规模模型,从0.5B到超万亿参数,旨在覆盖更广泛的应用场景。用户可在夸克造点和通义万相平台体 …
阅读更多以下是过去4小时全球AI领域的重要动态: DeepMind联合创始人Demis Hassabis更新前沿AI安全框架-Demis Hassabis DeepMind联合创始人兼Google DeepMind CEO Demis Hassabis宣布,他们的“前沿安全框架”(Frontier Safety Framework)进行了重要更新。此次更新扩展了针对先进AI的风险领域,并精炼了评估协议。这表明业界对AI安全问题的重视程度持续提升,尤其是在AI模型能力日益强大的背景下,提前布局和完善风险管理机制成为关键。此举旨在确保AI技术在发展的同时,能够有效识别和规避潜在风险。 Chrome DevTools推出模型上下文协议(MCP), …
阅读更多可灵2.5 Turbo视频模型表现亮眼,有望辅助CG制作 - 歸藏(guizang.ai) 歸藏(guizang.ai)对可灵2.5 Turbo视频模型进行了测试,并将其与世界渲染大赛的顶级CG作品进行对比。测试结果显示,在特定场景下,AI视频的质量已能与CG相匹敌,例如在模拟汽车甩尾漂移等动态场景中,模型表现出卓越的还原能力和视觉效果。虽然AI视频距离完全替代CG仍有距离,但它已能在CG流程中承担动态预览和前期方案探索等部分,显著提高了工作效率和便利性。 传言:Gemini 3.0 Pro与Claude 4.5 Sonnet或本周发布 - 向阳乔木 有传言指出,谷歌的Gemini 3.0 Pro和Anthropic的Claude …
阅读更多阿里开源Qwen3-Omni:首个本地运行的全模态理解LLM - 歸藏(guizang.ai) 阿里巴巴近日开源了Qwen3-Omni,这是首个可本地运行的端到端全模态理解大型语言模型。该模型能够处理文本、图像、音频和视频输入,并支持文本和音频的流式输出,同时提升了音频和视频理解能力,且未牺牲单模态文本和图像的处理性能。Qwen3-Omni 基于MoE的Thinker–Talker设计,采用AuT预训练以获得强泛化表示,并通过多码本设计降低延迟,实现了低延迟流式传输和自然的轮流对话。 AI编程智能体进入“拨号上网”时代,基础设施面临巨大压力 - 宝玉 文章指出,当前的AI编程智能体(如Claude Code)在使用体验上正变得如 …
阅读更多以下是过去4小时全球AI领域的重点新闻回顾: Meta Superintelligence Lab 开源 Meta Agents Research Environments (ARE) 平台-clem 🤗 Meta Superintelligence Lab已开源其 Meta Agents Research Environments (ARE) 平台。ARE旨在支持多模态大型语言模型(LLM)驱动的智能体研究,提供统一框架,用于开发、训练和评估能够通过观察、交互和学习来理解和导航复杂环境的具身智能体。此举有望降低研究门槛,加速AI智能体在各种模拟环境中的发展和应用,推动具身智能体技术的前沿突破。 IBM Granite …
阅读更多DeepSeek V3.1 全新升级 → DeepSeek V3.1 Terminus 发布!-宝玉 DeepSeek 发布了 V3.1 Terminus 版本,这是 V3.1 的重要升级。新版本在语言流畅性上有了显著提升,有效减少了中英文混用和乱码问题。同时,**代码智能体(Code Agent)和搜索智能体(Search Agent)**的性能也得到了大幅加强,处理任务更加高效精准。经过多项权威基准测试,DeepSeek V3.1 Terminus 的输出更为稳定可靠。该模型支持App、网页和API,并且开源权重已在 Hugging Face 提供下载。 Anthropic 和 OpenAI 如何培养AI“同事”- …
阅读更多