过去4小时全球AI动态摘要 OpenAI 发布全新多模态生成模型 Sora 2,引领视频生成新时代 OpenAI 正式发布了其多模态生成模型 Sora 2,被誉为视频领域的“GPT-3.5 时刻”。Sora 2 不仅能生成高质量视频,还能同步生成语音和环境音效,并首次支持将用户“插入”视频成为主角。模型亮点包括支持多个镜头的连续生成、更物理真实与可控的世界状态、真人的Cameo登场、以及写实、动漫、电影等多种风格切换。同时,Sora 2 的新版 iOS App 已上线,提供 remix、个性化推荐和青少年保护等功能,目前限美国/加拿大 iOS 用户试用,未来还将开放 API 接入。市场普遍认为,Sora 2 有潜力改变现有视频内容生 …
阅读更多Anthropic的战略方向与Sonnet 4.5的上下文管理能力-宝玉 有观点认为,Anthropic在编程领域虽然取得过成绩,但可能为OpenAI和Google趟了路,目前在编程和Agent方面被追赶甚至超越,其他领域缺乏突出表现,并预测Gemini 3.0发布后可能进一步超越。与此同时,Anthropic新推出的Sonnet 4.5模型在上下文压缩方面展现出显著进步,其**“状态管理”能力**(即模型能有效“记笔记”以保存关键任务信息)被用户称赞,认为这有助于模型在长对话中保持性能,甚至超越了GPT-5在这一方面的表现。 Shopify将整合GPT实现商家商品搜索-歸藏(guizang.ai) Shopify宣布将整合GPT …
阅读更多在过去四小时内,AI领域迎来多项重要进展,OpenAI 推出了直接集成购物功能的 ChatGPT Merchants,将电商带入对话界面。同时,Anthropic 发布了其新一代模型 Claude Sonnet 4.5,并推出了实验性的实时界面生成功能 “Imagine with Claude”,进一步提升了其在编程和交互方面的能力。此外,Replit 平台的 Agent 3 也创下了新的运行记录。 OpenAI 推出 ChatGPT Merchants 功能,将购物集成至对话界面 - 小互 OpenAI 正式推出 ChatGPT Merchants 功能,将购物体验直接整合进 ChatGPT 的对话窗口,实现“边问边买”。用户现在 …
阅读更多DeepSeek发布实验性模型V3.2-Exp,大幅提升长文本推理效率并降低成本-小互 DeepSeek发布了其最新实验性语言模型 DeepSeek-V3.2-Exp,该模型在推理效率和计算成本方面实现了显著提升。V3.2-Exp在整体性能上与V3.1-Terminus持平,但长文本推理效率提高了约一倍,使得其 API价格大幅下降50%。这一突破主要得益于其引入的 稀疏注意力(DSA)机制,该机制能够智能地聚焦文本中的关键部分,从而在不影响输出质量的前提下,显著加快处理速度并减少显存占用,特别适合处理 超过32K tokens 的长文档和对话场景。 Merve Noyan公开分享多模态AI幻灯片,涵盖趋势、模型与工具-merve …
阅读更多Karen Hao在慕尼黑增加一场免费活动 知名作家Karen Hao宣布,除了原定的10月24日售票活动外,她将于10月23日在慕尼黑新增一场免费活动。此次活动由Sheila Beladinejad和Women in AI组织并提供场地资源。此举为更多对AI领域感兴趣的人提供了参与和交流的机会,体现了AI社区的积极互动与知识共享。 FactoryAI CLI新增Gemini支持,效率显著提升 用户@donvito(经Ben Tossell转发)对全新的FactoryAI CLI印象深刻。该工具仅用Sonnet 4就在15分钟内为**@aibackends添加了Gemini支持**,并实现了实时同步。这表明新的CLI工具在集成和开 …
阅读更多腾讯开源生图模型 3.0 亮相,具备强悍文字生成与世界知识理解能力-歸藏(guizang.ai) 腾讯最新开源的生图模型 3.0,参数高达 80B,在美学表现、文字生成与世界知识理解方面取得了显著提升。该模型能够生成包括中文在内的较长文字,支持复杂排版和艺术字体设计,甚至能图解中学几何题,媲美头部图像模型如Banana。虽然目前尚不支持图像编辑功能,但有消息称该能力有望在国庆后上线。其强大的世界知识和推理能力,结合微调潜力,预示着广泛的应用前景。 Google DeepMind Veo 3 达到视觉AI的“GPT-3”时刻-小互 Google DeepMind的研究揭示,Veo 3 在视觉AI领域可能迎来了“GPT-3”时刻。该模 …
阅读更多以下是过去4小时全球AI领域的一些主要动态: FactoryAI Droids在Terminal Bench基准测试中排名第一-Nathan Lands \n\n FactoryAI宣布推出其最新的Droids编码代理,并在Terminal Bench基准测试中超越Claude Code,位居第一。该代理被多位用户誉为现有编码AI的“类固醇升级版”,可作为Claude AI代码的即时替代品,并据称运行在GPT-5-Codex上。有评论指出,一个仅由四名研究工程师组成的团队,在创建最佳编码代理方面,超越了OpenAI和Anthropic等百亿美元级别的大型实验室,其性能甚至被认为优于Cursor,标志着编码AI领域的新突破。 \n\n …
阅读更多以下是过去4小时全球AI领域的一些重要动态和观察: NVIDIA成为美国开源AI领导者-clem 🤗 Hugging Face首席执行官Clement Delangue指出,NVIDIA正在迅速崛起为美国在AI开源领域的领导者。在过去一年中,NVIDIA已向Hugging Face平台贡献了超过300个模型、数据集和应用程序。这一举动表明NVIDIA不仅在硬件方面占据主导地位,还在积极推动AI软件和研究的开放共享,预示着其在AI生态系统中的影响力将进一步扩大。 AI代理能力拓展至餐厅预订-Demis Hassabis Google DeepMind首席执行官Demis Hassabis转发消息称,AI模式中的代理能力正在扩展,现已支 …
阅读更多OpenAI论文揭示大模型幻觉根源与解决之道-向阳乔木 OpenAI九月份的一篇论文深入探讨了大语言模型产生“幻觉”的根本原因。研究指出,即使训练数据无误,模型在优化目标下仍可能因无法区分事实与错误而自然产生幻觉,且训练数据中“单例事实”越多,幻觉率越高。核心问题在于现有评测机制的激励错位,鼓励模型“猜测”而非表达不确定性。为解决此问题,论文建议修改评测标准,让模型在不确定时选择“我不知道”也能获得分数,并设定“信心阈值”,从而从根本上减少幻觉,提升AI系统的可信度。 加勒比小岛国安圭拉因“.ai”域名意外暴富-向阳乔木 人口仅1.6万的加勒比海小岛国安圭拉共和国,因其国家顶级域名“.ai”与“人工智能”的缩写不谋而合,意外成为全 …
阅读更多Google DeepMind发布Gemini Robotics 1.5模型及Gemini Live更新-Demis Hassabis Google DeepMind 宣布推出 Gemini Robotics 1.5 模型,该模型旨在利用多模态Gemini模型作为基础,使其能够更好地理解和推理物理世界,预示着机器人技术在未来将扮演重要角色。此外,Demis Hassabis还转发了关于最新 Gemini Live 模型的更新,强调其在Gemini原有优势基础上的显著性能提升。这些进展共同展现了Google DeepMind在多模态AI和机器人领域的前沿探索。 Factory AI的Droids在Terminal-Bench排名第 …
阅读更多