2025.09.22.20 过去4小时全球AI发生了什么?

  1. DeepSeek V3.1 全新升级 → DeepSeek V3.1 Terminus 发布!-宝玉

    DeepSeek 发布了 V3.1 Terminus 版本,这是 V3.1 的重要升级。新版本在语言流畅性上有了显著提升,有效减少了中英文混用和乱码问题。同时,**代码智能体(Code Agent)搜索智能体(Search Agent)**的性能也得到了大幅加强,处理任务更加高效精准。经过多项权威基准测试,DeepSeek V3.1 Terminus 的输出更为稳定可靠。该模型支持App、网页和API,并且开源权重已在 Hugging Face 提供下载。

  2. Anthropic 和 OpenAI 如何培养AI“同事”-宝玉

    Anthropic 和 OpenAI 等领先 AI 公司正在转变 AI 训练策略,目标是让 AI 智能体像真正的职场同事一样工作。他们不再仅依赖互联网数据,而是通过让 AI 在 企业软件的仿真环境 中学习,并聘请各行业专家演示实际任务流程。Anthropic 计划未来一年投入 10亿美元 用于构建 AI 训练的“虚拟职场”(RL gyms),而 OpenAI 高管则预测整个经济体系将演变为一个巨大的强化学习(RL)机器。这种方式旨在让 AI 掌握人类独有的工作套路和解决问题的方法,引发了对 AI 最终作为同事或竞争对手的未来展望。

  3. Google 推出 AP2 AI支付新协议 -小互

    谷歌正式发布了 AP2 AI 支付新协议,旨在实现 AI 助手的安全自动化支付功能。该协议支持多种支付方式,包括信用卡、银行转账、支付宝/PayPal,乃至比特币和稳定币。AP2 协议引入了“数字授权书”机制,用于记录用户对 AI 代理的支付指令,确保支付过程的同意、商家意图明确及责任可查。用户可以进行实时购买,或提前设定条件委托 AI 自动完成支付任务。该协议有望成为 AI 驱动电商的行业标准,大幅提升 AI 助手在购物、优惠查找和旅行安排等方面的自主能力。

  4. RT @huybery: 🥸 Many new Qwen models are coming soon, all empowered with enhanced code capabilities.-clem 🤗

    据透露,阿里云(Qwen)即将发布多款新模型。这些即将推出的 Qwen 模型 将重点强化其代码能力,预计在编程、代码生成和相关开发任务方面会有显著提升。此举或将进一步推动 Qwen 模型在软件开发和自动化领域的应用潜力。

  5. RT @MaziyarPanahi: maybe we are on to something here!\n\nopen-source healthcare ai, free. forever. ⚡️-clem 🤗

    有开发者提出一项 开源医疗 AI 倡议,旨在免费提供医疗领域的 AI 解决方案。这项行动强调了开源在医疗健康领域的重要性,希望通过 免费且永久 的方式,让更多人受益于 AI 技术在医疗诊断、辅助治疗及健康管理方面的潜力,推动医疗普惠化。

  6. The next generation of LLM apps will require consumers to think less in terms of paying for software and more like hiring an hourly employee.-Amjad Masad

    Replit 创始人 Amjad Masad 提出,下一代大型语言模型(LLM)应用的收费模式将发生转变。消费者将不再像购买软件那样付费,而是更趋向于 按小时雇佣 的方式。他认为 Replit 在这一模式上已经走在前列,并预测所有主要的 AI 实验室都将效仿,推出类似的计费模型,这将重新定义用户与 AI 应用的交互和成本结构。

  7. 世界上最好的 Storybook 工具还有两天限免结束,抓紧体验!-orange.ai

    ListenHub Storybook 工具即将结束免费体验期。该工具能够将马里奥、皮卡丘等多种儿童喜爱的角色生成故事书,并支持中文和英文,帮助孩子在听故事的同时学习英文。其特色功能还包括 克隆用户声音 来讲述故事,提供个性化的陪伴体验。除了儿童故事,用户也发现其可用于创作爱情故事和科普故事。此外,动态画面功能 正在开发中,未来故事中精彩场景将转化为动画,进一步增强故事的吸引力。

  8. large AI labs open-sourced a ton of models last week 🔥-merve

    上周多家大型 AI 实验室发布了一系列开源模型。其中包括:IBM 基于 Granite (A2.0) 发布了 2.58亿参数的 Docling 模型;小米推出了基于 MIT 许可的 7B 音频语言模型(含基础版和指令版);DecartAI 开源了 Lucy Edit;OpenGVLab 发布了一系列包含数据集的 agentic 计算机使用模型(3B/7B/32B);以及美团 Longcat 发布了 LongCat-Flash 的思维版本。这些模型涵盖了文档处理、音频识别、图像编辑和智能体技术等多个前沿领域。

  9. this is a gross misreading of an interesting paper.-Gary Marcus

    著名 AI 专家 Gary Marcus 对一篇关于 AGI 影响的论文进行了解读澄清,指出该论文并非断言“明天一半人口就能停止工作而对 GDP 无重大影响”。他强调,该论文仅是 假设未来某天 AGI 达到这种能力,并探讨可能带来的后果。Marcus 呼吁人们应该对此进行思考,但无需恐慌,避免对 AGI 的短期影响产生不切实际的误读。

  10. RT @stgiomo: I’ve recreated @mervenoyann’s DINOv3 fine-tune notebook on @modal and the results are impressive: almost SOTA on Food-101 with…-merve

    有开发者成功在 Modal 平台 上复现了 Merve Noyann 的 DINOv3 微调笔记本。这项工作取得了令人印象深刻的成果,在 Food-101 数据集 上实现了**接近 SOTA(State-of-the-Art)**的性能。这表明了 DINOv3 模型在特定任务上的强大微调潜力,以及 Modal 平台在支持高性能 AI 计算方面的有效性。

  11. GenSpark 这个功能可以…\n\nOpenAI 实时语音+ Google 小香蕉\n\n实现言出法随P图😂-小互

    GenSpark 推出了一项创新功能,结合了 OpenAI 的实时语音技术谷歌的图像处理技术,实现了“言出法随”的图像编辑体验。用户可以通过语音指令直接修改或生成图片,大大简化了传统图像处理的复杂性,提供了一种直观且高效的视觉内容创作方式。