2025.12.11.20 过去4小时全球AI发生了什么?

以下是过去一段时间全球AI领域的重要动态汇总:

  1. OpenAI 将发布新款 ChatGPT 模型 Garlic 及 GPTs 商店

    小互爆料称,OpenAI 的新款 ChatGPT 模型 Garlic 已“烹饪完毕”,预计将于今晚(UTC+8 时间为2025-12-11 00:00:00)发布。此次更新备受期待,可能包括最新的图像视觉模型、语音模型以及全新的 GPTs 商店。如果消息属实,这将标志着 ChatGPT 在多模态能力和应用生态方面迎来重大升级,有望进一步拓展其应用场景和用户体验。

  2. Adobe 产品集成 ChatGPT,实现 AI 驱动创作

    Adobe 宣布其核心创意和生产力工具,如 Photoshop、Adobe Express 和 Acrobat,将深度集成到 ChatGPT 中。用户未来可直接通过 ChatGPT 的聊天界面发出指令,调用这些 Adobe 应用执行任务,例如让 Photoshop 虚化照片背景。此功能将允许用户在 ChatGPT 中无缝启动并继续在 Adobe 应用中进行创作,目前已陆续登陆 Android 客户端,并预示着 OpenAI 新款 GPTs 商店的即将上线。

  3. ChatGPT 记忆系统逆向工程揭秘:采用四层结构,非传统 RAG

    一项对 ChatGPT 记忆系统的逆向工程分析显示,其设计比传统预期更为精巧,并未完全依赖向量数据库或RAG(检索增强生成)机制。相反,ChatGPT 采用了一个四层记忆结构:包括适应用户环境的会话元数据、长期存储的明确事实、近期聊天的轻量级摘要以及当前对话的滑动窗口。这种创新方法在用户个性化、系统性能和计算成本之间取得了卓越平衡,被誉为工程智慧的胜利。

  4. 字节跳动“豆包手机”发布,定义 AI Native 国产手机新标准

    字节跳动推出了其 “豆包手机”,被业内人士认为是首款真正意义上的 AI Native 国产手机。该手机通过创新设计,实现了一句话安装App的便捷功能。此外,左侧物理按键可随时唤起豆包AI助手或进行视频通话,其简洁流畅的 onboarding 设计展示了 AI 深度融入手机操作系统的新方向,引发了对未来智能手机形态的讨论。

  5. Essential AI 发布首个 8B 参数模型 Rnj-1

    人工智能公司 Essential AI 宣布发布其首个旗舰模型 Rnj-1,该模型包含基础版和指令版,拥有 80 亿参数。Rnj-1 的发布为开发者提供了新的开源选择,并支持通过强化学习策略(如 GRPO)利用 TRL 库进行轻松微调,以便更好地适应特定应用需求。

  6. NousResearch 开源 30B 数学推理模型 Nomos 1,Qwen3-30B 专攻数学

    NousResearch 近期开源了 Nomos 1 模型。这款仅有 300 亿参数的模型,在世界著名的 Putnam 数学竞赛中取得了 87/120 的高分,展示了其在数学求解和证明编写方面的强大能力。此外,NousResearch 还推出了专门用于数学求解和证明编写的 Qwen3-30B-A3B-Thinking-2507 模型,进一步推动了 AI 在复杂数学推理领域的进展。

  7. nanoGPT 成功在太空进行训练与推理,AI 模型应用边界拓宽

    Andrej Karpathy 宣布,nanoGPT 成功在太空中完成了训练和推理任务,使其成为首个在太空环境中实现这一壮举的大型语言模型(LLM)。这一突破性进展得益于 nanoGPT 与 Hugging Face 数据集和 tokenizers 等工具的协同作用,标志着 AI 模型微调技术的应用范围已扩展到地球之外,为未来太空探索和分布式 AI 部署开辟了新可能。

  8. Harness 与模型结合成新趋势,重塑 AI 应用部署模式

    业界观察指出,Harness 平台与 AI 模型的配对正在成为近期热门话题,有观点甚至认为“Harness 是新的应用”。这反映出 AI 模型的部署和集成方式正趋向更高效、更灵活的模式。Harness 类平台在简化 AI 应用开发、加速模型上线以及优化资源管理方面扮演着日益重要的角色,推动着 AI 产业的快速发展。

  9. Skywork 移动端 APP 5.0 上线,实现多 Agent 协同创作

    Skywork 推出了其移动端 APP 5.0,同时支持 iOS 和安卓平台。新版本增强了核心 AI 功能,如语音笔记,能够将语音自动转换为文本、进行格式化,并智能生成 To-do 列表、要点和行动摘要,甚至脑图。更值得关注的是,该应用支持同时运行多个 Agent,用户可一键将内容输出为 PPT、社交媒体内容、播客或海报,显著提升了内容创作效率和 AI Agent 的具象化协同能力。

  10. Medeo:语音驱动的视频 AI Agent,开启自然语言视频编辑新时代

    一款名为 Medeo 的视频 AI Agent 产品正在进行内测,其核心亮点在于用户可以通过完全自然的语言对话来生成和修改视频内容。Medeo 配备了强大的在线编辑器,能够实现台词、语音、字幕的瞬间替换,并可根据 AI 指令重新对齐时间轴,极大简化了视频制作的复杂性。此外,它对泛化视觉提示词(如微缩模型提示词)的良好支持,进一步提升了动态视频内容的表现力。

  11. Hugging Face 趋势榜更新:Hermes 36B 模型位列第三

    根据 Hugging Face 的最新趋势榜显示,Hermes 36B 模型已成功跻身热门模型前三。这一排名表明 Hermes 36B 在 AI 社区中受到了广泛关注和采用,其性能和实用性获得了开发者的认可,成为近期值得关注的明星 AI 模型之一。

  12. GPT 5.1 Thinking API 自动评估 Hacker News 十年前评论的远见性

    Andrej Karpathy 分享了一项实验:他利用 GPT 5.1 Thinking API 对 2015 年 12 月 Hacker News 上的 930 篇热门文章及其讨论评论进行了“事后分析”,旨在识别最具远见和最不具远见的评论。这项工作花费约 3 小时编码和 1 小时运行,成本 60 美元。该项目不仅展现了未来 LLM 在低成本、高效率地进行历史分析方面的强大潜力,也警示人们需关注未来 AI 对互联网信息进行高度审查的能力。

  13. LeRobot 社区数据集 v3 发布:50K 剧集,46 种机器人类型

    LeRobot 社区宣布发布其第三版数据集 LeRobot Community Datasets v3。该版本规模庞大,共包含 50,000 个机器人剧集,涵盖了 46 种不同类型的机器人,并汇集了全球 235 位贡献者的努力。这一丰富的开源数据集将为机器人学习、仿真和研究提供宝贵的资源,加速相关领域的技术发展。

  14. Waymo 自动驾驶服务计划于 2026 年进驻伦敦

    DeepMind 联合创始人 Demis Hassabis 透露,Alphabet 旗下自动驾驶公司 Waymo 计划于 2026 年在伦敦推出其自动驾驶服务。这一战略性扩张标志着自动驾驶技术在全球主要都市的商业化进程又迈出了关键一步,预示着伦敦市民将很快体验到先进的无人驾驶出行服务。

  15. Hugging Face CLI 更新:支持 llama-cli 直接调用 Hugging Face 模型

    Hugging Face 的命令行界面(CLI)工具迎来重要更新:现在用户可以通过 llama-cli -hf org/model 命令,直接在命令行中调用 Hugging Face 平台上托管的模型。这一改进极大地简化了开发者访问和使用 Hugging Face 模型的流程,提升了开发效率和便利性,使得模型集成更为直接。

  16. 创意提示词分享:一键生成“现实世界 × 异界传送门 × 动漫角色”跨维度场景

    一位用户分享了一个高度模块化的提示词模板,能够帮助创作者一键生成极具视觉冲击力的**“现实世界 × 异界传送门 × 动漫角色”跨维度场景画面**。通过替换模板中的变量,用户可以自由定制现实场景、传送门内场景及动漫人物风格,创造出独一无二的创意图片。该作者还分享了通过 nano banana pro 绘图获取数百万流量的提示词写作经验,强调了精准提示词在 AI 艺术创作中的关键作用。