2025.12.21.04 过去4小时全球AI发生了什么?

  1. Andrej Karpathy 2025年度LLM回顾:训练范式升级与AI GUI时代

    OpenAI联合创始人Andrej Karpathy发布2025年LLM年度回顾,指出六大变化。训练范式新增“可验证奖励强化学习(RLVR)”,使模型在有标准答案的环境中自发习得推理策略,大幅提升推理能力,并改变算力分配。AI智能展现“参差不齐”特性,基准测试面临挑战。LLM应用层兴起,如Cursor,专注于上下文工程、多模型编排及专业界面。Claude Code展示本地AI智能体潜力,预示AI“住进”电脑。Vibe Coding让非专业人士也能编程,代码变得廉价即用。Google Gemini Nano Banana预示大模型“图形界面时代”的到来,实现文本、图像和世界知识的融合呈现。

  2. Gemini与NotebookLM功能更新及使用技巧

    宝玉分享了利用Gemini生成高质量信息图的技巧,包括前置推理优化提示词模型随机性抽卡微调。Demis Hassabis也转发了Google AI Pro会员可赠送AI功能和模型访问权限的消息。此外,Gemini现已直接集成NotebookLM笔记,NotebookLM也正式推出,并支持将PDF导入生成定制风格PPT,极大提升了AI辅助创作的便捷性和效率。

  3. AI动态生成UI与Agentic Web浏览器趋势

    AI动态生成UI被认为是未来方向,技术上已摆脱传统低代码,可直接生成HTML/CSS/JS。当前主要分为两类:Google的完全动态生成UI(灵活度高但稳定性相对差),以及OpenAI的ChatGPT App方案(定制小程序按需调用,在聊天窗口内完成特定操作)。宝玉认为,ChatGPT的聊天界面本质上是下一代Agentic Web浏览器,而OpenAI的定制UI+场景动态选择方案在当下更为可靠。

  4. Codex通过Skills机制解决Plan模式痛点

    Codex长期以来不支持Plan模式的问题,现已通过引入Skills机制得到解决。用户只需在Prompt中加入$plan即可调用内置的Plan Skill,对于更复杂的规划,还可以使用execplan。这一更新显著增强了Codex在任务规划和执行方面的能力,提升了开发者的使用体验。

  5. 阿里巴巴Qwen-Image-Layered图像分层模型发布

    阿里巴巴发布了Qwen-Image-Layered模型,这是一款完全开源的原生图像分解模型。该模型能够提供“Photoshop级”的图像分层能力,预示着在图像编辑和创作领域将带来广泛的应用场景和强大的功能。宝玉也指出,这项图片分层功能具有强大的潜力,可以衍生出许多创新应用。

  6. Reachy Mini机器人大量部署与潜在应用

    Hugging Face的Clement Delangue转发了多条关于Reachy Mini机器人到货和使用的推文。用户们纷纷收到并开始测试这款机器人,包括为其编写简单的脚本语言控制动作和舞蹈,探讨将其与Claude等AI代理集成以进行更自主操作的可能性。Reachy Mini被赞扬为一款即插即用的设备,方便开发者快速上手。

  7. 2026:AI科学之年与量子AI的未来

    Merve预测2026年将是AI在科学领域大放异彩的一年,Google DeepMind和Periodic Labs将成为前沿实验室,CERN等纯科学机构也将发布AI模型和数据集,预示着科学研究将迎来超级激动人心的时代。Peter H. Diamandis也强调量子AI是AI的未来方向,并指出全球小团队正在完成过去需要政府和跨国巨头才能实现的任务,凸显了AI带来的创新民主化

  8. LLM知识提升的“零碎化”过程与数据中心AI

    Andrew Ng撰文指出,当前LLM知识的提升是一个**“零碎化”的过程**,而非普遍认为的通用智能的直线路径。虽然LLM比早期技术更通用,但仍远未达到人类的泛化能力。前沿实验室需通过耗时的数据中心AI方法,为特定任务生成和准备大量高质量数据,或创建RL模拟环境进行反复训练。他强调,尽管进步是渐进的,但这些零碎的改进与模型的有限泛化能力及**“涌现行为”**将持续推动AI快速发展,预示着未来仍需多年的艰苦工作。

  9. AI引发的超通货紧缩效应

    Peter H. Diamandis指出,我们正面临的年度超通货紧缩达到390倍,远超之前预测的40倍。他强调这种级别的通货紧缩效应将不会仅限于数据中心,预示着AI技术将对全球经济产生更广泛、更深远的影响。

  10. AI市场叙事:专业模型与应用层价值

    Sarah Guo批评了过去几年关于AI市场的错误叙事,例如开源基础模型无关紧要、AI应用层无价值、预训练扩展已走到尽头等。Clement Delangue转发的推文也指出,尽管前沿通用模型引人注目,但专业化模型才是行业的真正支柱。强调了“实地报告”而非循环讨论的重要性,呼吁对AI分析保持谨慎。

  11. 2026年AI低层级预测

    Merve分享了对2026年AI的一些具体预测:更小、更强大、幻觉更少的Omni模型;具备推理能力的Omni模型;能够控制手机的设备端MCPs和代理(包括屏幕截图视觉LMs);更多产品/UI创新。此外,强化学习环境(如OpenEnv)和训练即服务(如TRL/Unsloth)将更加普及。

  12. GPT-5.2与Droid在NextJS开发中表现出色

    Ben Tossell转发消息称,结合GPT-5.2和Droid的技术组合在NextJS开发中展现出“惊人的”性能,预示着AI在前端框架和开发流程中的应用将进一步深化和优化。

  13. Allen AI发布视频推理Agentic系统

    Allen AI发布了一款用于视频推理的Agentic系统,同时还提供了相关的模型、不同训练阶段的数据集以及基准测试集。这一发布对视频理解和处理领域的AI研究和应用具有重要意义。

  14. NVIDIA Nemotron系列模型下载量突破500万

    NVIDIA的Nemotron系列模型在Hugging Face平台上的下载量已突破500万次。Clement Delangue对此表示祝贺,并感谢社区的支持,这标志着NVIDIA在开源AI模型领域的广泛采用和影响力。

  15. Replit赋能Vibe Coding与AI产品设计

    Replit CEO Amjad Masad转发消息,强调Replit在Vibe Coding方面的能力,用户可以纯用英语描述需求来编写程序。许多营销视频和幻灯片现在都在Replit上通过Vibe Coding完成,大大节省了预算。Replit因其快速将想法转化为产品的能力,被认为是推动AI产品设计和开发效率的关键平台。

  16. 扩散模型:现实生成的核心机制

    Emad发表观点,认为**扩散(diffusion)**是现实生成自身的机制。这是一种对扩散模型(Diffusion Models)的哲学性思考,暗示了这类AI模型在理解和模拟复杂系统方面的深远潜力。

  17. 投资界脱口秀:真实现状的洞察

    Orange AI分享了一则名为“投资界脱口秀”的视频,声称其中每一句都是大实话。这暗示了AI在分析和揭示投资行业真实情况方面的应用,可能提供了对市场和行业深层问题的独特视角。