2025.12.22.04 过去4小时全球AI发生了什么?
Andrej Karpathy 2025 年 LLM 回顾:六大变革
Andrej Karpathy 在其2025年LLM回顾中指出六大变革:**可验证奖励强化学习(RLVR)**成为训练大模型的新范式,算力更多用于强化学习而非预训练,使得模型能自主摸索推理策略;他将大模型智能比喻为“召唤幽灵”,强调其能力分布不均,并对基准测试的信任度降低;Cursor展现了LLM应用层的潜力,将基础模型转化为特定领域专业团队;Claude Code作为首个可信智能体,通过命令行工具在本地运行,改变了AI的交互范式;Vibe Coding使编程大众化,任何人都能通过自然语言创建复杂程序;Nano Banana被认为是大模型的GUI,预示着AI交互将从文本转向更视觉化、空间化的方式。
Redis之父 Salvatore Sanfilippo 对 AI 的 8 条年终反思
Redis创始人Salvatore Sanfilippo发布了对2025年AI发展的8点反思。他认为“随机鹦鹉”的说法已失效,LLM展现出真正的理解力;思维链(CoT)是一个被低估的突破,通过内部表征采样和强化学习提升模型推理能力;可验证奖励强化学习打破了算力扩张的瓶颈,允许模型无限自我提升;程序员对AI的态度从怀疑转向接受,将其视为高效的“同事”或“独立编码智能体”;他谨慎乐观地看待Transformer架构的潜力,认为其仍是通向AGI的有效路径;并指出思维链并未改变LLM本质,反驳了“新批评论”;ARC测试从反LLM的论据转变为证明LLM能力的证据;最后,他强调未来20年AI的根本挑战在于避免灭绝。
小米在MiMo论文中详细阐述了其AI模型如何显著提升前端开发能力。关键在于引入了基于视觉的验证器。该验证器通过对录制的视频片段执行情况进行评分,能够综合评估AI生成前端代码的视觉质量、功能准确性和可执行性。这种创新的奖励机制确保了模型在训练过程中不仅能兼顾外观设计,还能保证代码的功能性和实用性,从而使AI在前端开发领域展现出强大的实力。
Hugging Face 平台多模态模型更新与 AI 研究趋势
Hugging Face平台近日发布了多个前沿多模态模型的Demo,包括AI2的最新SOTA模型Molmo 2,以及Allen AI的用于长视频推理的智能体模型SAGE-MM。这些进展预示着AI在处理多模态数据方面的能力持续增强。同时,有预测指出,2026年将成为AI for Science之年,Google DeepMind等实验室将成为前沿阵地,而计算机视觉和机器人技术也将加速主流化,尤其是在视觉/文本提示、VLM分割和设备端Agent控制手机等领域。
Codex 正式支持 Skills 机制,预示“Skills 即应用”新趋势
Codex 平台正式引入了Skills 机制,有效解决了其长期以来不支持“Plan模式”的痛点。现在,用户只需在 Prompt 中加入
$plan即可调用内置的 Plan Skill,而对于更复杂的规划,还可以使用execplan。这一更新使得AI的规划和执行能力得到显著增强。这一发展也与“skills are the new apps”的行业趋势相呼应,表明AI的能力正从单一应用向更灵活、可组合的技能方向演进。Google的Nano Banana Pro在城市海报生成方面展现出令人印象深刻的能力。通过详细的提示词,模型能够自动根据选择的城市调整艺术风格、3D字体、地理信息、生物和天际线景观等元素,生成高质量的数字艺术海报。然而,也有用户观察到Nano Banana Pro近期出现“降智”现象,引发了对大模型“出道即巅峰,然后降智审核量化降本”的讨论,指出模型性能可能随时间发生变化,影响用户留存。
当前AI领域,初创公司想要挑战Google或字节跳动等巨头几乎不可能,因为巨头拥有强大的壁垒。对于AI初创企业而言,现实的生存之道是在巨头不重视的“夹缝”中寻找机会,或者专注于巨头希望有人去做但自身未投入的领域。虽然这可能意味着做一些非核心的业务,但也存在赚取利润的空间。这反映出AI行业日益集中化的趋势,中小企业需采取差异化竞争策略。
AI正在变革内容创作,特别是PPT和信息图的制作。高质量的信息图生成有几个关键技巧:首先,利用如Gemini这类具有推理能力的大模型,让AI在生成前进行信息提炼和提示词优化;其次,由于模型出图的随机性,需要多次尝试(“抽卡”)以获得满意结果;最后,在得到初步好结果后,进行细致的微调以达到完美。这些经验表明,AI工具虽强大,仍需用户巧妙运用和迭代优化。
Ranke-4B 被形容为一款“时光琥珀 LLM”,其独特之处在于仅使用1913年之前的数据进行训练。这意味着该模型虽然学会了语言结构,但对世界大战、西班牙大流感等现代历史事件一无所知。这种“知识锁定”在一个特定时代的大语言模型,为研究者和用户提供了一个有趣的视角,可以用来探讨其在面对现代性话题时,会如何基于有限的历史知识进行推理和回应。
Loreco团队利用AI技术,在短短8周内完成了一款游戏的开发,而同样的工作在没有AI辅助的情况下通常需要12个月。这一案例显著展示了AI在加速游戏开发流程方面的巨大潜力。通过AI工具,开发周期大幅缩短,极大地提高了生产力,使得原本耗时耗力的创意和技术实现变得更加高效和便捷。
Peter Diamandis 阐述指数级技术“6D”框架及小团队影响力
Peter Diamandis强调了指数级技术发展的“6D”框架:Digitized(数字化)、Deceptive(欺骗性)、Disruptive(颠覆性)、Demonetized(去货币化)、Dematerialized(去物质化)和Democratized(民主化)。他指出,全球各地的小型团队现在能够完成过去需要政府和数十亿美元公司才能实现的壮举,这体现了技术民主化带来的巨大变革。此外,Peter还提及微软可能正在自研芯片,这暗示了AI硬件领域竞争的加剧和巨头们对核心技术自主可控的追求。