2025.12.17.04 过去4小时全球AI发生了什么?
以下是过去4小时内全球AI领域的重要动态:
OpenAI 发布 Images 1.5,GPT-5.2 Pro 获赞“范式转变” - Sam Altman
OpenAI 正式推出 Images 1.5,该模型已集成至 ChatGPT 和 API,显著提升了图像生成质量、速度,并引入了全新的编辑功能。此外,OpenAI CEO Sam Altman 转发用户评论,指出 GPT-5.2 Pro 在其应用中实现了“范式转变”,特别是在代数几何和数论研究等复杂领域展现出巨大实用性。Peter H. Diamandis也提及GPT-5.2有望自动化71%的知识工作,预示着其在企业生产力提升上的巨大潜力。
Google 创始人谢尔盖·布林在斯坦福回顾AI与Google的发展历程 - 向阳乔木
Google 创始人谢尔盖·布林近期在斯坦福工程学院百年庆典上发表演讲,深入探讨了Google的早期发展、人工智能的崛起及其对未来的影响。布林坦诚 Google 曾低估了 Transformer 模型和 AI 聊天机器人的潜力,从而让OpenAI抓住了机会。他强调了学术自由和联邦科研经费在创新中的关键作用,并预测 AI 将使个体能力大幅提升。同时,他指出材料科学和分子生物学是当前被低估的AI应用领域,呼吁扩大关注焦点。
多款开源AI模型密集发布:Molmo 2、Xiaomi MiMo-V2-Flash、NVIDIA Nemotron 3 和 Allen AI 的 Bolmo
开源AI社区持续活跃,多款新模型发布。Allen AI的Molmo 2在图像和视频任务中刷新了开放模型SOTA,基于SigLIP2 + Qwen3,提供多种规模,并包含一个专门用于视频指向/计数的新4B模型,采用Apache 2.0许可。小米发布了MiMo-V2-Flash,这是一个309B的MoE开源模型,专为Agentic AI设计,提供高达150 tokens/s的速度,在基准测试中表现出色。NVIDIA则推出了Nemotron 3系列开放模型,包含数据和库,其30B模型在速度和性能上均超越了GPT-OSS和Qwen3-30B,还首次提供了训练数据、强化学习环境和训练代码。此外,Allen AI还发布了Bolmo,一个通过“字节化”Olmo 3构建的字节级语言模型系列。
IBM 发布 CUGA:一款自动化企业任务的开源AI Agent - merve
IBM 正式发布 CUGA,这是一款开源的企业级 AI Agent,旨在自动化日常繁琐任务。CUGA 能够通过分析工作区文件,自行编写并执行代码来完成各种任务,并集成了大量为企业任务设计的工具。该Agent支持多计算平台(MCPs),并允许用户接入偏好的大语言模型。IBM还提供了一个演示,展示了CUGA如何从文件中检索信息、通过编写代码计算收益,并草拟电子邮件,强调其可本地运行的特性。
重审“自动化的讽刺”:AI Agent时代的人类挑战 - 宝玉
一篇详细分析了1983年论文《自动化的讽刺》的文章,深刻揭示了AI Agent时代人类所面临的挑战。该论文的核心观点在AI领域再次应验,包括技能退化、记忆提取困境、实践悖论(理论学习无法替代实战)、监控疲劳(人类难以长时间对很少出错的系统保持警觉)、地位问题(专家降级为监工带来的心理冲击)以及当前 AI Agent 糟糕的UI设计。文章强调,自动化系统越成功,反而越需要对人类进行大量且高质量的培训,并指出AI的监督工作需要新的“领导力”技能。
AI 图像生成与提示词工程新进展,展现多样创意能力 - 宝玉
AI图像生成技术和提示词工程持续展现创新。有用户分享了利用 NotebookLM 生成精致高清的信息图的优秀中文提示词,能够创建出排版整齐、笔迹细致的翻开笔记本图像。另一个案例展示了使用 Nano Banana Pro 生成植物叶片艺术拼贴画的详细提示词模板,通过精确的描述,AI能够创作出富有季节浪漫气息、细节丰富、纹理超现实的8K宏观摄影风格作品。这些案例突显了通过精细化提示词,AI在艺术创作方面日益增长的灵活性和表现力。
全球AI发展趋势:智能成本骤降,中国自动化加速,AI重塑科研与交互 - Peter H. Diamandis, MD
AI的普及和创新速度正以前所未有的态势发展。过去三年,智能成本已下降近1000倍,极大地降低了创新的门槛。中国正积极推动经济自动化转型,一年内新增 29.5万台机器人,占全球总数的50%,预计到2030年将带来6000亿美元的收益。在科研领域,AlphaFold 在五年内生成了2.4亿个蛋白质结构,加速了生物学研究。AI解决长期数学难题的能力,甚至引发了数学家对传统论文发表模式的质疑。Yann LeCun警告,未来所有数字交互都将通过 AI助手过滤,预示着AI将深度融入日常生活。此外,开发堆栈也从传统“无代码”转向“markdown + bash + json + agent”的AI Agent驱动模式。