2025.12.17.16 过去4小时全球AI发生了什么?
过去4小时全球AI要闻回顾
OpenAI Images 1.5 正式发布,提升图像生成与编辑能力-Sam Altman
OpenAI正式发布了Images 1.5图像生成模型,现已在ChatGPT和API中上线。该版本在图像质量、生成速度和编辑能力方面均有显著提升,并提供了在ChatGPT中轻松创建趣味图像的新方式。OpenAI CEO Sam Altman表示,这是他们今天推出的“非常有趣”的新功能。
GPT 5.2 Pro 获用户高度评价,被视为“范式转变”-Sam Altman
OpenAI CEO Sam Altman转发的用户反馈显示,GPT 5.2 Pro在实际应用中带来了“范式转变”,特别是在代数几何和数论研究等需要长时间工作的领域,其实用性有了显著提升。Sam Altman强调这是一项“重要的新评估”,表明该模型在复杂任务处理能力上的突破。
Google创始人谢尔盖·布林斯坦福演讲:回顾Google历史,展望AI未来,强调材料科学与分子生物学潜能-向阳乔木
Google创始人谢尔盖·布林在斯坦福工程学院百年庆典上发表了深度演讲,回顾了Google的起源,分享了公司在Transformer和Google Glass项目上的经验教训,强调了信任技术人员和早期投入基础研究的重要性。布林对AI的未来持乐观态度,认为其能增强个人能力,并提出需要重新思考大学教育的意义。他还特别指出,材料科学和分子生物学是被低估的颠覆性技术。
小米发布MiMo-V2-Flash开源MoE模型,速度与性能兼备-clem 🤗
小米发布了全新的开源MoE模型MiMo-V2-Flash,总参数达309B,推理速度高达150 tokens/s。该模型采用了混合滑动窗口注意力机制,并基于27T tokens数据进行FP8混合精度训练。MiMo-V2-Flash在多个基准测试中展现出与K2/DSV3.2竞争的强大实力,参数量更少,且专为Agentic AI设计。
Molmo 2 在图像和视频任务中刷新开放模型SOTA-merve
Molmo 2在开放模型中的图像和视频任务上取得了新的SOTA(State-of-the-Art)成果。该模型基于SigLIP2和Qwen3构建,提供三种不同尺寸,并包含一个专门用于视频指向/计数的4B模型。Molmo 2采用Apache 2.0许可证,其图像和视频数据集也已同步发布。
MSL 发布全新开放音频模型 SAM Audio-clem 🤗
MSL(Microsoft Speech and Language)发布了新的开放音频模型SAM Audio。该模型的发布旨在进一步推动音频领域AI技术的进步和应用,为研究人员和开发者提供更多工具。
腾讯推出HY World 1.5 (WorldPlay) 世界模型,具备实时交互和长期记忆能力-clem 🤗
腾讯推出了其最新的世界模型HY World 1.5 (WorldPlay),该模型具备实时交互和长期记忆能力,旨在为用户提供更沉浸和动态的体验,预示着在虚拟世界和Agentic AI应用方面的新进展。
Google AI生产力工具更新:Gmail新增CC代理,Gemini App升级深度研究功能-Demis Hassabis
Google Labs推出了新的实验性AI生产力代理CC,作为Gmail的一部分,能够为用户提供每日简报。此外,Gemini App也升级了其“深度研究”功能,使用户在学习新主题时能更直观地看到相关信息和图片,提升学习体验。
Claude Code 更新多项功能,提升开发体验-向阳乔木
Claude Code近期进行了一系列更新,包括引入语法高亮功能以提升代码可读性,提供提示词建议以优化用户输入,开放官方插件市场以扩展功能,以及推出可分享的访客通行证,具体用途有待进一步明确。
智能成本三年内下降千倍,创新普及度大幅提高-Peter H. Diamandis, MD
Peter H. Diamandis博士指出,智能的成本在过去三年中下降了近1000倍,这使得创新变得前所未有的容易和普及。他预测未来十年,这种技术普及的趋势将对社会和各行业带来深远影响。
Amjad Masad 分享验证/测试代理的构建经验-Amjad Masad
Amjad Masad分享了关于如何构建验证/测试代理的经验和方法。这对于开发高质量软件和AI系统至关重要,揭示了在自动化测试和验证流程中的技术细节。