Andrej Karpathy 2025年LLM年度回顾:RLVR、AI智能体、Vibe Coding和LLM GUI成亮点-宝玉 OpenAI联合创始人兼前特斯拉AI总监Andrej Karpathy发布了2025年LLM年度回顾,指出四大变化:训练方法的范式升级,引入“可验证奖励的强化学习”(RLVR),模型通过自我练习在数学、代码等领域提升推理能力,导致算力分配更多转向强化学习;其次,对AI智能本质的理解加深,其“参差不齐的智能”表现为在可验证领域能力飙升,但在常识、创意方面仍存不足,并对基准测试的信任度降低;第三,LLM应用层浮出水面,如Cursor,展示了垂直领域应用通过上下文工程、多模型编排和专业界面实现价值;第 …
阅读更多Alibaba’s Qwen-Image-Layered is LIVE — native image decomposition, fully open-sourced! - merve 阿里巴巴的Qwen团队发布了完全开源的Qwen-Image-Layered模型,该模型提供Photoshop级别的原生图片分层功能。这项强大的技术能够将图片分解为多个层,预计将催生出多种创新应用场景,为图像处理和内容创作带来变革性的潜力。 RT @matanSF: GPT5.2 + Droid is phenomenal for NextJS - Ben Tossell 有报道指出,GPT 5.2与Droid的结合在NextJS开发方面表现“非 …
阅读更多Allen AI 发布视频推理智能体系统-merve Allen AI 近期发布了一款用于视频推理的智能体系统,同时还提供了模型、针对不同训练阶段的数据集以及基准测试集。这一发布将推动视频内容理解和智能决策领域的发展,为研究人员和开发者提供了强大的新工具和资源。 Andrew Ng 剖析LLMs:通用性强但非通向AGI的捷径-Andrew Ng 吴恩达指出,尽管大型语言模型 (LLMs) 表现惊人且具有通用性,但它们并非在短短几年内就能通向通用人工智能 (AGI) 的路径。LLMs 知识的提升是一个碎片化过程,需要通过耗时的数据获取、清洗、去重、复述等数据工程工作,或通过构建大量强化学习模拟环境来反复训练模型。人类在面对较少数据和 …
阅读更多Google发布FunctionGemma、T5Gemma 2及Gemma 4系列模型-osanseviero Google发布了多个新的Gemma系列AI模型,其中包括FunctionGemma,一个参数量仅为270M的模型,专为函数调用设计,可在手机、浏览器等多种设备上运行。同时,新一代编码器-解码器模型T5Gemma 2也在Gemma 3的基础上推出,并且有迹象表明Google可能正准备发布Gemma 4,包含1B和4B等参数变体,预示着其Gemma模型家族的进一步扩展。 OpenAI发布GPT-5.2-Codex并加强网络安全关注-Sam Altman Sam Altman宣布OpenAI正式推出GPT-5.2-Codex …
阅读更多以下是过去一段时间全球AI领域的动态汇总: Google发布革命性Gemini 3 Flash模型,性能超越Pro版 Google重磅发布了其Gemini 3 Flash模型,该模型以“Pro级智能 × Flash级速度”为核心亮点,具备博士级逻辑与推理能力。在MMMU-Pro多模态理解基准测试中,Gemini 3 Flash表现惊人,甚至超越了Gemini 3 Pro。它相较于Gemini 2.5 Pro速度提升了3倍,成本仅为其零头,并且在完成同等任务时平均使用30%更少的tokens。该模型能根据问题复杂度“自己调节思考时间”,适用于实时交互式应用、快速编码与分析任务、高并发API请求及低延迟多模态AI应用,现已成 …
阅读更多过去4小时全球AI要闻回顾 Google 发布 Gemini 3 Flash 模型:Pro级智能,Flash级速度 Google 正式发布了 Gemini 3 Flash 模型,旨在以更快的速度提供前沿智能。该模型在保持Pro级别智能的同时,速度比 Gemini 2.5 Pro 快3倍,且成本更低。它具备根据问题复杂度**“自我调节思考时间”**的能力,简化问题秒答,复杂任务则会进行更深入的思考。在多模态理解基准测试(如 MMMU-Pro、swe-bench verified 和 arc-agi-2)中,Gemini 3 Flash 的表现甚至超越了 Gemini 3 Pro,并且完成同等任务时平均可节省 30% 的 tokens。 …
阅读更多过去4小时全球AI要闻回顾 谷歌发布突破性Gemini 3 Flash模型,性能超越Pro版 谷歌正式发布了其创新的 Gemini 3 Flash 模型,并将其设为Gemini App和搜索AI模式的默认模型。该模型实现了Pro级智能与Flash级速度的结合,在几乎所有基准测试中均超越了Gemini 2.5 Pro,并提供了三倍的速度提升和显著的成本降低。Gemini 3 Flash具备博士级逻辑与推理能力,可根据问题复杂度动态调整思考时间,并且在完成同等任务时平均使用30%更少的Token。令人瞩目的是,它在MMMU-Pro多模态理解、SWE-bench verified和ARC-AGI-2等基准测试中甚至超越了更强大 …
阅读更多AI与自动化讽刺:40年前的预言正应验于AI Agent - 宝玉 认知心理学家Lisanne Bainbridge在1983年论文《自动化的讽刺》中提出的八大问题,正一一应验于当前的AI Agent自动化场景。这些问题包括技能退化、记忆提取困境、实践悖论(培训无用,需实战)、监控疲劳、职业地位下降、糟糕的UI设计、训练悖论(越成功越需巨额培训)和领导力困境。文章强调,尽管AI能力飞速提升,人类固有的认知局限(如半小时的监控疲劳)仍是难以逾越的“硬件限制”,预示着自动化在带来便利的同时也隐藏着深刻的挑战。 NVIDIA发布Nemotron 3系列开放模型,性能超GPT-OSS和Qwen3-30B - clem 🤗 (转 …
阅读更多以下是过去一段时间全球AI领域的重要动态: Google 发布新开源AI模型,包括Gemma 4和Allen AI的Bolmo-clem 🤗 \n\n Google及其合作伙伴持续推进开源AI生态。Google DeepMind即将推出新一代开源模型Gemma 4,备受期待。同时,Allen AI也发布了Bolmo系列字节级语言模型,这些模型基于其开源的Olmo 3进行构建,标志着在模型结构和效率方面的创新。整个社区对本周开源AI的进展充满期待,预示着更多重磅发布。 \n\n NVIDIA 发布Nemotron 3开放模型家族,性能超越现有竞品-clem 🤗 \n\n NVIDIA宣布推出Nemotron 3系列开放模型、数据和库。 …
阅读更多以下是过去一段时间全球AI领域的重要动态汇总: OpenAI 将发布新款 ChatGPT 模型 Garlic 及 GPTs 商店 小互爆料称,OpenAI 的新款 ChatGPT 模型 Garlic 已“烹饪完毕”,预计将于今晚(UTC+8 时间为2025-12-11 00:00:00)发布。此次更新备受期待,可能包括最新的图像视觉模型、语音模型以及全新的 GPTs 商店。如果消息属实,这将标志着 ChatGPT 在多模态能力和应用生态方面迎来重大升级,有望进一步拓展其应用场景和用户体验。 Adobe 产品集成 ChatGPT,实现 AI 驱动创作 Adobe 宣布其核心创意和生产力工具,如 Photoshop、Adobe …
阅读更多