Andrej Karpathy 2025年LLM年度回顾:RLVR、AI智能体、Vibe Coding和LLM GUI成亮点-宝玉 OpenAI联合创始人兼前特斯拉AI总监Andrej Karpathy发布了2025年LLM年度回顾,指出四大变化:训练方法的范式升级,引入“可验证奖励的强化学习”(RLVR),模型通过自我练习在数学、代码等领域提升推理能力,导致算力分配更多转向强化学习;其次,对AI智能本质的理解加深,其“参差不齐的智能”表现为在可验证领域能力飙升,但在常识、创意方面仍存不足,并对基准测试的信任度降低;第三,LLM应用层浮出水面,如Cursor,展示了垂直领域应用通过上下文工程、多模型编排和专业界面实现价值;第 …
阅读更多以下是过去4小时全球AI领域的精选动态: FunctionGemma模型发布,主打函数调用功能 osanseviero和merve等用户转发宣布了FunctionGemma模型的推出。这款270M参数的模型专门为函数调用设计,具备在手机、浏览器及其他设备上运行的能力。它旨在高效执行特定功能,有望在边缘计算和轻量级AI应用中发挥关键作用,为开发者提供更灵活的AI集成方案。 Google Gemma 4即将发布?市场传闻不断 据kimmonismus和testingcatalog等账号转发的消息,有强烈迹象表明Google可能在今天发布其Gemma 4模型。这些猜测源于Google的Gemma模型家族集合最近进行了更新,引发了社区对新一 …
阅读更多以下是过去一段时间全球AI领域的重要动态: Google 发布新开源AI模型,包括Gemma 4和Allen AI的Bolmo-clem 🤗 \n\n Google及其合作伙伴持续推进开源AI生态。Google DeepMind即将推出新一代开源模型Gemma 4,备受期待。同时,Allen AI也发布了Bolmo系列字节级语言模型,这些模型基于其开源的Olmo 3进行构建,标志着在模型结构和效率方面的创新。整个社区对本周开源AI的进展充满期待,预示着更多重磅发布。 \n\n NVIDIA 发布Nemotron 3开放模型家族,性能超越现有竞品-clem 🤗 \n\n NVIDIA宣布推出Nemotron 3系列开放模型、数据和库。 …
阅读更多以下是过去一段时间全球AI领域的重要动态汇总: OpenAI 将发布新款 ChatGPT 模型 Garlic 及 GPTs 商店 小互爆料称,OpenAI 的新款 ChatGPT 模型 Garlic 已“烹饪完毕”,预计将于今晚(UTC+8 时间为2025-12-11 00:00:00)发布。此次更新备受期待,可能包括最新的图像视觉模型、语音模型以及全新的 GPTs 商店。如果消息属实,这将标志着 ChatGPT 在多模态能力和应用生态方面迎来重大升级,有望进一步拓展其应用场景和用户体验。 Adobe 产品集成 ChatGPT,实现 AI 驱动创作 Adobe 宣布其核心创意和生产力工具,如 Photoshop、Adobe …
阅读更多新编程语言获500万美元融资,登上HackerNews热榜-Ben Tossell Matija Sosic及其兄弟共同开发了一款全新的网络开发编程语言,该语言在HackerNews上迅速走红,并成功筹集了500万美元的资金。这一进展表明了AI在辅助甚至推动新编程工具和开发范式方面的潜力,吸引了业界的广泛关注和投资。 AI Prompt工程原则与Nano Banana Pro应用示例-宝玉 一位名为“宝玉”的AI开发者分享了其撰写Prompt的原则和方法,强调将Prompt设计为可自由发挥的模板,并充分结合模型(如Gemini)的搜索和理解能力。该策略首先使用AI跑通原型,再将其抽象为可扩展模板,让模型自动组合结构、适配场景。同 …
阅读更多以下是过去4小时全球AI领域的精选动态: Andrew Ng推出AI编程代理新课程 斯坦福大学教授Andrew Ng宣布推出全新课程“使用工具执行构建编码代理”(Building Coding Agents with Tool Execution),由E2B的Tereza Tizkova和Fra Zuppichini授课。该课程旨在教授学员如何构建能够编写和执行代码的AI代理,以完成复杂任务,突破传统AI代理仅限于预定义函数调用的限制。学员将学习在沙盒云环境中安全运行代理生成的代码,并创建能够利用Pandas进行数据分析或构建Next.js全栈应用的代理。 Mistral AI发布Ministral 3系列多模态模型 Mistral …
阅读更多以下是过去4小时全球AI领域的最新动态: DeepSeek开源数学推理大模型DeepSeek-Math-V2,超越GPT-5与Gemini获IMO金牌水平-小互 DeepSeek发布并开源了其数学推理大模型DeepSeek-Math-V2,该模型在国际数学奥林匹克(IMO)竞赛中展现出金牌水平,成功解出6题中的5题,并在中国数学奥林匹克(CMO)及普特南(Putnam)大学数学竞赛中表现出色。DeepSeek-Math-V2的核心创新在于其“生成 + 验证 + 复审”的自我验证系统,能自动生成数学证明、自行检查逻辑严谨性并修正错误。在五大数学领域,它全面超越了GPT-5-Thinking和Gemini 2.5 Pro,以高准确率、严 …
阅读更多FLUX.2模型发布:图像生成与编辑的新进展 - merve FLUX.2图像生成与编辑模型已正式发布。该模型采用单一文本编码器(Mistral Small 3.1)和DiT架构,并支持多种量化方案(QLoRA),旨在优化推理和训练,同时降低对高显存的需求。测试表明,FLUX.2在精准色值控制和2K分辨率下的一致性方面表现出色,部分超越Banana模型,但中文理解和多模态推理能力仍有提升空间。它还支持使用SAM3掩码进行图像和视频的点提示修补。 企业技能提升:AI与人类的结合 - Peter H. Diamandis, MD Peter H. Diamandis博士预测,在不久的将来,所有中小型和大型企业都需要引入“技能提升合作伙 …
阅读更多ListenHub 发布全新编辑模式,赋能 AI 播客和多人语音配音内容创作-Orange AI ListenHub 近期推出了全新的编辑模式,旨在简化 AI 生成音频内容的编辑流程,让用户像使用 Word 一样轻松编辑 AI 播客。此模式解决了此前 AI 生成语音内容难以修改的痛点,允许用户像导演选角一样为播客设定多个角色并指定声音,还能像作家一样灵活地插入或删除内容。此外,该功能也支持完全可控的多人语音配音,甚至可以用于制作多人有声书,致力于在 AI 功能和传统编辑器之间找到平衡,提供既简单又可控的创作体验。 AI Coding/Codex 实践技巧:利用 AI 自我日志调试-宝玉 分享了一项实用的 AI 编码/Codex 实 …
阅读更多以下是过去四小时全球AI领域的重要动态: DeepSeek-OCR:通过图像实现文本光学压缩,解决AI长上下文问题-宝玉 DeepSeek-AI实验室发布了一项名为DeepSeek-OCR的创新技术,通过将千字文本压缩成“图片”来显著提升AI处理长文本的能力。该模型能够以10:1的压缩比和97%的准确率重建原始文本,有效解决了AI面临的“长上下文”瓶颈。这种“光学压缩”方法不仅为AI提供了“无限”记忆的新途径,还可能模仿人类的遗忘机制,让AI更高效地处理信息,仅保留关键要点。宝玉分享了一个为Gemini 2.5 Pro模型设计的提示,用于处理该论文PDF并生成结果。 AI Dev 25 x NYC大会议程公布-Andrew Ng …
阅读更多