以下是过去4小时全球AI领域的精选新闻: “运气表面积”理论再解读与YC CEO转发印证 宝玉分享并深入解读了“运气表面积”(Luck Surface Area)理论,该理论由Jason Roberts提出,并经Aaron Francis进一步阐释。该观点认为,一个人的好运并非纯粹随机,而是由其“做事”(Doing)和“告诉别人”(Telling)的乘积决定。文章强调,尤其在技术领域,许多人缺乏的不是做事的深度,而是有效传播自己成果的能力。YC CEO Garry Tan的转发,进一步验证了这一理论在现实中的应用价值,鼓励人们积极分享,以扩大自己的“运气表面积”。 DeepMind纪录片《The Thinking …
阅读更多AI 行业与开发者趋势 Andrej Karpathy 对编程职业“剧烈重构”的焦虑与AI Native时代的新组织形态 前特斯拉AI总监Andrej Karpathy发文表达了作为程序员的强烈“落伍感”,指出编程职业正经历剧烈重构,程序员贡献的代码变得稀疏。他认为若能整合过去一年涌现的AI工具,个人生产力可提升10倍,未抓住此红利是“能力问题”。他强调,开发者需掌握由智能体、提示词、工作流等构成的新抽象层,适应与随机、易错AI实体交互的新心智模型,如同面对无手册的外星工具。Orange AI的文章进一步印证,指出AI Native公司代表新时代组织,并引用Notion CEO Ivan Zhao的观点,认为AI作为“无限心智”正 …
阅读更多Andrej Karpathy 2025年LLM年度回顾:RLVR、AI智能体、Vibe Coding和LLM GUI成亮点-宝玉 OpenAI联合创始人兼前特斯拉AI总监Andrej Karpathy发布了2025年LLM年度回顾,指出四大变化:训练方法的范式升级,引入“可验证奖励的强化学习”(RLVR),模型通过自我练习在数学、代码等领域提升推理能力,导致算力分配更多转向强化学习;其次,对AI智能本质的理解加深,其“参差不齐的智能”表现为在可验证领域能力飙升,但在常识、创意方面仍存不足,并对基准测试的信任度降低;第三,LLM应用层浮出水面,如Cursor,展示了垂直领域应用通过上下文工程、多模型编排和专业界面实现价值;第 …
阅读更多Allen AI 发布视频推理智能体系统-merve Allen AI 近期发布了一款用于视频推理的智能体系统,同时还提供了模型、针对不同训练阶段的数据集以及基准测试集。这一发布将推动视频内容理解和智能决策领域的发展,为研究人员和开发者提供了强大的新工具和资源。 Andrew Ng 剖析LLMs:通用性强但非通向AGI的捷径-Andrew Ng 吴恩达指出,尽管大型语言模型 (LLMs) 表现惊人且具有通用性,但它们并非在短短几年内就能通向通用人工智能 (AGI) 的路径。LLMs 知识的提升是一个碎片化过程,需要通过耗时的数据获取、清洗、去重、复述等数据工程工作,或通过构建大量强化学习模拟环境来反复训练模型。人类在面对较少数据和 …
阅读更多以下是过去一段时间全球AI领域的动态汇总: Google发布革命性Gemini 3 Flash模型,性能超越Pro版 Google重磅发布了其Gemini 3 Flash模型,该模型以“Pro级智能 × Flash级速度”为核心亮点,具备博士级逻辑与推理能力。在MMMU-Pro多模态理解基准测试中,Gemini 3 Flash表现惊人,甚至超越了Gemini 3 Pro。它相较于Gemini 2.5 Pro速度提升了3倍,成本仅为其零头,并且在完成同等任务时平均使用30%更少的tokens。该模型能根据问题复杂度“自己调节思考时间”,适用于实时交互式应用、快速编码与分析任务、高并发API请求及低延迟多模态AI应用,现已成 …
阅读更多过去4小时全球AI要闻回顾 Google 发布 Gemini 3 Flash 模型:Pro级智能,Flash级速度 Google 正式发布了 Gemini 3 Flash 模型,旨在以更快的速度提供前沿智能。该模型在保持Pro级别智能的同时,速度比 Gemini 2.5 Pro 快3倍,且成本更低。它具备根据问题复杂度**“自我调节思考时间”**的能力,简化问题秒答,复杂任务则会进行更深入的思考。在多模态理解基准测试(如 MMMU-Pro、swe-bench verified 和 arc-agi-2)中,Gemini 3 Flash 的表现甚至超越了 Gemini 3 Pro,并且完成同等任务时平均可节省 30% 的 tokens。 …
阅读更多过去4小时全球AI要闻回顾 谷歌发布突破性Gemini 3 Flash模型,性能超越Pro版 谷歌正式发布了其创新的 Gemini 3 Flash 模型,并将其设为Gemini App和搜索AI模式的默认模型。该模型实现了Pro级智能与Flash级速度的结合,在几乎所有基准测试中均超越了Gemini 2.5 Pro,并提供了三倍的速度提升和显著的成本降低。Gemini 3 Flash具备博士级逻辑与推理能力,可根据问题复杂度动态调整思考时间,并且在完成同等任务时平均使用30%更少的Token。令人瞩目的是,它在MMMU-Pro多模态理解、SWE-bench verified和ARC-AGI-2等基准测试中甚至超越了更强大 …
阅读更多BEHAVIOR 挑战赛揭示机器人学习与具身AI快速进展-Fei-Fei Li 斯坦福大学李飞飞教授宣布首届 BEHAVIOR 挑战赛结果出炉,展示了机器人学习和具身 AI 研究的显著进步。此次挑战赛聚焦于机器人完成 50 项复杂家庭任务的能力。Robot Learning Collective 荣获冠军,Comet 和 SimpleAI Robot 分别获得亚军和季军。本次挑战赛由 SimovationInc、Nvidia、IMDAsg、StanfordHAI 和 SchmidtFutures 赞助,BEHAVIOR 平台基于 Nvidia Omniverse 构建,其 NeurIPS 研讨会也已举行,旨在展示获奖团队的解决方 …
阅读更多Google DeepMind Gemini 3 Deep Think 预测2026年AI行业趋势 - 歸藏(guizang.ai) 谷歌近日发布了其最强大的模式Gemini 3驱动的Deep Think,并利用其分析了2026年AI行业的发展趋势。预测指出,推理成本将大幅降低,达到“白菜价”,导致云厂商的商业模式从“按Token收费”转变为“按任务结果收费”,企业将为成功解决问题付费。此外,AI基础设施将重构以支持“长程记忆”服务,推理平台将全面支持有状态架构,允许AI Agent在云端保持数小时甚至数天的“工作记忆”和上下文环境,无需每次重复上传数据,这将显著提升AI应用的实用性。 宝玉分享Gemini与Nano Banana …
阅读更多以下是过去一段时间全球AI领域的重要动态汇总: ChatGPT发布三周年,业界展望AI未来三年 - Emad ChatGPT于三年前的今天发布,这一里程碑事件彻底改变了世界,开创了生成式AI的新范式。Emad和Orange AI等业界人士纷纷回顾了其对AI领域及个人生活的深远影响,并展望了未来三年的巨大潜力。他们强调,无论是已经深耕AI三年,还是刚刚开始拥抱AI,现在都是投身这一领域的绝佳时机。 DeepSeek-V3.2模型发布,性能表现“极其强大” - mervenoyann DeepSeek-V3.2模型已正式发布,并引起了社区的广泛关注。多位评论者对其性能给予了高度评价,称其“极其强大”。此次更新预示着DeepSeek在AI …
阅读更多