AI 行业与开发者趋势 Andrej Karpathy 对编程职业“剧烈重构”的焦虑与AI Native时代的新组织形态 前特斯拉AI总监Andrej Karpathy发文表达了作为程序员的强烈“落伍感”,指出编程职业正经历剧烈重构,程序员贡献的代码变得稀疏。他认为若能整合过去一年涌现的AI工具,个人生产力可提升10倍,未抓住此红利是“能力问题”。他强调,开发者需掌握由智能体、提示词、工作流等构成的新抽象层,适应与随机、易错AI实体交互的新心智模型,如同面对无手册的外星工具。Orange AI的文章进一步印证,指出AI Native公司代表新时代组织,并引用Notion CEO Ivan Zhao的观点,认为AI作为“无限心智”正 …
阅读更多过去4小时全球AI要闻回顾 谷歌发布突破性Gemini 3 Flash模型,性能超越Pro版 谷歌正式发布了其创新的 Gemini 3 Flash 模型,并将其设为Gemini App和搜索AI模式的默认模型。该模型实现了Pro级智能与Flash级速度的结合,在几乎所有基准测试中均超越了Gemini 2.5 Pro,并提供了三倍的速度提升和显著的成本降低。Gemini 3 Flash具备博士级逻辑与推理能力,可根据问题复杂度动态调整思考时间,并且在完成同等任务时平均使用30%更少的Token。令人瞩目的是,它在MMMU-Pro多模态理解、SWE-bench verified和ARC-AGI-2等基准测试中甚至超越了更强大 …
阅读更多以下是过去一段时间全球AI领域的重要动态: Google 发布新开源AI模型,包括Gemma 4和Allen AI的Bolmo-clem 🤗 \n\n Google及其合作伙伴持续推进开源AI生态。Google DeepMind即将推出新一代开源模型Gemma 4,备受期待。同时,Allen AI也发布了Bolmo系列字节级语言模型,这些模型基于其开源的Olmo 3进行构建,标志着在模型结构和效率方面的创新。整个社区对本周开源AI的进展充满期待,预示着更多重磅发布。 \n\n NVIDIA 发布Nemotron 3开放模型家族,性能超越现有竞品-clem 🤗 \n\n NVIDIA宣布推出Nemotron 3系列开放模型、数据和库。 …
阅读更多知名教授对生成式AI估值过高发出警告 - Gary Marcus 纽约大学心理学和神经科学荣誉教授Gary Marcus向德国之声表示,除了英伟达(作为淘金热中的“卖铲人”)之外,大多数生成式AI公司都存在严重的估值过高和过度炒作问题。他预测,这些公司可能会在短期内“崩盘”,因为其技术和经济基本面都“毫无意义”。这一观点对当前生成式AI领域的狂热投下了一丝冷静的阴影,强调了行业内存在的泡沫风险。 教皇方济各谈技术创新的伦理与精神维度 - Pontifex via Gary Marcus & Clement Delangue 教皇方济各(Pontifex)通过Gary Marcus和Clement Delangue的转发指出,技术创 …
阅读更多以下是过去4小时全球AI领域的最新动态: 阿里发布最强模型Qwen 3-MAX推理版,基准测试表现出色 - 歸藏(guizang.ai) 阿里巴巴近日发布了其最强模型 Qwen 3-MAX 的推理版本。该模型在包括 AIME 2025 和 HMMT 在内的挑战性推理基准测试中取得了 100% 的得分,展现了卓越的推理能力。此外,Qwen 3 Max 的“Thinking”版本也进行了更新,在测试中显示出更像 Claude 的对话风格,并且能够就阅读习惯等非宇宙或科技主题展开讨论,表明其在更广泛的领域具备出色的对话和理解能力。 深度分析:AI为何疯狂使用破折号?—— 19世纪旧书的“语法DNA” - 向阳乔木 一篇深入分析探讨了大 …
阅读更多以下是过去4小时内全球AI领域的重要动态: OpenAI发布开源安全推理模型gpt-oss-safeguard - clem 🤗 OpenAI已发布gpt-oss-safeguard,这是一个处于研究预览阶段的开源安全推理模型,旨在用于内容分类和审核。该模型提供120B和20B两个版本,其核心特点是采用推理而非记忆的方式,能够直接读取并遵循开发者自定义的安全政策进行判断。这意味着开发者无需重新训练模型即可修改政策,模型能够输出其推理过程,且不同产品和场景可以灵活定制政策。性能评估显示,gpt-oss-safeguard在同时执行多项政策时,准确率优于GPT-5-thinking及其他gpt-oss模型,标志着内容安全从“被动学习规 …
阅读更多Anthropic发布Claude Sonnet 4.5,编程能力和智能体特性显著提升-宝玉 Anthropic最新推出的Claude Sonnet 4.5模型在编程能力和智能体任务处理方面实现了重大突破。第三方评测显示,Sonnet 4.5速度比Opus 4.1快至少50%,且具备更强的可控性、超长上下文处理能力以及更高的稳定性。它在SWE-bench基准测试中刷新了业界最高水平,并引入了全新的记忆工具(Beta版)API。此外,Sonnet 4.5在自主运行时间上可超过30小时,且在OSWorld计算机使用基准测试中表现出色,沟通风格也更为精炼自然。 Reachy Mini机器人集成OpenAI GPT-4o,实现多模态交互新 …
阅读更多以下是过去4小时全球AI领域的重要动态: 新基准评估LLM在44个职业中的表现 - merve 一项新的基准测试对大型语言模型(LLM)在9个行业部门的44个不同职业中的能力进行了评估,结果显示LLM距离实现全面胜任还有很长的路要走。这项全面的评估旨在衡量AI在现实世界工作场景中的实用性,揭示了当前模型在复杂任务和专业知识方面仍存在的显著不足。 特斯拉擎天柱机器人展望:2040年每家一台 - Peter H. Diamandis, MD Peter Diamandis预测,到2040年,每个家庭都将拥有一个机器人,特斯拉的目标是每年生产一百万台擎天柱(Optimus)机器人。他预计每台擎天柱的成本约为3万美元,这意味着用户每天只需支 …
阅读更多OpenAI 公布青少年用户安全、自由与隐私原则-Sam Altman Sam Altman 详细阐述了 OpenAI 在处理青少年用户安全、自由和隐私方面的原则。公司将青少年安全置于优先地位,为此将引入年龄预测系统并可能要求身份验证。对于未成年用户,ChatGPT 将被限制进行调情对话或讨论自杀/自残内容,并在紧急情况下联系家长或当局。对于成年用户,OpenAI 致力于在确保安全的前提下提供最大程度的自由。同时,公司承诺保护所有用户的数据隐私,即使是内部员工也无法访问,但对危及生命、伤害他人或重大网络安全事件等关键风险存在例外。 Google DeepMind 细致调优 Gemini,提升长对话可靠性-clem 🤗 Google …
阅读更多文心开源ERNIE-4.5-21B-A3B-Thinking模型登顶HuggingFace趋势榜-向阳乔木 百度文心团队新开源的 ERNIE-4.5-21B-A3B-Thinking 模型在HuggingFace全球模型总趋势榜上取得了第一名。这款模型是一款轻量级的MoE(Mixture-of-Experts)模型,总参数量为21B,但激活参数仅3B,具备128K的上下文窗口,专为提升推理能力而设计。该模型基于百度自研的飞桨深度学习框架构建,而非主流的PyTorch。HuggingFace的CEO Clem也转发推荐了此模型。分析指出,其强大的推理和工具调用能力对于开发Agent产品具有重要意义,有助于打破现有市场垄断。
阅读更多