以下是过去24小时全球AI领域的精选动态: GLM 4.7 模型发布:性能大幅提升且极具性价比 - mervenoyann & 小互 & clem 🤗 & Ben Tossell GLM 4.7 模型正式发布,标志着开放前沿模型取得了巨大进步。该模型在编码、复杂推理和工具使用方面显著超越了DeepSeek V3.2,并在多项任务中表现优于部分闭源模型。GLM 4.7已在Hugging Face Transformers和推理提供商上同步上线,并提供BF16和FP8检查点下载。对于GLM Coding Plan用户,将自动升级至GLM-4.7。相较于Claude Code模型,GLM 4.7的成本仅为其1/7,使用配额为其3倍,同时编 …
阅读更多Allen AI 发布视频推理智能体系统-merve Allen AI 近期发布了一款用于视频推理的智能体系统,同时还提供了模型、针对不同训练阶段的数据集以及基准测试集。这一发布将推动视频内容理解和智能决策领域的发展,为研究人员和开发者提供了强大的新工具和资源。 Andrew Ng 剖析LLMs:通用性强但非通向AGI的捷径-Andrew Ng 吴恩达指出,尽管大型语言模型 (LLMs) 表现惊人且具有通用性,但它们并非在短短几年内就能通向通用人工智能 (AGI) 的路径。LLMs 知识的提升是一个碎片化过程,需要通过耗时的数据获取、清洗、去重、复述等数据工程工作,或通过构建大量强化学习模拟环境来反复训练模型。人类在面对较少数据和 …
阅读更多以下是过去一段时间全球AI领域的动态汇总: Google发布革命性Gemini 3 Flash模型,性能超越Pro版 Google重磅发布了其Gemini 3 Flash模型,该模型以“Pro级智能 × Flash级速度”为核心亮点,具备博士级逻辑与推理能力。在MMMU-Pro多模态理解基准测试中,Gemini 3 Flash表现惊人,甚至超越了Gemini 3 Pro。它相较于Gemini 2.5 Pro速度提升了3倍,成本仅为其零头,并且在完成同等任务时平均使用30%更少的tokens。该模型能根据问题复杂度“自己调节思考时间”,适用于实时交互式应用、快速编码与分析任务、高并发API请求及低延迟多模态AI应用,现已成 …
阅读更多过去4小时全球AI要闻回顾 Google 发布 Gemini 3 Flash 模型:Pro级智能,Flash级速度 Google 正式发布了 Gemini 3 Flash 模型,旨在以更快的速度提供前沿智能。该模型在保持Pro级别智能的同时,速度比 Gemini 2.5 Pro 快3倍,且成本更低。它具备根据问题复杂度**“自我调节思考时间”**的能力,简化问题秒答,复杂任务则会进行更深入的思考。在多模态理解基准测试(如 MMMU-Pro、swe-bench verified 和 arc-agi-2)中,Gemini 3 Flash 的表现甚至超越了 Gemini 3 Pro,并且完成同等任务时平均可节省 30% 的 tokens。 …
阅读更多以下是过去4小时全球AI领域的最新动态: DeepSeek开源数学推理大模型DeepSeek-Math-V2,超越GPT-5与Gemini获IMO金牌水平-小互 DeepSeek发布并开源了其数学推理大模型DeepSeek-Math-V2,该模型在国际数学奥林匹克(IMO)竞赛中展现出金牌水平,成功解出6题中的5题,并在中国数学奥林匹克(CMO)及普特南(Putnam)大学数学竞赛中表现出色。DeepSeek-Math-V2的核心创新在于其“生成 + 验证 + 复审”的自我验证系统,能自动生成数学证明、自行检查逻辑严谨性并修正错误。在五大数学领域,它全面超越了GPT-5-Thinking和Gemini 2.5 Pro,以高准确率、严 …
阅读更多Surge AI测试揭示AI客服智能体能力金字塔及局限性 - 宝玉 Surge AI进行了一项测试,雇佣包括 GPT-5 和 Claude Sonnet 4.5 在内的9个AI模型,在一个模拟电脑配件公司处理150个真实客服任务。结果显示,即使是表现最好的模型,仍有超过40%的任务失败。测试提出了“Agent能力金字塔”框架,将智能体能力分为基本功、适应性、抓地力(避免幻觉)和常识推理。当前AI智能体在前三层表现尚可,但在常识推理层面仍有显著不足,例如无法将“包裹到达几小时”与“退货”关联,或采取低效的穷举搜索方式,以及误解用户意图。这表明2025年作为“Agent元年”的意义在于能测试AI在常识层面的笨拙,而非已拥有通用的工作 …
阅读更多过去4小时全球AI动态摘要 以下是过去4小时内全球AI领域值得关注的动态: 李飞飞团队的世界模型 Marble 上线了-Orange AI 知名AI科学家李飞飞团队发布了其“世界模型”Marble。该模型能够通过一张图片“解锁一个小宇宙”,被认为特别适合VR设备。尽管其运行对GPU性能要求较高,可能导致设备发热,但其创新性和潜力被推文作者高度评价,甚至建议苹果公司考虑收购该团队。这标志着在创建能够理解和模拟复杂环境的AI模型方面取得了进展。 GPT-5.1 来了-宝玉 OpenAI发布了GPT-5.1,此次更新并非智能上的重大飞跃,而是着重于提升其对话体验和用户可定制性。GPT-5.1引入了Instant(日常快速) …
阅读更多以下是过去4小时全球AI领域的最新动态: 阿里发布最强模型Qwen 3-MAX推理版,基准测试表现出色 - 歸藏(guizang.ai) 阿里巴巴近日发布了其最强模型 Qwen 3-MAX 的推理版本。该模型在包括 AIME 2025 和 HMMT 在内的挑战性推理基准测试中取得了 100% 的得分,展现了卓越的推理能力。此外,Qwen 3 Max 的“Thinking”版本也进行了更新,在测试中显示出更像 Claude 的对话风格,并且能够就阅读习惯等非宇宙或科技主题展开讨论,表明其在更广泛的领域具备出色的对话和理解能力。 深度分析:AI为何疯狂使用破折号?—— 19世纪旧书的“语法DNA” - 向阳乔木 一篇深入分析探讨了大 …
阅读更多AI模型真实加密货币交易表现揭示:DeepSeek稳健领先,GPT-5与Gemini表现不佳-歸藏(guizang.ai) 一项N of 1项目通过让六个顶级AI模型(DeepSeek Chat V3.1、Grok 4、Claude Sonnet 4.5、Qwen3 Max、GPT-5、Gemini 2.5 Pro)在真实加密货币市场进行自主交易,每个模型初始资金1万美元,揭示了它们在不确定性下的决策风格和交易能力。结果显示,DeepSeek Chat V3.1以+37.29%的收益率领跑,Grok 4紧随其后。DeepSeek采用数据驱动的技术派策略,保持稳健现金储备;Grok则通过分散投资降低风险。Qwen3 Max以20倍杠 …
阅读更多ChatGPT将放宽内容限制,支持个性化及成人内容-Sam Altman OpenAI首席执行官Sam Altman宣布,ChatGPT计划在未来几周内放宽内容限制,以提供更具人情味的个性化体验,使其更接近用户喜爱的4o版本。Altman表示,在成功缓解了严重的心理健康问题风险并开发出新工具后,公司认为可以安全地放松此前的严格限制。此外,到今年12月,随着年龄验证功能的全面上线,ChatGPT将对通过验证的成年用户进一步放宽限制,允许提供如情色内容(erotica)等。这一举措旨在“将成年用户视为成年人对待”,并满足用户对更具表达力、甚至使用表情包或朋友般交互方式的需求,前提是用户主动选择。 阿里云发布Qwen3-VL 4B和8B …
阅读更多