Large Language Models

2025.12.30.00 过去4小时全球AI发生了什么？
Dec 30, 2025 · 1 分钟阅读 ·
分享到:
Novita Labs Hugging Face平台月请求量突破1000万-clem 🤗 Hugging Face首席执行官Clement Delangue宣布，Novita Labs作为推理服务提供商，在Hugging Face平台上的月请求量已成功突破1000万次。这一里程碑事件彰显了Novita Labs在AI生态系统中的日益增长的贡献，及其在AI模型推理服务方面的强大能力和广泛应用。开源AI模型被誉为GPT和Claude的有力竞争者-clem 🤗 Clement Delangue转发的一条推文表达了对某些开源模型的高度评价，认为它们是“开源领域的GPT和Claude”，并指出它们理应占据前两名的位置。这反映了开源AI解决 …

阅读更多
2025.12.23.16 过去24小时全球AI发生了什么？
Dec 23, 2025 · 1 分钟阅读 ·
分享到:
以下是过去24小时全球AI领域的精选动态： GLM 4.7 模型发布：性能大幅提升且极具性价比 - mervenoyann & 小互 & clem 🤗 & Ben Tossell GLM 4.7 模型正式发布，标志着开放前沿模型取得了巨大进步。该模型在编码、复杂推理和工具使用方面显著超越了DeepSeek V3.2，并在多项任务中表现优于部分闭源模型。GLM 4.7已在Hugging Face Transformers和推理提供商上同步上线，并提供BF16和FP8检查点下载。对于GLM Coding Plan用户，将自动升级至GLM-4.7。相较于Claude Code模型，GLM 4.7的成本仅为其1/7，使用配额为其3倍，同时编 …

阅读更多
2025.12.20.04 过去4小时全球AI发生了什么？
Dec 20, 2025 · 2 分钟阅读 ·
分享到:
Allen AI 发布视频推理智能体系统-merve Allen AI 近期发布了一款用于视频推理的智能体系统，同时还提供了模型、针对不同训练阶段的数据集以及基准测试集。这一发布将推动视频内容理解和智能决策领域的发展，为研究人员和开发者提供了强大的新工具和资源。 Andrew Ng 剖析LLMs：通用性强但非通向AGI的捷径-Andrew Ng 吴恩达指出，尽管大型语言模型 (LLMs) 表现惊人且具有通用性，但它们并非在短短几年内就能通向通用人工智能 (AGI) 的路径。LLMs 知识的提升是一个碎片化过程，需要通过耗时的数据获取、清洗、去重、复述等数据工程工作，或通过构建大量强化学习模拟环境来反复训练模型。人类在面对较少数据和 …

阅读更多
2025.12.19.00 过去4小时全球AI发生了什么？
Dec 19, 2025 · 1 分钟阅读 ·
分享到:
以下是过去一段时间全球AI领域的动态汇总： Google发布革命性Gemini 3 Flash模型，性能超越Pro版 Google重磅发布了其Gemini 3 Flash模型，该模型以“Pro级智能 × Flash级速度”为核心亮点，具备博士级逻辑与推理能力。在MMMU-Pro多模态理解基准测试中，Gemini 3 Flash表现惊人，甚至超越了Gemini 3 Pro。它相较于Gemini 2.5 Pro速度提升了3倍，成本仅为其零头，并且在完成同等任务时平均使用30%更少的tokens。该模型能根据问题复杂度“自己调节思考时间”，适用于实时交互式应用、快速编码与分析任务、高并发API请求及低延迟多模态AI应用，现已成 …

阅读更多
2025.12.18.20 过去4小时全球AI发生了什么？
Dec 18, 2025 · 1 分钟阅读 ·
分享到:
过去4小时全球AI要闻回顾 Google 发布 Gemini 3 Flash 模型：Pro级智能，Flash级速度 Google 正式发布了 Gemini 3 Flash 模型，旨在以更快的速度提供前沿智能。该模型在保持Pro级别智能的同时，速度比 Gemini 2.5 Pro 快3倍，且成本更低。它具备根据问题复杂度**“自我调节思考时间”**的能力，简化问题秒答，复杂任务则会进行更深入的思考。在多模态理解基准测试（如 MMMU-Pro、swe-bench verified 和 arc-agi-2）中，Gemini 3 Flash 的表现甚至超越了 Gemini 3 Pro，并且完成同等任务时平均可节省 30% 的 tokens。 …

阅读更多
2025.11.28.16 过去4小时全球AI发生了什么？
Nov 28, 2025 · 1 分钟阅读 ·
分享到:
以下是过去4小时全球AI领域的最新动态： DeepSeek开源数学推理大模型DeepSeek-Math-V2，超越GPT-5与Gemini获IMO金牌水平-小互 DeepSeek发布并开源了其数学推理大模型DeepSeek-Math-V2，该模型在国际数学奥林匹克（IMO）竞赛中展现出金牌水平，成功解出6题中的5题，并在中国数学奥林匹克（CMO）及普特南（Putnam）大学数学竞赛中表现出色。DeepSeek-Math-V2的核心创新在于其“生成 + 验证 + 复审”的自我验证系统，能自动生成数学证明、自行检查逻辑严谨性并修正错误。在五大数学领域，它全面超越了GPT-5-Thinking和Gemini 2.5 Pro，以高准确率、严 …

阅读更多
2025.11.13.16 过去4小时全球AI发生了什么？
Nov 13, 2025 · 1 分钟阅读 ·
分享到:
Surge AI测试揭示AI客服智能体能力金字塔及局限性 - 宝玉 Surge AI进行了一项测试，雇佣包括 GPT-5 和 Claude Sonnet 4.5 在内的9个AI模型，在一个模拟电脑配件公司处理150个真实客服任务。结果显示，即使是表现最好的模型，仍有超过40%的任务失败。测试提出了“Agent能力金字塔”框架，将智能体能力分为基本功、适应性、抓地力（避免幻觉）和常识推理。当前AI智能体在前三层表现尚可，但在常识推理层面仍有显著不足，例如无法将“包裹到达几小时”与“退货”关联，或采取低效的穷举搜索方式，以及误解用户意图。这表明2025年作为“Agent元年”的意义在于能测试AI在常识层面的笨拙，而非已拥有通用的工作 …

阅读更多
2025.11.13.08 过去4小时全球AI发生了什么？
Nov 13, 2025 · 1 分钟阅读 ·
分享到:
过去4小时全球AI动态摘要以下是过去4小时内全球AI领域值得关注的动态：李飞飞团队的世界模型 Marble 上线了-Orange AI 知名AI科学家李飞飞团队发布了其“世界模型”Marble。该模型能够通过一张图片“解锁一个小宇宙”，被认为特别适合VR设备。尽管其运行对GPU性能要求较高，可能导致设备发热，但其创新性和潜力被推文作者高度评价，甚至建议苹果公司考虑收购该团队。这标志着在创建能够理解和模拟复杂环境的AI模型方面取得了进展。 GPT-5.1 来了-宝玉 OpenAI发布了GPT-5.1，此次更新并非智能上的重大飞跃，而是着重于提升其对话体验和用户可定制性。GPT-5.1引入了Instant（日常快速） …

阅读更多
2025.11.04.00 过去4小时全球AI发生了什么？
Nov 4, 2025 · 1 分钟阅读 ·
分享到:
以下是过去4小时全球AI领域的最新动态：阿里发布最强模型Qwen 3-MAX推理版，基准测试表现出色 - 歸藏(guizang.ai) 阿里巴巴近日发布了其最强模型 Qwen 3-MAX 的推理版本。该模型在包括 AIME 2025 和 HMMT 在内的挑战性推理基准测试中取得了 100% 的得分，展现了卓越的推理能力。此外，Qwen 3 Max 的“Thinking”版本也进行了更新，在测试中显示出更像 Claude 的对话风格，并且能够就阅读习惯等非宇宙或科技主题展开讨论，表明其在更广泛的领域具备出色的对话和理解能力。深度分析：AI为何疯狂使用破折号？—— 19世纪旧书的“语法DNA” - 向阳乔木一篇深入分析探讨了大 …

阅读更多
2025.10.21.00 过去4小时全球AI发生了什么？
Oct 21, 2025 · 1 分钟阅读 ·
分享到:
AI模型真实加密货币交易表现揭示：DeepSeek稳健领先，GPT-5与Gemini表现不佳-歸藏(guizang.ai) 一项N of 1项目通过让六个顶级AI模型（DeepSeek Chat V3.1、Grok 4、Claude Sonnet 4.5、Qwen3 Max、GPT-5、Gemini 2.5 Pro）在真实加密货币市场进行自主交易，每个模型初始资金1万美元，揭示了它们在不确定性下的决策风格和交易能力。结果显示，DeepSeek Chat V3.1以+37.29%的收益率领跑，Grok 4紧随其后。DeepSeek采用数据驱动的技术派策略，保持稳健现金储备；Grok则通过分散投资降低风险。Qwen3 Max以20倍杠 …

阅读更多
- 1
- 2