以下是过去4小时全球AI领域的关键动态: Novita Labs在Hugging Face上突破千万月请求量-clem 🤗 AI推理服务提供商Novita Labs在Hugging Face平台取得了显著成就,月请求量突破了1000万次。这一里程碑不仅彰显了Novita Labs在AI推理领域的强大实力,也反映了当前AI服务市场对高效、可靠推理解决方案的旺盛需求。 Spotify推出全新音乐混音功能-merve Spotify似乎已上线一项新的音乐混音功能,旨在帮助用户轻松创建简单的音乐混音。此举被视为降低音乐创作门槛的重要一步,使更多用户能够体验和探索音乐制作的乐趣,提升平台的互动性和用户粘性。 吴恩达分享AI技能发展三大策 …
阅读更多以下是过去一段时间全球AI领域的重要动态: 阿里巴巴Qwen-Image-Layered发布,支持图片分层 阿里巴巴的Qwen-Image-Layered现已正式上线,提供Photoshop级别的原生图片分解能力,并已完全开源。这项强大的图片分层功能预计将催生众多应用场景,显著推动视觉内容创作和处理领域的发展,使得高级图像编辑功能更加普惠并融入AI工作流。 Andrej Karpathy发布2025年LLM年度回顾 OpenAI联合创始人Andrej Karpathy发布了其2025年大型语言模型(LLM)年度回顾,总结了六大关键变革。其中包括:**RLVR(可验证奖励的强化学习)成为新的训练范式,促进LLM自发习得推理策略;AI智 …
阅读更多以下是过去一段时间全球AI领域的动态摘要: Andrej Karpathy 分享了他 2025 年的总结 - 歸藏(guizang.ai) Andrej Karpathy对2025年的AI发展进行了总结,主要涵盖六个方面:RLVR(可验证环境中的强化学习)成为继预训练和微调之后的新训练阶段,推动LLM习得推理策略并吞噬预训练算力。LLM展现出"锯齿状智能",即在可验证领域能力突出但在通用性上参差不齐,导致基准测试失效。Cursor揭示了LLM应用新形态,通过编排多个LLM调用进行上下文工程。Claude Code作为首个成功本地运行的LLM Agent,预示着AI从网站向“生活在电脑上”的精灵转变。Vibe coding将使编程大众 …
阅读更多AI智能体与上下文压缩新进展 - Ben Tossell FactoryAI的研究表明,解决长时间运行的AI智能体的关键在于上下文压缩技术。这项研究评估了多种压缩和紧缩策略,旨在优化AI智能体处理和保留长期对话信息的能力。有效的上下文压缩对于构建更强大、更可靠的AI助手至关重要,它能帮助智能体在复杂的任务中维持连贯性和效率,避免信息过载或遗失关键上下文。 阿里巴巴发布Qwen-Image-Layered图像分解模型 - merve 阿里巴巴Qwen团队正式发布了Qwen-Image-Layered,一款完全开源的原生图像分解模型。该模型能够实现Photoshop级别的图像分层功能,为图片处理带来了革命性的新可能。此项技术具有广泛的 …
阅读更多Sam Altman宣布GPT-5.2-Codex发布,并探讨AI在网络安全中的作用 OpenAI首席执行官Sam Altman宣布推出 GPT-5.2-Codex,该模型专门针对智能体编码和终端使用进行了训练,并已在OpenAI内部取得巨大成功。Altman还提到,上周有安全研究人员利用其前代模型发现并披露了React的一个漏洞,但他坚信随着模型不断改进,AI将对网络安全产生净积极影响。OpenAI正开始探索针对防御性网络安全工作的信任访问计划,并正在为Codex团队招聘,以加速其发展。 Simon Willison利用GPT-5.2将Python库转换为JavaScript Django框架联合创始人Simon …
阅读更多OpenAI发布GPT-5.2-Codex,编程代理能力显著提升 OpenAI首席执行官Sam Altman宣布,专门针对代理编程和终端使用训练的GPT-5.2-Codex正式发布,并已在OpenAI内部取得巨大成功。Django框架联合创始人Simon Willison的一个案例展示了其强大能力:他仅用8条提示词,就将一个Python库JustHTML成功移植为纯JavaScript库,通过9200多个html5lib-tests用例,最终生成约9000行代码,历经43次提交。这一成功案例突显了AI代理在语言翻译、拥有完整测试集、架构已设计好以及由高手操作等“舒适区”的巨大潜力。Simon将此过程称为“设计智能体闭环”,通 …
阅读更多Google发布Gemini 3 Flash模型:性能超越Pro版,速度与效率显著提升-小互 Google正式发布了Gemini 3 Flash模型,该模型在保持Pro级智能的同时,实现了Flash级速度,性能超越了Gemini 2.5 Pro并达到3倍速度,而成本仅为Pro版的零头。新模型具备博士级逻辑与推理能力,能在处理复杂任务时“自我调节思考时间”,平均可减少30%的token使用量。Gemini 3 Flash在MMMU-Pro多模态理解基准测试以及SWE-bench verified和ARC-AGI-2等测试集中甚至超越了Gemini 3 Pro。该模型现已作为Gemini App和AI Mode in Search的默 …
阅读更多Google发布Gemini 3 Flash模型,性能超越Pro版且速度更快-小互 Google正式发布了 Gemini 3 Flash 模型,其性能在MMMU-Pro、SWE-Bench Verified和Arc-AGI-2等多模态理解基准测试中超越了Gemini 3 Pro,同时速度提升三倍,成本大幅降低。该模型具备博士级逻辑与推理能力,能根据问题复杂度动态调节思考时间,并平均减少30%的tokens使用。Gemini 3 Flash现已成为Gemini App和AI Mode in Search的默认模型,适用于实时交互式应用、快速编码、高并发API请求及低延迟多模态AI场景。 xAI Grok语音代理迅速移植到Reachy …
阅读更多OpenAI Images 1.5 及 GPT-5.2 Pro 发布,图像生成与知识工作自动化能力大幅提升-Sam Altman OpenAI 正式发布了 Images 1.5 模型,现已在 ChatGPT 和 API 中推出。该模型提供了显著优化的图像生成能力,不仅速度更快,还新增了强大的编辑功能。同时,有消息指出 GPT-5.2 Pro 带来了重要的范式转变,能够自动化高达 71%的知识工作,大幅提升企业生产力5-10倍,并可能引发历史性的企业结构变革。AI智能成本在三年内下降近1000倍,使得创新前所未有的便捷。 Google创始人谢尔盖·布林斯坦福大学演讲:回顾Google历史,展望AI未来与教育-向阳乔木 Google …
阅读更多NVIDIA发布Nemotron 3系列开源模型,性能与效率均实现突破 - nvidianewsroom NVIDIA推出了全新的Nemotron 3系列开放模型、数据和库,旨在提供透明高效的AI解决方案。该系列首款模型Nemotron 3 Nano (30B-3A) 是一款混合SSM模型,具备100万上下文长度,专为智能体应用设计。该模型在多个基准测试中表现领先,并实现了2.2至3.3倍的速度提升,超越了GPT-OSS和Qwen3-30B。此次发布还包含了训练数据集、强化学习环境及训练代码,并支持商业用途,预示着未来还将推出Super和Ultra版本。 IBM推出开源企业级智能体CUGA,赋能任务自动化 - merve IBM发 …
阅读更多