Qwen3-Omni:新的SOTA多模态模型发布 - merve Qwen团队近期发布了Qwen3-Omni,一款全新的、具备“任意到任意”能力的SOTA(State-of-the-Art)多模态模型,并同步推出了两个演示和三款模型变体。Qwen3-Omni是一个30B MoE模型,具有3B的活跃参数,包含指令(instruct)、思考(thinking,用于推理)和字幕生成(captioner,用于稳健语音生成)三种版本。该模型能够理解图像、文本、音频和视频等多种模态,并可输出文本或语音,支持多达119种文本语言、19种语音输入语言以及10种语音输出语言。它同时支持Transformers和vLLM,并在多项视频和音频基准测试中 …
阅读更多Kimi 推出 Agent 会员服务,明确商业化路径-歸藏(guizang.ai) 中国AI助手Kimi近日正式上线了Agent会员服务,标志着其商业化进程的推进。服务分为多个等级,包括免费的Adagio(慢板)、中档的Andante(行板,49元/月)和Moderato(中速,99元/月)。Andante和Moderato等级提供更多的K2模型使用权限、深度研究额度及并发能力,并附赠等额API兑换券。海外市场还设有**Vivace(活泼,$199/月)**等级,享有高峰时段优先访问权。值得一提的是,Kimi对早期打赏用户提供了会员订阅时的全额返还或抵扣优惠,可直接转换成会员时长。尽管Agent功能付费,但Kimi的核心聊天服务依 …
阅读更多阿里开源Qwen3-Omni:首个本地运行的全模态理解LLM - 歸藏(guizang.ai) 阿里巴巴近日开源了Qwen3-Omni,这是首个可本地运行的端到端全模态理解大型语言模型。该模型能够处理文本、图像、音频和视频输入,并支持文本和音频的流式输出,同时提升了音频和视频理解能力,且未牺牲单模态文本和图像的处理性能。Qwen3-Omni 基于MoE的Thinker–Talker设计,采用AuT预训练以获得强泛化表示,并通过多码本设计降低延迟,实现了低延迟流式传输和自然的轮流对话。 AI编程智能体进入“拨号上网”时代,基础设施面临巨大压力 - 宝玉 文章指出,当前的AI编程智能体(如Claude Code)在使用体验上正变得如 …
阅读更多今日全球AI领域的核心焦点是算力基础设施的军备竞赛。英伟达与OpenAI的千亿美元合作计划,旨在构建前所未有的10GW级别AI数据中心,这不仅是资本的豪赌,更是将算力定义为未来经济核心的明确信号。与此同时,苹果正通过操作系统层面的整合(如MCP协议),意图成为AI能力的“调度中心”,掌控终端入口。在模型层面,GPT-5的评测细节揭示了顶尖模型在解决复杂任务时的真实瓶颈,而百度、DeepSeek等则在垂直应用和模型优化上持续发力,显示出AI技术从通用能力向产业落地纵深发展的清晰趋势。 英伟达与OpenAI达成千亿美元战略合作,共建10GW超级AI数据中心 英伟达和OpenAI宣布建立战略合作伙伴关系,计划利用数百万块英伟达GPU, …
阅读更多以下是过去4小时全球AI领域的重点新闻回顾: Meta Superintelligence Lab 开源 Meta Agents Research Environments (ARE) 平台-clem 🤗 Meta Superintelligence Lab已开源其 Meta Agents Research Environments (ARE) 平台。ARE旨在支持多模态大型语言模型(LLM)驱动的智能体研究,提供统一框架,用于开发、训练和评估能够通过观察、交互和学习来理解和导航复杂环境的具身智能体。此举有望降低研究门槛,加速AI智能体在各种模拟环境中的发展和应用,推动具身智能体技术的前沿突破。 IBM Granite …
阅读更多《通用智能体包含世界模型》论文提出AI智能体必须建立世界模型-宝玉 一篇新论文《通用智能体包含世界模型》通过严格数学证明,指出任何能有效完成复杂多步骤任务的智能体,都必然在内部学习并构建其所处世界的精确预测模型。这项研究挑战了长期以来“无模型”方法通向通用人工智能(AGI)的设想,表明AI智能体为了获得通用能力,会自发涌现出世界模型,而非必须显式编程。这一发现对AI的安全性和可解释性具有重大影响,意味着我们可以从强大的智能体行为中提取其隐藏的世界模型进行审查,为理解大语言模型(LLM)的“涌现能力”提供了理论解释,并可能统一AI研究领域。 阿里巴巴发布Qwen3-Omni,首个端到端全模态AI模型-clem 🤗 阿里巴巴重磅推 …
阅读更多DeepSeek V3.1 全新升级 → DeepSeek V3.1 Terminus 发布!-宝玉 DeepSeek 发布了 V3.1 Terminus 版本,这是 V3.1 的重要升级。新版本在语言流畅性上有了显著提升,有效减少了中英文混用和乱码问题。同时,**代码智能体(Code Agent)和搜索智能体(Search Agent)**的性能也得到了大幅加强,处理任务更加高效精准。经过多项权威基准测试,DeepSeek V3.1 Terminus 的输出更为稳定可靠。该模型支持App、网页和API,并且开源权重已在 Hugging Face 提供下载。 Anthropic 和 OpenAI 如何培养AI“同事”- …
阅读更多TRL 库推出前沿微调方法-merve TRL(Transformer Reinforcement Learning)库在今年夏天进行了大量更新,现在用户可以通过简洁的命令行接口尝试前沿的微调方法。这些新功能旨在简化复杂的模型训练流程,让开发者能够更容易地探索和实现最新的AI模型优化技术,并提供了入门教程和示例笔记,以帮助用户快速上手。 陪伴机器人LOVOT中国代理被曝涉嫌欺诈,用户租赁服务损失过万-orange.ai 一名用户在上海通过中国代理租赁日本陪伴机器人LOVOT 15天,支付2000元租金和1万元押金。机器人出现故障退还后,代理不仅拒绝退还押金,还以机器人被“拆解”并更换“非原厂零部件”为由,要求用户额外支付5929 …
阅读更多Open AI 又要开始新一波的发布了,Sam 开始打预防针-歸藏(guizang.ai) OpenAI 首席执行官 Sam Altman 正在为公司即将发布的新产品进行预热。据透露,这次发布的内容可能涉及高昂的使用成本,除了要求用户成为 Pro 会员外,可能还需要额外付费。目前来看,市场普遍猜测此次发布中相对确定的产品是 Sora 2。这预示着 OpenAI 在高级AI模型领域可能又有了重大进展,同时也暗示其未来产品将对用户访问和定价策略产生影响,重点在于高端技术的使用成本。 todays video models have really no understanding of context and are literally …
阅读更多Google Deep Researcher (TTD-DR):基于扩散模型的长篇报告生成框架-小互 Google 发布了一种新型的 Deep Researcher (TTD-DR) 框架,它是一个基于扩散模型的AI代理,旨在模拟人类研究员撰写报告的迭代过程。该框架借鉴了图片扩散模型的原理,将粗糙的初稿逐步“去噪”成高质量的研究报告。在长篇报告生成任务上,TTD-DR 的胜率达到了 74.5%,显著优于 OpenAI DR 的 50%。此外,它在 HLE-Search 和 GAIA 任务上的正确率也分别提升了 7.7% 和 1.7%,显示出在相同时间延迟下能生成更高质量结果的高效性。 AI对软件工程底层范式的影响:加速而非颠覆-宝 …
阅读更多