Qwen3-Omni:新的SOTA多模态模型发布 - merve Qwen团队近期发布了Qwen3-Omni,一款全新的、具备“任意到任意”能力的SOTA(State-of-the-Art)多模态模型,并同步推出了两个演示和三款模型变体。Qwen3-Omni是一个30B MoE模型,具有3B的活跃参数,包含指令(instruct)、思考(thinking,用于推理)和字幕生成(captioner,用于稳健语音生成)三种版本。该模型能够理解图像、文本、音频和视频等多种模态,并可输出文本或语音,支持多达119种文本语言、19种语音输入语言以及10种语音输出语言。它同时支持Transformers和vLLM,并在多项视频和音频基准测试中 …
阅读更多《通用智能体包含世界模型》论文提出AI智能体必须建立世界模型-宝玉 一篇新论文《通用智能体包含世界模型》通过严格数学证明,指出任何能有效完成复杂多步骤任务的智能体,都必然在内部学习并构建其所处世界的精确预测模型。这项研究挑战了长期以来“无模型”方法通向通用人工智能(AGI)的设想,表明AI智能体为了获得通用能力,会自发涌现出世界模型,而非必须显式编程。这一发现对AI的安全性和可解释性具有重大影响,意味着我们可以从强大的智能体行为中提取其隐藏的世界模型进行审查,为理解大语言模型(LLM)的“涌现能力”提供了理论解释,并可能统一AI研究领域。 阿里巴巴发布Qwen3-Omni,首个端到端全模态AI模型-clem 🤗 阿里巴巴重磅推 …
阅读更多OpenAI 针对 GPT-5 Thinking 模式新增了“思考时长”调节功能-宝玉 OpenAI为GPT-5的Thinking模式新增了“思考时长”调节功能,允许用户在速度和深入度之间进行选择,以适应不同需求。针对Plus、Pro、Business订阅用户,新增了Standard(标准,新默认模式,兼顾速度与深度)、Quick(更快,但思考不深)和Deep(更慢,但思考更深入)等选项。这一功能旨在提升用户对模型行为的控制力,优化使用体验。 “K-Dense”:多智能体AI科学家在衰老研究中取得新发现-Emad 一款名为“K-Dense”的多智能体AI科学家系统被公布,据称已在衰老研究领域取得了新的发现。这个AI科学家能够自主进 …
阅读更多Ling-mini-2.0:16B-A1B MoE LLM宣布开源-clem 🤗 Ling-mini-2.0,一个拥有 16B-A1B MoE(混合专家)架构的大型语言模型,已宣布开源。该模型经过 20万亿+ tokens 的训练,并结合了 SFT (监督微调)、RLVR (基于人类反馈的强化学习) 和 RLHF (人类反馈强化学习) 等多种训练方法。据称,其生成速度高达 300+ tokens/秒,比现有模型快 7倍。这一发布有望加速开源社区在MoE架构LLM领域的发展和应用。 ChatGPT与Claude记忆功能对比:两种截然不同的哲学-宝玉 宝玉详细分析了 ChatGPT 和 Claude 在记忆功能上的根本性差 …
阅读更多PaddleOCRv5 在 Hugging Face Hub 发布,性能卓越并支持40种语言-merve PaddleOCRv5 已在 Hugging Face Hub 上正式发布,并采用 Apache-2.0 许可证。该模型体积小巧,仅 70M,但其基准测试结果显示其性能令人印象深刻,超越了许多最新模型。PaddleOCRv5 支持 40种语言,并且具备极高的部署灵活性。作者还提供了一个包含所有检查点和演示的集合,方便开发者和用户进行测试和应用。 豆包Seedream 4.0 与 Gemini Nano Banana 图像模型深度对比-小互 用户“小互”分享了对豆包 Seedream 4.0 图像模型和 Gemini Nano …
阅读更多Google NotebookLM 发布 API,开发者可构建自用工具-向阳乔木 谷歌的AI协作工具NotebookLM现已开放API,用户可以利用其强大的笔记和文档处理能力,构建自定义的AI工具或集成到现有工作流中,这预示着NotebookLM功能将进一步扩展到更广泛的开发者生态系统。这一举措有望推动更多基于NotebookLM的应用场景和创新项目。 图像生成模型对决:字节跳动即梦4.0与Nano Banana性能深入对比-orange.ai Orange.ai对近期备受关注的图像生成模型Nano Banana和字节跳动推出的即梦4.0 (Seedream 4.0) 进行了深入对比。评测显示,Nano Banana在中文场景存在 …
阅读更多MIT AlterEgo项目展示“心灵感应”式人机交互技术-宝玉 麻省理工学院(MIT)媒体实验室孵化的AlterEgo项目,近期展示了一种非侵入式的可穿戴外周神经接口,旨在实现“心灵感应”式的沟通。该设备通过捕捉用户内部默念词语时面部和声带肌肉产生的微弱神经信号,将其转化为文本或语音。它支持无声交流、实时笔记捕捉和多语言翻译,并通过骨传导技术提供音频反馈。AlterEgo项目于2018年启动,并于2025年初分拆为一家营利性公司,其主要目标包括为语言障碍患者提供沟通辅助,并有望将AI和计算无缝融入日常生活。 Anthropic回应Claude模型“降智”质疑,归咎于两个Bug-宝玉 近期,Anthropic的Claude模型,特 …
阅读更多即梦 (Seedream) 4 图片模型在复杂提示词理解方面显著提升-歸藏(guizang.ai) 即梦 (Seedream) 4 图片模型在复杂提示词理解方面取得了显著进步。该模型不仅能处理复杂的空间关系和材质构成,尤其在生成高级PPT图表时表现出色,且生成成功率大幅提高。此外,其应用范围广泛,用户可以利用它创作高质量的抽象艺术作品、游戏或动漫角色图标,以及富有质感的个性化头像,展现出高还原度和独特的笔触效果。这一进展使得AI图像生成更加精细和用户友好。 李继刚分享AI时代核心问题与Prompt工程新理论“势能式”-宝玉 知名专家李继刚提出了创新的Prompt工程方法“势能式”,旨在通过构建“结构网”的高度差,引导AI算力流向特 …
阅读更多Hugging Face发布FineVision:免费开源视觉语言模型数据集-clem 🤗 Hugging Face联合创始人Clement Delangue宣布正式推出FineVision,这是一个为训练视觉语言模型(VLM)而设计的免费开源数据集。此举旨在填补开源社区在高质量VLM训练资源方面的空白,为全球开发者提供一个强大的工具,以加速VLM的研发和应用。该数据集的发布获得了业界的广泛好评,被认为是Hugging Face持续推动AI开源生态发展的重要里程碑。 Replit与Workato实现集成-Amjad Masad Replit首席执行官Amjad Masad宣布了Replit与自动化平台Workato的集成。这项合作 …
阅读更多月之暗面 K2 模型 0905 版本更新,编程能力显著提升-歸藏(guizang.ai) 月之暗面更新了 K2 模型至 0905 版本,编程能力大幅提升,尤其在 3D 房屋展示等复杂任务中表现优异。新版本将上下文长度扩展至 256K,并改进了前端代码美观度。测试表明其性能可与 GPT-5 媲美,特别是在处理长提示词和多页面应用方面。值得一提的是,API 输出速度已大幅提升至 60-100 Token/s,但定价保持不变,使其更具竞争力。 快手开源 Kwai Keye-VL-1.5-8B 视频理解模型,超越 GPT-4o-歸藏(guizang.ai) 快手开源了 Kwai Keye-VL-1.5-8B 模型,该模型不仅支持图像识别, …
阅读更多