2025.09.23.04 过去4小时全球AI发生了什么?
《通用智能体包含世界模型》论文提出AI智能体必须建立世界模型-宝玉
一篇新论文《通用智能体包含世界模型》通过严格数学证明,指出任何能有效完成复杂多步骤任务的智能体,都必然在内部学习并构建其所处世界的精确预测模型。这项研究挑战了长期以来“无模型”方法通向通用人工智能(AGI)的设想,表明AI智能体为了获得通用能力,会自发涌现出世界模型,而非必须显式编程。这一发现对AI的安全性和可解释性具有重大影响,意味着我们可以从强大的智能体行为中提取其隐藏的世界模型进行审查,为理解大语言模型(LLM)的“涌现能力”提供了理论解释,并可能统一AI研究领域。
阿里巴巴发布Qwen3-Omni,首个端到端全模态AI模型-clem 🤗
阿里巴巴重磅推出Qwen3-Omni,这是业内首个原生端到端的全模态AI模型。该模型旨在统一处理文本、图像、音频和视频等多种模态数据,实现真正的多模态融合。Qwen3-Omni的发布标志着阿里巴巴在构建能够理解和生成各种类型信息的人工智能方面迈出了重要一步,有望在多媒体内容理解、人机交互以及多模态应用开发等领域带来显著进展,进一步推动全模态AI技术的发展和落地。
Meta开源AI智能体研究平台ARE及手机应用测试集Gaia2-宝玉
Meta发布了开源的智能体(AI Agent)研究平台ARE及手机应用型测试集Gaia2。研究发现,目前没有单一AI模型能“通吃”所有场景:GPT-5推理最强但时间压力下易出错,Claude-4 Sonnet速度与准确度平衡但成本高,Kimi-K2在环境适应性上表现出色。尤其值得关注的是,在有截止期限的任务中,模型**“想得越久越容易翻车”**。ARE平台专为逼真环境打造,时间实时流动,任务以App、事件和通知模拟,Gaia2包含1120个场景,模拟了12款真实手机应用,旨在高压力、高实时性环境中考验AI智能体。
200位知名领袖呼吁联合国设定AI风险“国际红线”-Gary Marcus
包括诺贝尔奖得主、AI专家和前国家元首在内的200位知名领袖联名致函联合国,呼吁为防止“不可接受的AI风险”设定**“国际红线”**。这一倡议强调了当前AI发展面临的潜在风险,并指出社会在应对这些风险方面行动迟缓。联名信的签署者认为,AI技术进步带来的挑战需要全球范围内的共同应对和监管框架,以确保AI的负责任发展,避免可能出现的负面影响。此举旨在推动国际社会对AI治理形成更清晰的共识和行动。
清华大学与中国软件评测中心发布《2025大模型服务性能排行榜》-向阳乔木
清华大学联合中国软件评测中心发布了**《2025大模型服务性能排行榜》,旨在评估国内各大平台提供的大模型服务性能。榜单反映了不同平台在提供模型服务时的高吞吐和低延迟能力。部分不为人熟知的平台表现突出,而火山云、阿里百炼云和腾讯云等头部厂商也表现良好。发布者指出,排行榜的维度还应考虑已有客户量**,因为能大量提供服务并同时保证高性能,才是衡量其真正实力的关键。
美国国家经济研究局(NBER)正在制定一项研究议程,以探讨变革性人工智能(AI)的经济影响,并提出了九项重大挑战。这项研究旨在深入分析AI技术对经济增长、劳动力市场、生产力、收入分配以及其他宏观经济因素的深远影响。鉴于AI的快速发展及其潜在的颠覆性,NBER的工作将为政策制定者、企业和研究人员提供重要的洞察,以更好地理解和应对AI带来的经济转型,为未来的经济规划和政策制定提供科学依据。
AI在软件开发领域的应用正显著提升工程师的生产力。据Dario称,AI未来将能编写90%的代码,而OpenAI的Codex团队也表示其大部分代码由Codex完成。这并非意味着软件工程师将被取代,而是工作方式正在升级转型。通过AI,工程师可以实现琐碎任务的自动化(如测试代码、脚本),让AI修复bug(人工审查),以及由AI完成原型开发和模块实现。个人经验表明,AI辅助工具(如GitHub Copilot、Cursor、Claude Code、Codex)已将开发效率提升一倍以上。然而,要最大化AI效率,工程师需具备代码理解能力、技术管理经验、提示词工程技能,并确保代码和架构对AI友好。
如何利用“Absolute Mode”提示词让ChatGPT回复更清晰准确-向阳乔木
有用户分享了一种名为“Absolute Mode”的ChatGPT提示词,旨在让模型回复更加清晰、准确和直击要点。该提示词要求模型消除表情符号、废话、夸大其词、委婉请求、对话过渡语和行动号召式结尾,并假设用户即便面对生硬语气也能保持高理解力。它优先采用生硬、指令式措辞,目标是认知重建而非语气匹配,并禁止提问、建议、过渡语和激励内容,要求信息传递完毕后立即终止回复。此模式旨在将ChatGPT改造为极简、冷峻的信息提供工具,剥离社交情感元素,恢复用户独立、高保真的思考能力。
Mobbin Leveraged as “Stealing Artifact” for AI-Assisted UI/UX Design-向阳乔木
Mobbin作为一个汇集了App和网站页面截图及组件拆解的平台,正因AI编程的兴起而价值大增。许多独立开发者和设计师将其视为**“偷师神器”**,通过复制平台上的截图并利用AI生成代码或设计,大幅提升了开发效率。随着AI在UI/UX设计中扮演越来越重要的角色,Mobbin提供的大量真实应用界面案例,成为提升审美和加速AI辅助设计流程的关键资源,帮助开发者快速将设计概念转化为实际产品。
AI Aids Curation of 1.55 Million Global Museum Items in Feishu-向阳乔木
一位开发者巧妙利用飞书(Feishu)的各项功能,成功抓取并整理了全球博物馆的155万份藏品和画册,并利用飞书内置功能实现了自动翻译和智能搜索。这一创新应用展示了AI和协作工具在文化遗产数字化方面的巨大潜力。通过这种方式,大量原本分散的全球艺术与历史藏品得以高效整合和访问,极大地便利了研究人员、教育工作者和公众对文化资源的探索和利用,将数字博物馆体验提升到一个新的水平。