2025.11.13.16 过去4小时全球AI发生了什么?

  1. Surge AI测试揭示AI客服智能体能力金字塔及局限性 - 宝玉

    Surge AI进行了一项测试,雇佣包括 GPT-5Claude Sonnet 4.5 在内的9个AI模型,在一个模拟电脑配件公司处理150个真实客服任务。结果显示,即使是表现最好的模型,仍有超过40%的任务失败。测试提出了“Agent能力金字塔”框架,将智能体能力分为基本功、适应性、抓地力(避免幻觉)和常识推理。当前AI智能体在前三层表现尚可,但在常识推理层面仍有显著不足,例如无法将“包裹到达几小时”与“退货”关联,或采取低效的穷举搜索方式,以及误解用户意图。这表明2025年作为“Agent元年”的意义在于能测试AI在常识层面的笨拙,而非已拥有通用的工作型Agent。

  2. TRAE SOLO Coder Agent深度体验:高效开发与多场景应用 - 宝玉 / 歸藏(guizang.ai)

    深度体验报告指出,TRAE SOLO Coder Agent 在应对复杂项目方面表现出强大的问题发现与解决能力,尤其在React项目和部署服务器等任务中,其规划能力和多次修改的稳定性令人印象深刻。实战案例包括用其开发一个“网页转 Markdown”浏览器插件,并提供了详细的开发技巧,如利用框架、从示例项目开始、先制定计划后执行,以及通过人工反馈辅助调试。SOLO模式提供了便捷的图形界面操作,如DiffView代码更新展示和实时浏览器预览,并采用了基于Token消耗的计费方式。该Agent还能有效分析力量训练数据并生成详细报告,拓展了其在数据分析领域的应用。

  3. ListenHub 发布官方MCP,AI助力播客与视频制作 - Orange AI

    ListenHub 已发布官方 MCP(Master Creator Protocol),允许其 Pro 会员 在各种 Vibe Coding 工具Agent 中直接调用。这一功能使得用户能够无需编写代码,仅通过语音指令即可利用AI制作播客、有声书和视频配音,极大地简化了内容创作流程,提升了效率。