2025.11.13.16 过去4小时全球AI发生了什么？

Nov 13, 2025 · 1 分钟阅读 ·

分享到:

Surge AI测试揭示AI客服智能体能力金字塔及局限性 - 宝玉
Surge AI进行了一项测试，雇佣包括 GPT-5 和 Claude Sonnet 4.5 在内的9个AI模型，在一个模拟电脑配件公司处理150个真实客服任务。结果显示，即使是表现最好的模型，仍有超过40%的任务失败。测试提出了“Agent能力金字塔”框架，将智能体能力分为基本功、适应性、抓地力（避免幻觉）和常识推理。当前AI智能体在前三层表现尚可，但在常识推理层面仍有显著不足，例如无法将“包裹到达几小时”与“退货”关联，或采取低效的穷举搜索方式，以及误解用户意图。这表明2025年作为“Agent元年”的意义在于能测试AI在常识层面的笨拙，而非已拥有通用的工作型Agent。
TRAE SOLO Coder Agent深度体验：高效开发与多场景应用 - 宝玉 / 歸藏(guizang.ai)
深度体验报告指出，TRAE SOLO Coder Agent 在应对复杂项目方面表现出强大的问题发现与解决能力，尤其在React项目和部署服务器等任务中，其规划能力和多次修改的稳定性令人印象深刻。实战案例包括用其开发一个“网页转 Markdown”浏览器插件，并提供了详细的开发技巧，如利用框架、从示例项目开始、先制定计划后执行，以及通过人工反馈辅助调试。SOLO模式提供了便捷的图形界面操作，如DiffView代码更新展示和实时浏览器预览，并采用了基于Token消耗的计费方式。该Agent还能有效分析力量训练数据并生成详细报告，拓展了其在数据分析领域的应用。
ListenHub 发布官方MCP，AI助力播客与视频制作 - Orange AI
ListenHub 已发布官方 MCP（Master Creator Protocol），允许其 Pro 会员 在各种 Vibe Coding 工具 和 Agent 中直接调用。这一功能使得用户能够无需编写代码，仅通过语音指令即可利用AI制作播客、有声书和视频配音，极大地简化了内容创作流程，提升了效率。