AI Agent:从感知革命到自我监督-向阳乔木/宝玉 绿洲资本合伙人张津剑指出,注意力是人类最宝贵的资源,而AI时代的Agent正带来一场感知革命。AI Agent的频谱理论上无限,能够处理从伽马射线到红外线的各种数据,并用语言模型统一。这使得人类不再是将AI融入工作流,而是将自身融入AI的工作流。在此背景下,人类的核心价值在于提出需求和审美判断。此外,有观点指出,使用AI监督AI比传统脚本更具优势,因为它能探索更多可能性,且能根据任务执行结果动态调整Prompt,尽管会消耗更多Token。Sub Agent则主要用于上下文管理,不携带主线程上下文,实现更高效的任务分离。 AI音乐生成模型Suno v5音质显著提 …
阅读更多Emad提出“人工普通人智能”(ANI)新概念-Emad Emad Mostaque提出了一个新术语——“人工普通人智能”(Artificial Normie Intelligence, ANI)。他认为,这种AI将难以与普通人在网络或远程工作场景中区分开来,表现“平平”,虽然无法解决量子引力等复杂问题,但足以应对日常任务。这一概念旨在描述一种功能足够但非顶尖的AI形态,暗示AI的普及化可能使其能力趋向“普通”。 ListenHub:最佳AI播客生成器亮相-orange.ai orange.ai分享了ListenHub,并将其宣传为“最好的AI播客生成器”。这款工具利用人工智能技术,为用户提供自动生成播客内容的能力,可能涵盖从脚本 …
阅读更多在过去4小时内,AI领域讨论聚焦于不同大型语言模型的性能评估和未来展望。有观点指出特定模型在编程能力方面的表现,以及对新版本发布所寄予的期望。 GPT-5-Codex 模型表现强劲 - 宝玉 有分析指出,在模型选择上,GPT-5-Codex 模型被认为非常强大,尤其是其high版本。尽管目前Codex在工具集成方面可能稍显不足,但其核心模型的性能得到了高度肯定。这一观点强调了模型底层能力的重要性,即便外部工具链有待完善,强大的模型基础仍是关键。 Gemini 2.5 Pro 编程能力突出但 Agentic 能力受限 - 宝玉 针对Gemini Pro系列模型,有用户评价Gemini 2.5 Pro在编程能力方面表现出色,但其 …
阅读更多在过去4小时内,AI领域出现了多项技术更新与讨论,涵盖了AI Agent的成本、安全漏洞、模型优化以及中文AI工具的开源进展。 Replit 披露 JavaScript 新型蠕虫“Shai-Hulud”及应对措施 - Amjad Masad Replit首席执行官Amjad Masad发布警报,指出JavaScript世界中出现了一种名为“Shai-Hulud”的新型蠕虫,能够秘密窃取用户凭证。Replit已针对受影响的用户开发环境进行了修补,并发布了免费的部署扫描工具,以帮助用户检测和防御此威胁。此举凸显了AI时代下,开发平台在保护用户代码和数据安全方面面临的持续挑战和责任,强调了运行时控制在安全防护中的重要性。 腾 …
阅读更多OpenAI 发布专为编程优化的 GPT-5-Codex 模型-宝玉 OpenAI 正式推出 GPT-5-Codex,这是基于 GPT-5 进一步强化的编程优化模型。该模型在真实项目数据上进行训练,旨在提升软件开发效率,能够从零开始构建工程、添加功能、编写测试、调试及进行大规模代码重构。GPT-5-Codex 显著提升了代码审查能力,能够在软件上线前识别关键漏洞。目前,该模型已全面上线,成为云端任务和代码审查的默认选择,并可通过 Codex CLI 和 IDE 扩展在本地使用。 微软加入世界核能协会,押注核能为 AI 时代供电-Peter H. Diamandis, MD 微软成为首家加入世界核能协会的科技巨头,此举表明其正将赌注 …
阅读更多Tiny Language Model Stage 1 数据集正式发布-clem 🤗 Clement Delangue 转发 Shekswess 的消息宣布,经过数小时的实验,Tiny Language Model (微型语言模型) 第一阶段的数据集现已正式上线。这一发布为致力于开发更小、更高效AI模型的社区提供了关键资源,有望推动边缘设备和低资源环境下的语言模型研究与应用。 多款开源TTS模型被批“照骗式营销”,实际效果远低于预期-orange.ai 用户 orange.ai 对近期备受关注的两款开源TTS(文本转语音)模型表达了强烈失望。测试发现,其中一款模型发音不准确且存在幻觉问题,另一款虽然可用但训练数据不足,导致克隆音色 …
阅读更多以下是过去4小时全球AI领域的动态摘要: HunyuanWorld-Voyager:可探索的3D世界生成 - clem 🤗 一项名为 HunyuanWorld-Voyager 的最新AI技术被提出,专注于可探索的3D世界生成。该技术利用了世界一致的视频扩散(World-consistent video diffusion)和长距离世界探索(Long-range world exploration)能力,预示着在创建沉浸式、连贯的虚拟环境方面取得了显著进展。这有望在游戏、虚拟现实和仿真等领域带来突破。 微软AI的VibeVoice:领先的开源文本转语音模型 - clem 🤗 微软AI推出的开源文本转语音(TTS) …
阅读更多Nano Banana 不是一个简单的生图模型 - orange.ai Nano Banana 被揭示为一个多模态语言模型,而非仅仅是一个简单的图像生成器。它具备原生的图像理解和多图像输出能力。目前大多数工具和Agent都未能充分发挥其潜力,尤其是在连续图像理解和生成方面。开发者指出,在Google AI Studio上能够获得Nano Banana最原生的体验,这表明该模型在高级视觉处理和多模态交互方面具有显著优势,但其完整功能仍待被更完善的生态系统所利用。 Claude Code PM 团队扩张 - 宝玉 (转发 @_catwu) Anthropic 正在积极扩大其 Claude Code 产品经理团队。招聘信息显示,公司正在 …
阅读更多