Gary Marcus 对Sora 2能力提出质疑及能源消耗担忧-Gary Marcus 知名AI研究者Gary Marcus对OpenAI的Sora 2模型表达了多方面质疑。他认为,尽管投入了巨量计算资源,Sora 2仍未能展现通用人工智能(AGI)的能力。Marcus指出,Sora 2在应对新颖、富有挑战性的提示词时,常出现物理法则和组合性方面的错误,并提供了“驴子骑贝斯手”等复杂场景下的失败案例(如物体消失或出现“无实物手”)。他认为,模型在某些特定提示词上的表现出色,可能是因为在这些已知例子上进行了**“应试训练”。此外,Marcus还对OpenAI因模型扩展而带来的电力消耗问题**表示担忧。 OpenAI Sora 2 …
阅读更多新闻列表 腾讯混元图像3.0登顶LMArena文生图榜首,成为全球第一-orange.ai 腾讯混元图像3.0在国际权威AI模型竞技场LMArena的用户投票榜单中登顶第一,成为全球领先的文生图模型。该模型通过完全匿名的盲测机制,击败了包括Google的Nano Banana和OpenAI的GPT-4o生图在内的众多国际知名模型,是LMArena所有单项榜单中唯一一个获得第一的中国模型。用户反馈其最大的特色在于对用户意图的深刻理解,显著降低了提示词编写的复杂性。此外,它在画面精度、色彩还原和风格多样性方面表现出色,并具备优秀的中文文字生成能力(长文本仍有改进空间)。目前,腾讯混元图像3.0已完全免费开放体验。
阅读更多中学老师用 AI 出题,结果用的古诗还是 AI 编的😅-宝玉 一位中学老师在使用人工智能工具出题时,意外地采用了AI生成而非真实存在的古诗作为考题素材。这一事件引发了对AI在教育领域应用的讨论,凸显了在利用AI辅助教学和评估时,内容真实性与准确性的重要性。尽管AI能高效生成大量内容,但教师在采用前仍需进行严格的事实核查,以避免误导学生并维护教育质量。这提示教育界在享受AI带来的便利时,需警惕其潜在的**“幻觉”问题**,并加强对AI生成内容的甄别能力培养。 just talked to a guy who’s @Waymo ran over a pigeon and now he’s asking me if he bears …
阅读更多Claude Agent SDK 推荐-宝玉 宝玉推荐使用 Claude Agent SDK,因为它内置了 Claude Code 所需的所有工具,能够完成大部分普通 Agent 的任务。开发者只需根据需求编写新的提示词或添加少量工具,即可快速完成原型开发。这一推荐强调了 SDK 在简化 AI Agent 开发流程方面的优势,特别是对于需要快速验证概念或搭建原型项目的情况。 如何编写 prompt 才能让大模型更好地理解工具?-宝玉 关于如何编写能让大模型更好地理解工具的 Prompt,宝玉分享了一个有效方法:让模型自己来写并优化 Prompt。具体步骤包括:首先让 Claude Code 基于设计系统完成一个任务(如制作登录页 …
阅读更多今日全球AI领域动态纷呈,呈现出模型开源、硬件竞赛与应用深化三大主线。阿里巴巴与IBM相继开源新模型,推动技术普惠的同时,也凸显了架构创新与多模态能力的竞争焦点。伴随模型进步,从Nvidia与富士通的战略合作到惠普、华硕等厂商的新品发布,AI算力基础设施的竞争正向行业级乃至端侧设备全面渗透。应用层面,OpenAI计划商业化Sora,而AI在学术研究、游戏策略等领域的自主能力正达到新高度,预示着AI正从辅助工具向自主智能体加速演进。同时,行业巨头间的法律纠纷与内部动荡也反映出该领域白热化的竞争格局。 通义千问开源Qwen3-VL-30B-A3B模型,获华为昇腾0day …
阅读更多以下是过去四小时内全球AI领域的主要动态: DeepSeek模型与DS应用差异及用户期望解析-宝玉 宝玉澄清了DeepSeek模型与DS应用之间的区别,指出模型权重是固定的,而DS应用调用搜索引擎的搜索结果可能受到SEO污染影响,这与模型本身无关。同时,许多用户对DeepSeek的不满并非源于模型性能下降,而是因为用户期望值随时间推移而提高,而DeepSeek R1已是近一年前的模型,未能满足当前更高的标准。 Codex专业用户Token使用状态与限制解析-宝玉 宝玉分享了在Codex中通过输入/status命令即可查看Token使用状态的功能。他提到,专业用户虽然有Token用量限制,但在正常使用强度下通常不易达到上限。以他个人为 …
阅读更多AI Agent集成与开发策略:宝玉分享实用思考-宝玉 宝玉分享了为公司业务集成或迁移AI Agent的一系列实用思考与建议。他提出,如果现有流程效率高且路径确定,可仅集成AI功能而非强制转换为Agent。关键在于为Agent重新设计专用工具,而非改造为人设计的现有工具,并强调工具描述、输入参数和输出结果需清晰具体,以优化上下文管理。同时,建议避免为实现MCP(多兼容平台)而使用MCP,控制工具数量,并考虑拆分为子智能体来管理复杂任务。最后,他强调需要重新设计Agent的交互方式,使其以对话为主,并推荐在原型和概念验证阶段使用Claude Agent SDK,因为它即开即用,能有效节省开发时间。 Karpathy观点:AI可能陷 …
阅读更多Gary Marcus:对OpenAI Altman的怀疑论正在AI社区中获得认同 AI研究者Gary Marcus指出,OpenAI的GPT-5未能兑现其关于“通用人工智能(AGI)和博士级认知”的承诺,这表明OpenAI依赖大规模数据和芯片来指数级提升系统智能的路径可能不再奏效。他表示,此前Altman曾试图将他的质疑视为孤立观点,但现在这种怀疑论在AI社区中获得了广泛认同。Altman回应时仅强调GPT-6和GPT-7将显著改进,但Marcus认为这缺乏实质性内容,仅是新的承诺。 AI被比作“石棉”:对AI长期影响的担忧 著名作家Cory Doctorow被引用发表了对AI未来的强烈担忧,他将AI比作“我们社会墙壁中填塞的石 …
阅读更多以下是过去4小时内全球AI领域的重要动态: No Priors Pod预告嘉宾,NVIDIA CEO黄仁勋将亮相-sarah guo @NoPriorsPod播客预告了即将登场的重磅嘉宾阵容,其中包括NVIDIA的首席执行官Jensen Huang(黄仁勋)。此外,预告中还提到了Intel首席执行官Lip-Bu Tan(注:Lip-Bu Tan是华登国际主席及英特尔董事会成员,曾任英特尔临时CEO,但目前并非现任CEO)、知名研究员Eric Zelikman以及Magnetar首席执行官Neil Tiwari。此次节目预计将深入探讨人工智能领域的最新进展和行业趋势,黄仁勋的参与无疑将吸引广泛关注。 Droid CLI被赞表现优 …
阅读更多AI Agent工具管理策略探讨及Codex新功能-宝玉 AI代理工具的MCP路由方案受到质疑,指出其在Prompt Cache利用、LLM对工具能力的透明度以及决策上下文方面的局限性。专家建议采用更可靠的策略:精简工具数量(建议不超过20个);通过多智能体协同分摊工作,有效管理上下文长度;以及多使用通用工具,如Bash脚本或Codex CLI进行Python代码动态生成。此外,Codex (0.44+) 版本现已支持自定义Prompt模板,允许在模板内定义变量,进一步提升了开发灵活性。 FactoryAI的Droid在应用与机器人开发中的表现-Ben Tossell FactoryAI推出的Droid工具在AI应用和机器人开发领 …
阅读更多