2025.09.28.20 过去4小时全球AI发生了什么?

  1. 腾讯开源生图模型 3.0 亮相,具备强悍文字生成与世界知识理解能力-歸藏(guizang.ai)

    腾讯最新开源的生图模型 3.0,参数高达 80B,在美学表现、文字生成与世界知识理解方面取得了显著提升。该模型能够生成包括中文在内的较长文字,支持复杂排版和艺术字体设计,甚至能图解中学几何题,媲美头部图像模型如Banana。虽然目前尚不支持图像编辑功能,但有消息称该能力有望在国庆后上线。其强大的世界知识和推理能力,结合微调潜力,预示着广泛的应用前景。

  2. Google DeepMind Veo 3 达到视觉AI的“GPT-3”时刻-小互

    Google DeepMind的研究揭示,Veo 3 在视觉AI领域可能迎来了“GPT-3”时刻。该模型通过 18,384个视频生成任务测试后发现,除了生成视频,它还能在无需额外训练的情况下,仅凭“看图+看文字指令”完成各种复杂视觉任务。Veo 3 具备图像理解(识别边缘、物体、颜色)、物理理解(浮沉、光反射)、图像编辑(移除背景、添加文字、风格转换)及自主推理(绘制迷宫路线)等能力。这一突破意味着未来单一模型有望处理几乎所有图像、视频、动画类的AI任务,大幅简化开发流程。

  3. FactoryAI旗下Droid被赞助手,助力代码审查发现关键架构问题-Ben Tossell

    FactoryAI的Droid工具近期受到用户高度评价,被指出在代码审查中表现卓越。有用户反馈,Droid能够进行全面的代码审查,并成功识别出两个之前被团队忽略的关键架构问题。此外,用户还对其“只需发送一个提示就能轻松生成内容”的便捷性表示赞赏,突显了FactoryAI在提升开发效率和代码质量方面的潜力。

  4. Claude Code支持Hook,或可实现自动化工作流程-宝玉

    有观点指出,Claude Code支持Hook功能,这为开发者提供了通过传统脚本思路实现自动化的可能。这意味着用户可以利用Hook机制来触发和执行特定操作,从而将Claude Code集成到更广泛的自动化工作流程中。这一特性有望增强Claude Code的灵活性和实用性,使其在开发和运维场景中发挥更大作用。