Meta收购Manus:AI代理领域的重要里程碑-Orange AI Meta已确认收购AI代理公司Manus,此次交易被视为AI行业的重要事件。据报道,收购估值达数十亿美元,并在短短十余天内完成谈判。Manus的联合创始人回顾了公司在AI代理领域从最初的怀疑到被巨头收购的历程,认为这一成功也为其他AI初创公司带来了融资信心。此次收购不仅对Meta的AI战略意义非凡,也将对全球AI投资和创业生态产生深远影响。 Novita Labs在Hugging Face上月请求量突破1000万-clem 🤗 AI推理服务提供商Novita Labs在Hugging Face平台上实现了每月超过1000万次请求的里程碑。这一成就凸显 …
阅读更多微软与复旦大学合作推出AniX系统,实现3D角色可控动画生成-向阳乔木 微软研究院与复旦大学联合开发了 AniX系统,该系统能让用户通过自然语言指令在3D场景中控制角色生成复杂动作视频。AniX的核心能力包括场景与角色的一致性、丰富的动作库(通过4个基础动作学习142种新动作)、持续互动性及可控镜头。该系统基于GTA-V游戏录像训练,通过条件自回归视频生成实现,并采用HunyuanCustom(130亿参数)和Flow Matching方法。评估结果显示,AniX在视觉质量和动作控制成功率上显著优于现有模型,尤其在基础动作上达到100%成功率,新动作成功率也高达80.7%。原始模型生成93帧360P视频需121秒,经蒸馏后可缩短 …
阅读更多过去4小时全球AI动态一览 以下是过去4小时内全球AI领域的重要进展和热点讨论: Andrew Ng 推出新课程:使用工具执行构建编码智能体-Andrew Ng 深度学习专家 Andrew Ng 宣布推出一门名为“使用工具执行构建编码智能体”的新课程,由 E2B 的 @tereza_tizkova 和 @FraZuppichini 教授。这门短期课程旨在教授学员如何构建能够编写和执行代码来完成任务的 AI 智能体,从而能够访问完整的编程语言生态系统,而不是局限于固定的工具集。学员将学习在沙盒云环境中安全运行智能体生成的代码,并掌握构建数据分析智能体(使用 Pandas 探索和可视化数据)和全栈智能体(构建完整的 Next.js …
阅读更多Runway发布Gen-4.5视频生成模型,增强物理与视觉精度-歸藏(guizang.ai) Runway推出了新一代视频生成模型Gen-4.5,虽然没有带来范式革新,但在多方面实现了能力升级。其主要改进包括提升了物理与视觉精度,支持更复杂的场景和详细构图,提高了物理准确性,能生成富有表现力的角色,并优化了风格化与风格一致性,使其能生成更具电影感和真实日常感的场景。 DeepSeek V3.2正式版发布:强化Agent能力并融入Claude Code思考推理-Orange AI DeepSeek正式发布了V3.2版本,重点强化了其Agent能力并深度融入了思考推理机制。新版本特别优化了对Claude Code思考模式的支持,用户可 …
阅读更多以下是过去4小时全球AI领域的最新动态: DeepSeek开源数学推理大模型DeepSeek-Math-V2,超越GPT-5与Gemini获IMO金牌水平-小互 DeepSeek发布并开源了其数学推理大模型DeepSeek-Math-V2,该模型在国际数学奥林匹克(IMO)竞赛中展现出金牌水平,成功解出6题中的5题,并在中国数学奥林匹克(CMO)及普特南(Putnam)大学数学竞赛中表现出色。DeepSeek-Math-V2的核心创新在于其“生成 + 验证 + 复审”的自我验证系统,能自动生成数学证明、自行检查逻辑严谨性并修正错误。在五大数学领域,它全面超越了GPT-5-Thinking和Gemini 2.5 Pro,以高准确率、严 …
阅读更多Veo 3.1 图生视频广告制作方法揭秘-歸藏(guizang.ai) 归藏(guizang.ai)分享了使用Veo 3.1制作图生视频广告的详细方法。该流程首先涉及为每个角色训练包含多种角度、表情和光线变化的数据集。接着,用户创建主提示词以定义环境参数,如灯光、建筑和对比度。随后,系统生成一个基础模板,其中不包含角色。最后,通过将参考图导入Nano Banana,来创建包含角色的最终图像。这一方法展示了AI在视频内容创作中实现精细控制的潜力,为广告制作带来了高效且高质量的解决方案。 Google Earth AI 接入 Gemini 迎来重大升级-小互 Google Earth AI近日宣布重大升级,通过深度整合Gemini模 …
阅读更多OCR与VLM模型进展及Qwen3-VL应用 - clem 🤗 近期,光学字符识别(OCR)和视觉-语言模型(VLM)领域取得多项进展。据报道,在过去24小时内,三款Qwen3-VL模型(2B、4B和8B)已在Hugging Face上通过CATmuS数据集完成微调。此外,社区还分享了针对OCR/文档处理模型的微调教程,例如Kosmos2.5与grounding技术的结合。本周,OCR和VLM领域涌现了如deepseek-ocr、chandra-ocr、nanonets-ocr2和paddleocr-vl等多个新模型,显示出该领域的活跃发展和社区的高度热情。 PyTorch强化学习环境开源工作获Hugging Face支持 - …
阅读更多文档AI模型微调教程发布 - merve 开发者mervenoyann发布了一系列针对光学字符识别(OCR)和文档理解任务的视觉语言模型(VLM)微调教程。其中包含两项主要教程:一是关于如何微调 Kosmos2.5 模型以实现带接地的OCR功能,适用于处理包含边界框和文本的数据;二是关于如何在DocVQA(文档视觉问答)数据集上微调 Florence-2 模型,旨在帮助用户从文档中搜索和提取答案。这些教程以“即插即用”的方式设计,旨在简化文档AI模型的部署和应用,并且在同一代码库中提供了更多视觉LM和计算机视觉相关的notebooks。
阅读更多AI模型真实加密货币交易表现揭示:DeepSeek稳健领先,GPT-5与Gemini表现不佳-歸藏(guizang.ai) 一项N of 1项目通过让六个顶级AI模型(DeepSeek Chat V3.1、Grok 4、Claude Sonnet 4.5、Qwen3 Max、GPT-5、Gemini 2.5 Pro)在真实加密货币市场进行自主交易,每个模型初始资金1万美元,揭示了它们在不确定性下的决策风格和交易能力。结果显示,DeepSeek Chat V3.1以+37.29%的收益率领跑,Grok 4紧随其后。DeepSeek采用数据驱动的技术派策略,保持稳健现金储备;Grok则通过分散投资降低风险。Qwen3 Max以20倍杠 …
阅读更多OpenAI即将发布「Agent Builder」,轻松拖拽,人人都能打造AI智能体-宝玉 OpenAI预计在10月6日的「开发者日」活动上发布全新的 「Agent Builder」 工具。该工具提供直观的拖拽式可视化界面,旨在帮助开发者和团队轻松构建复杂的AI智能体工作流程,直接对标Zapier等自动化流程产品。它将提供模块化组件,如逻辑模块、连接器、用户审批步骤及安全防护模块,大幅降低了AI应用的开发门槛,使非专业人士也能快速搭建并部署客服机器人、数据增强流程等AI解决方案。该工具的推出是OpenAI生态战略的重要一步,强调与自身AI模型深度整合、提供卓越用户体验及预置逻辑模块以应对激烈的自动化市场竞争。 LoRA …
阅读更多