以下是过去4小时内全球AI领域的最新动态: H公司发布Holo1.5:SOTA视觉语言动作模型 - merve H公司(Holo)发布了其最新模型Holo1.5,这是一款最先进(SOTA)的视觉语言动作模型,专为网络导航和本地化而设计。该模型提供3B、7B和72B三种规模版本,其中7B版本遵循Apache 2.0开源许可证。Holo1.5在UI本地化和QA方面取得了显著进步,与Qwen-2.5 VL相比实现了3倍的性能提升,显示出其在处理复杂用户界面和提升用户体验方面的强大潜力。 Seedream 4.0提示词:将照片转为Y2K酸性设计海报 - 歸藏(guizang.ai) AI创作者“歸藏”分享了一个利用Seedream 4.0将 …
阅读更多AI助力詹姆斯·韦伯望远镜发现天王星新卫星-Peter H. Diamandis, MD 人工智能在太空探索领域展现了其非凡能力。美国国家航空航天局(NASA)的詹姆斯·韦伯太空望远镜(James Webb Telescope)在AI的协助下,成功观测到一颗天王星的新卫星,命名为S/2025 U1。这项技术有望彻底改变未来的太空探索方式,包括精确绘制阿尔忒弥斯(Artemis)登月任务的着陆点,以及更准确地预测宇宙事件。AI的集成将使得深空探测和数据分析更加高效和深入。 ReAct和SWE Agent体现顶级思维-宝玉 知名开发者宝玉转发了@dongxi_nlp的观点,称ReAct和SWE Agent等项目展现了“顶级的思维”。这 …
阅读更多文心开源ERNIE-4.5-21B-A3B-Thinking模型登顶HuggingFace趋势榜-向阳乔木 百度文心团队新开源的 ERNIE-4.5-21B-A3B-Thinking 模型在HuggingFace全球模型总趋势榜上取得了第一名。这款模型是一款轻量级的MoE(Mixture-of-Experts)模型,总参数量为21B,但激活参数仅3B,具备128K的上下文窗口,专为提升推理能力而设计。该模型基于百度自研的飞桨深度学习框架构建,而非主流的PyTorch。HuggingFace的CEO Clem也转发推荐了此模型。分析指出,其强大的推理和工具调用能力对于开发Agent产品具有重要意义,有助于打破现有市场垄断。
阅读更多Lovart & Seedream 4.0:自媒体图文生成的终极方案与自定义风格新玩法 - 歸藏(guizang.ai) 歸藏(guizang.ai) 分享了利用 Lovart 与 Seedream 4.0 结合的强大提示词,实现了将任意文案转换为高度可控的成套图文内容,尤其适用于小红书等平台。该方案允许用户通过“垫图”或详细提示词自定义图片风格,例如将Anthropic的文档转化为其品牌设计风格的卡片,或将中国古文转化为水墨风格的传统主题卡片,甚至能以中国仙侠风格讲述科学家事迹。这种方法提供了极高的内容、风格、文案和主题混搭灵活性,被认为是自媒体图文生成的“终极方案”,并提及未来可能实现低成本的完整视频(结合TTS)生成。 深入 …
阅读更多ERNIE-4.5-21B-A3B-Thinking 登顶 Hugging Face 趋势榜-clem 🤗 百度文心ERNIE-4.5-21B-A3B-Thinking模型在全球领先的AI社区Hugging Face上荣登总榜第一,标志着其在大型语言模型领域的强大实力和广泛关注度。这一成就显示了国产AI模型在国际舞台上的竞争力,吸引了开发者和研究者对该模型的关注,进一步推动了其在AI应用和研究中的发展。 Claude 推出 AI 驱动的办公文件转换与生成功能-向阳乔木 Claude 上线了新的实验性功能,允许用户通过 AI 自动进行办公文件格式转换及内容生成,涵盖 Excel、Word、PPT 和 PDF 等。用户只需在设置中启 …
阅读更多以下是过去4小时全球AI领域的精选动态: PaddleOCRv5 发布并登陆 Hugging Face Hub - merv PaddleOCRv5 现已在 Hugging Face Hub 上发布,采用 Apache-2.0 许可证。尽管模型尺寸仅为 70M,但其基准测试结果表现“惊人”,展示了其高效而强大的性能。这一发布为开发者和研究人员提供了易于获取且性能卓越的 OCR 工具。 Anthropic 分享 AI Agent 工具开发经验,强调 Claude Code 优势 - 宝玉 Anthropic 工程团队发布了《为 AI 智能体打造高效工具》的技术文章,强调其 Claude Code 作为最强编程 Agent 的地位。该文 …
阅读更多Replit 推出 Agent 能力重大创新与全新设计-Amjad Masad Replit 宣布对其平台进行全面优化,推出了Agent 能力的重大创新,并对用户界面进行了流线型重新设计。此次更新旨在提升开发者的编程体验,并增强AI Agent在Replit生态系统中的功能和交互效率,使其能更好地辅助代码编写和项目开发。 Emad Mostaque 宣布新公司致力于可验证的超级智能-Emad ChrSzegedy 宣布成立一家新公司,专注于通过自动化形式化 (autoformalization) 来创建可验证的超级智能 (verified superintelligence)。此举标志着在追求高级AI能力的同时,高度重视AI的可靠 …
阅读更多以下是过去4小时内全球AI领域的最新动态: 韩国公布创纪录AI预算:5240亿美元押注AI,促进芯片、培训及智能工厂发展-Peter H. Diamandis, MD 韩国政府公布了2026年创纪录的5240亿美元预算,比上一年增长8.1%,其中人工智能成为核心焦点。该国计划投入数十亿美元用于芯片研发、AI人才培训以及建设智能工厂。这项重大投资旨在测试AI能否有效应对贸易壁垒和劳动力老龄化带来的挑战,通过技术创新驱动经济增长和转型。 Florence-2 视觉语言模型正式支持 Hugging Face Transformers-merve 备受关注的视觉语言模型Florence-2现已正式获得Hugging Face …
阅读更多小道消息:Gemini 3 Flash 能力超过 Gemini 2.5 Pro,本月不会发布 Gemini 3,但是很快了。-宝玉 小道消息称,谷歌的 Gemini 3 Flash 模型能力已超越当前的 Gemini 2.5 Pro。尽管本月不会正式发布 Gemini 3 系列,但其发布时间已非常临近,预示着谷歌在大型语言模型领域的又一次显著进展。这一消息引发了业界对新一代Gemini模型性能的广泛期待和关注。 知名主持人塔克·卡尔森当面追问Sam Altman OpenAI前工程师离奇死亡事件-宝玉 知名主持人塔克·卡尔森在对OpenAI首席执行官山姆·奥特曼的访谈中,当面就 OpenAI前工程师苏奇尔·巴拉吉的离奇死亡事件 提 …
阅读更多