2025.10.22.20 过去4小时全球AI发生了什么?
以下是过去4小时内全球AI领域的重要动态:
百度飞桨发布PaddleOCR-VL:0.9B参数模型超越DeepSeek-OCR,登顶Huggingface趋势榜-小互
百度飞桨团队近日发布了 PaddleOCR-VL 模型,该 0.9B 参数的OCR模型在性能上超越了现有所有OCR模型,并在 Huggingface 全球模型趋势榜上持续登顶。用户实测显示,其在处理中日英多语种混排、复杂公式等复杂场景下表现卓越,甚至优于同期发布的 DeepSeek-OCR。PaddleOCR-VL不仅能够识别文字,更具备对复杂文档进行结构化理解与语义重建的能力,支持109种语言,能精确解析文本、表格、公式与图表,并自动识别版面布局以恢复阅读顺序,可直接输出 Markdown 或 JSON 格式的表格。在权威评测 OmniDocBench V1.5 中,PaddleOCR-VL以 92.56 的综合得分位居全球第一,实现全指标SOTA,且推理速度快3-5倍,显存低于6GB。近期OCR模型领域竞争激烈,Huggingface热榜前三均为OCR模型,DeepSeek-OCR的论文中也提及使用了PaddleOCR进行数据标注。
Google AI Studio 应用构建功能升级,支持内置模型与无API Key操作-歸藏(guizang.ai)
Google AI Studio 近期对其应用构建功能进行了大幅升级,显著提升了用户体验。现在,用户可以直接在平台内选择并调用所有内置的谷歌 AI 模型,而无需手动输入 API Key,极大地简化了应用开发流程。通过简单的提示词输入,应用即可自动调用相应的模型。作者展示了一个通过上传图片理解内容、编写文本故事并生成语音的网页应用,该应用整合了LLM、图像理解和TTS模型,体现了新功能的便捷性和多模态支持。
一款由AI创业公司开发的应用近期迎来了一系列功能更新与Bug修复。新功能包括图片基础设置的增强,如添加圆角、镜像反转和阴影效果;新增图片滤镜,支持亮度和色彩调整;并引入了便捷的图片裁剪功能,用户双击即可进入编辑模式。此外,此次更新还修复了连续画笔支持以及背景图片上传后无法删除的bug,提升了用户在AI辅助图像处理方面的体验。