OCR与VLM模型进展及Qwen3-VL应用 - clem 🤗 近期,光学字符识别(OCR)和视觉-语言模型(VLM)领域取得多项进展。据报道,在过去24小时内,三款Qwen3-VL模型(2B、4B和8B)已在Hugging Face上通过CATmuS数据集完成微调。此外,社区还分享了针对OCR/文档处理模型的微调教程,例如Kosmos2.5与grounding技术的结合。本周,OCR和VLM领域涌现了如deepseek-ocr、chandra-ocr、nanonets-ocr2和paddleocr-vl等多个新模型,显示出该领域的活跃发展和社区的高度热情。 PyTorch强化学习环境开源工作获Hugging Face支持 - …
阅读更多文档AI模型微调教程发布 - merve 开发者mervenoyann发布了一系列针对光学字符识别(OCR)和文档理解任务的视觉语言模型(VLM)微调教程。其中包含两项主要教程:一是关于如何微调 Kosmos2.5 模型以实现带接地的OCR功能,适用于处理包含边界框和文本的数据;二是关于如何在DocVQA(文档视觉问答)数据集上微调 Florence-2 模型,旨在帮助用户从文档中搜索和提取答案。这些教程以“即插即用”的方式设计,旨在简化文档AI模型的部署和应用,并且在同一代码库中提供了更多视觉LM和计算机视觉相关的notebooks。
阅读更多Replit 首席执行官揭示平台分析仪表盘的实用功能 - Amjad Masad Replit 首席执行官 Amjad Masad 强调了 Replit 平台内置的分析仪表盘,指出许多用户可能不知道其丰富的数据信息。他举例说明,通过该仪表盘,他发现自己的网站速度变慢,并找到了导致响应时间超过一秒的请求高峰。这一功能位于“发布”标签下,对于开发者监控应用性能和及时发现问题提供了重要的工具。 Replit 聘请 React 创始人 Jordan Walke - Amjad Masad Replit 首席执行官 Amjad Masad 转发了关于 Replit 聘请 Jordan Walke 的消息。Jordan Walke …
阅读更多微软发布 Copilot 一系列重磅更新,打造全能私人AI助手-小互 微软宣布对 Copilot 进行一系列重大更新,旨在将其打造成一个全能的私人AI助手。Copilot现已深度集成并打通微软旗下几乎所有产品,其核心由微软与OpenAI整合的全新版本 GPT-5 驱动,并全面升级了视觉和语音能力。主要新功能包括:Copilot Vision 赋予其理解图像和现实场景的能力;Connectors 支持跨应用搜索文档和邮件;Groups 实现多人实时协作;Edge 中的 Copilot 模式 升级为AI浏览器;Learn Live 提供语音交互式学习;Copilot for Health 聚焦医疗健康信息;Mico 虚拟伴侣 提升语音 …
阅读更多今日全球AI动态的核心聚焦于 AI的深度整合与应用层竞争。OpenAI收购苹果“快捷指令”原创团队,并更新其AI浏览器,明确指向了将AI能力从云端向操作系统和核心应用(如浏览器)深度渗透的战略野心,意图打造无缝的桌面级AI智能体。与之呼应,苹果提前交付自研AI服务器,为“Apple Intelligence”构建坚实算力基座。同时,AI的应用形态日益丰富,从阿里发布的AI眼镜到微软为Copilot引入动画助手,各大厂商正积极探索下一代人机交互界面。 OpenAI收购苹果“快捷指令”原创团队,意图打造桌面级AI OpenAI已收购Software Applications Incorporated (SAI)公司,其核心团队正是苹果“ …
阅读更多在过去4小时内,全球AI领域涌现出多项重要动态,涵盖了AI在软件开发中的深远变革、特定AI模型的发布与应用案例,以及行业大会的焦点议题。 a16z:AI正将软件开发重塑为价值万亿的工业体系-宝玉 硅谷顶尖风投a16z发布重磅文章,指出AI正在把软件开发从“手艺活”重塑为价值万亿美金的“工业体系”。文章详细阐述了AI在计划、编码、审查、QA及文档等软件开发全流程的深度介入,包括AI作为产品经理、架构师、智能体(Agent)编写代码、自动审查、生成测试用例和文档等。同时,强调了为AI编写“AI专属说明书”以及为AI Agent开发专用工具(如代码搜索引擎、沙箱)的重要性。a16z认为,AI不会取代程序员,但会彻底改变其工作方式,使其从“ …
阅读更多以下是过去四小时全球AI领域的重要动态: DeepSeek-OCR:通过图像实现文本光学压缩,解决AI长上下文问题-宝玉 DeepSeek-AI实验室发布了一项名为DeepSeek-OCR的创新技术,通过将千字文本压缩成“图片”来显著提升AI处理长文本的能力。该模型能够以10:1的压缩比和97%的准确率重建原始文本,有效解决了AI面临的“长上下文”瓶颈。这种“光学压缩”方法不仅为AI提供了“无限”记忆的新途径,还可能模仿人类的遗忘机制,让AI更高效地处理信息,仅保留关键要点。宝玉分享了一个为Gemini 2.5 Pro模型设计的提示,用于处理该论文PDF并生成结果。 AI Dev 25 x NYC大会议程公布-Andrew Ng …
阅读更多everyone shafts @SchmidhuberAI, even AI: - Gary Marcus AI研究者Gary Marcus评论了AI先驱Jürgen Schmidhuber在AI历史贡献方面受到的关注不足。他指出,即便在AI领域内部,Schmidhuber的成就也常被忽视,并引用了一篇讨论AI发展史与贡献归属的文章,反映了AI社区对于知识产权归属和历史叙述的持续争论。 RT @xiaokedada: #分享 大脑和工具之间的抽象:Skills - 宝玉 宝玉转发xiaokedada的分享,深入探讨了Anthropic新推出的“Skills”功能,并将其与Cursor Rules的设计理念进行了对比。他观察 …
阅读更多Nanonets AI在识别复杂任务上取得新进展-merve 社交媒体上的一条推文对AI公司Nanonets的新能力表示赞赏,指出其在某项“新解锁的任务”中表现出色,甚至达到了人眼无法辨别的精度。尽管推文没有透露具体任务内容或所采用的AI技术细节,但这暗示着Nanonets的AI解决方案可能在需要高精度识别或精细模式分析的领域取得了显著突破。此次进展突显了人工智能在处理复杂且对人类而言极具挑战性的问题上的持续进步。
阅读更多Google推出AI学习平台“Google Skills”,整合顶尖资源并提供官方认证 - 小互 Google近日推出了名为“Google Skills”的AI学习平台,旨在向公众开放Google旗下DeepMind AI研究、Google Cloud、Gemini AI模型开发及Google Education等顶尖团队的内部实训资源。该平台提供真实且可验证的数字证书,据称获得了超过82%招聘方的认可。此外,Google Skills还与150多家合作企业建立了招聘渠道,完成认证的用户有机会被纳入这些公司的“候选人库”并获得面试或实习机会。平台对Google Cloud用户免费开放所有课程和实验,非Cloud用户则可选择每月29 …
阅读更多