2025.10.24.20 过去4小时全球AI发生了什么?
开发者mervenoyann发布了一系列针对光学字符识别(OCR)和文档理解任务的视觉语言模型(VLM)微调教程。其中包含两项主要教程:一是关于如何微调 Kosmos2.5 模型以实现带接地的OCR功能,适用于处理包含边界框和文本的数据;二是关于如何在DocVQA(文档视觉问答)数据集上微调 Florence-2 模型,旨在帮助用户从文档中搜索和提取答案。这些教程以“即插即用”的方式设计,旨在简化文档AI模型的部署和应用,并且在同一代码库中提供了更多视觉LM和计算机视觉相关的notebooks。