2025.10.14.20 过去4小时全球AI发生了什么?

  1. Nanonets 发布 Nanonets-OCR2:全新的 3B VLM 智能识别模型-merve

    Nanonets 近日推出了 Nanonets-OCR2,这是一款全新的 3B 视觉语言模型 (VLM),专为光学字符识别 (OCR) 任务设计。该模型具备强大的功能,能够识别包括 LaTeX 方程式、表格、手写文字、图表在内的多种复杂内容,并支持多语言处理。此次发布显著提升了 OCR 的能力,使其在处理复杂文档理解任务时更加灵活和高效。

  2. Google AI 中心在印度安得拉邦维沙卡帕特南启动-Demis Hassabis

    Google 在印度安得拉邦的维沙卡帕特南市设立并启动了其新的 AI 中心。印度总理纳伦德拉·莫迪对此多方面举措表示了祝贺。该中心的建立预计将在推动该地区的 AI 研究与开发、促进创新以及为印度不断增长的数字生态系统做出贡献方面发挥关键作用。Google 这一举动标志着对当地 AI 人才和基础设施的重大投资。

  3. O’Reilly 发布《视觉语言模型》书籍早期版本-merve

    O’Reilly 出版社已开始发布一本名为《视觉语言模型 (Vision Language Models)》新书的早期版本。该书由 @edgeaiguy 撰写,旨在全面深入地介绍 VLM 相关知识。作者表示已完成第三章,并对其内容的清晰度感到满意。这本书将成为开发者、研究人员和爱好者深入了解 VLM 技术及其应用的重要资源。