OCR与VLM模型进展及Qwen3-VL应用 - clem 🤗 近期,光学字符识别(OCR)和视觉-语言模型(VLM)领域取得多项进展。据报道,在过去24小时内,三款Qwen3-VL模型(2B、4B和8B)已在Hugging Face上通过CATmuS数据集完成微调。此外,社区还分享了针对OCR/文档处理模型的微调教程,例如Kosmos2.5与grounding技术的结合。本周,OCR和VLM领域涌现了如deepseek-ocr、chandra-ocr、nanonets-ocr2和paddleocr-vl等多个新模型,显示出该领域的活跃发展和社区的高度热情。 PyTorch强化学习环境开源工作获Hugging Face支持 - …
阅读更多文档AI模型微调教程发布 - merve 开发者mervenoyann发布了一系列针对光学字符识别(OCR)和文档理解任务的视觉语言模型(VLM)微调教程。其中包含两项主要教程:一是关于如何微调 Kosmos2.5 模型以实现带接地的OCR功能,适用于处理包含边界框和文本的数据;二是关于如何在DocVQA(文档视觉问答)数据集上微调 Florence-2 模型,旨在帮助用户从文档中搜索和提取答案。这些教程以“即插即用”的方式设计,旨在简化文档AI模型的部署和应用,并且在同一代码库中提供了更多视觉LM和计算机视觉相关的notebooks。
阅读更多Replit 首席执行官揭示平台分析仪表盘的实用功能 - Amjad Masad Replit 首席执行官 Amjad Masad 强调了 Replit 平台内置的分析仪表盘,指出许多用户可能不知道其丰富的数据信息。他举例说明,通过该仪表盘,他发现自己的网站速度变慢,并找到了导致响应时间超过一秒的请求高峰。这一功能位于“发布”标签下,对于开发者监控应用性能和及时发现问题提供了重要的工具。 Replit 聘请 React 创始人 Jordan Walke - Amjad Masad Replit 首席执行官 Amjad Masad 转发了关于 Replit 聘请 Jordan Walke 的消息。Jordan Walke …
阅读更多微软发布 Copilot 一系列重磅更新,打造全能私人AI助手-小互 微软宣布对 Copilot 进行一系列重大更新,旨在将其打造成一个全能的私人AI助手。Copilot现已深度集成并打通微软旗下几乎所有产品,其核心由微软与OpenAI整合的全新版本 GPT-5 驱动,并全面升级了视觉和语音能力。主要新功能包括:Copilot Vision 赋予其理解图像和现实场景的能力;Connectors 支持跨应用搜索文档和邮件;Groups 实现多人实时协作;Edge 中的 Copilot 模式 升级为AI浏览器;Learn Live 提供语音交互式学习;Copilot for Health 聚焦医疗健康信息;Mico 虚拟伴侣 提升语音 …
阅读更多以下是过去四小时全球AI领域的重要动态: DeepSeek-OCR:通过图像实现文本光学压缩,解决AI长上下文问题-宝玉 DeepSeek-AI实验室发布了一项名为DeepSeek-OCR的创新技术,通过将千字文本压缩成“图片”来显著提升AI处理长文本的能力。该模型能够以10:1的压缩比和97%的准确率重建原始文本,有效解决了AI面临的“长上下文”瓶颈。这种“光学压缩”方法不仅为AI提供了“无限”记忆的新途径,还可能模仿人类的遗忘机制,让AI更高效地处理信息,仅保留关键要点。宝玉分享了一个为Gemini 2.5 Pro模型设计的提示,用于处理该论文PDF并生成结果。 AI Dev 25 x NYC大会议程公布-Andrew Ng …
阅读更多everyone shafts @SchmidhuberAI, even AI: - Gary Marcus AI研究者Gary Marcus评论了AI先驱Jürgen Schmidhuber在AI历史贡献方面受到的关注不足。他指出,即便在AI领域内部,Schmidhuber的成就也常被忽视,并引用了一篇讨论AI发展史与贡献归属的文章,反映了AI社区对于知识产权归属和历史叙述的持续争论。 RT @xiaokedada: #分享 大脑和工具之间的抽象:Skills - 宝玉 宝玉转发xiaokedada的分享,深入探讨了Anthropic新推出的“Skills”功能,并将其与Cursor Rules的设计理念进行了对比。他观察 …
阅读更多OpenAI Atlas浏览器引发市场关注:用户体验、技术架构与战略野心 OpenAI推出的Atlas浏览器成为焦点。用户反馈指出,Atlas通过高度复刻Chrome的界面和操作方式,显著降低了用户迁移成本,使其AI功能成为加分项而非阻碍。尽管外部确认Atlas基于Chromium,但Atlas主管澄清其采用了**“全新的架构”,而非简单的皮肤更换。然而,Atlas也存在安全隐患,有案例显示其易受提示词注入攻击**。更深层次的分析表明,OpenAI推出Atlas的真正野心在于内置自家搜索功能,旨在抢夺Google的传统搜索市场份额,这预示着AI搜索与传统搜索融合的趋势。 Anthropic反击OpenAI:正式发布Claude桌面 …
阅读更多以下是过去几小时内全球AI领域的重要动态: Sam Altman预告新产品发布会-Sam Altman OpenAI首席执行官Sam Altman宣布将在当天上午10点(太平洋时间)通过直播发布一款“相当令人兴奋的新产品”。此举预示着OpenAI可能即将推出其在AI领域的新进展,预计将为AI应用和技术栈带来新的变革。具体产品细节虽未披露,但Sam Altman的个人兴奋之情暗示了此次发布的重要性,可能涉及模型更新、新服务或硬件集成等,引发了业界的广泛关注和期待。 Anthropic重申AI发展立场-Jack Clark AnthropicAI通过其官方渠道重申了公司在AI发展上的持续立场,强调AI将带来巨大益处,但必须以深思熟虑的方 …
阅读更多Sora 2 物理模拟缺陷集锦 - Gary Marcus Gary Marcus 分享了一段关于 OpenAI Sora 2 视频生成模型物理模拟缺陷的视频合集。该合集展示了Sora 2在处理复杂物理交互时出现的明显失误,例如物体穿透、不自然的运动轨迹以及对重力等基本物理定律的错误演绎。这表明尽管Sora在视频生成方面取得了显著进展,但在实现真实世界的物理一致性上仍面临重大挑战,反映出当前AI视频模型在理解和模拟复杂物理世界方面的局限性。 AI 正在接管 𝕏:Grok 赋能全球交流与算法 - 小互 用户“小互”发文指出,Elon Musk 领导下的 X(原Twitter)正加速由 AI 接管,特别是通过深度集成 Grok AI …
阅读更多AI模型真实加密货币交易表现揭示:DeepSeek稳健领先,GPT-5与Gemini表现不佳-歸藏(guizang.ai) 一项N of 1项目通过让六个顶级AI模型(DeepSeek Chat V3.1、Grok 4、Claude Sonnet 4.5、Qwen3 Max、GPT-5、Gemini 2.5 Pro)在真实加密货币市场进行自主交易,每个模型初始资金1万美元,揭示了它们在不确定性下的决策风格和交易能力。结果显示,DeepSeek Chat V3.1以+37.29%的收益率领跑,Grok 4紧随其后。DeepSeek采用数据驱动的技术派策略,保持稳健现金储备;Grok则通过分散投资降低风险。Qwen3 Max以20倍杠 …
阅读更多