2025.10.20.20 过去4小时全球AI发生了什么?
在过去四小时内,AI领域发生了多起引人注目的事件。一场大规模的AWS宕机影响了众多依赖云服务的AI及互联网工具。同时,AI模型在图像和视频生成方面取得了新进展,DeepSeek发布了高效的OCR模型,李飞飞团队也推出了实时视频生成的世界模型。
AWS大宕机影响全球互联网及AI服务-歸藏(guizang.ai)
AWS近日发生大规模故障,导致全球半数互联网服务受到影响,包括Perplexity、Snapchat、Fortnite、Airtable、Canva、Slack等多款常用工具及部分AI服务瘫痪。此次事件凸显了云服务集中化带来的潜在风险,众多企业网站和应用因此受损。据后续消息,服务已陆续恢复,部分受影响的团队也结束了因故障造成的等待时间。
Grok近日展示了其在图像和视频生成方面的新能力。用户现在可以直接上传照片到Grok,无需提示词即可生成视频。此外,Grok还支持将真人图像融入动漫场景,让用户“冒充”动漫人物,并能处理各种真人照片,增加了AI在创意娱乐领域的应用趣味性。
DeepSeek发布新型OCR模型,性能优于dots ocr并大幅减少token预填充-merve
DeepSeek推出了一款全新的OCR模型,其性能表现优于现有的dots ocr模型。该模型在处理文档时,能够将预填充的token数量减少三倍,显著提升了效率,这对于需要处理大量文本识别任务的AI应用来说是一个重要的进展。
CommonForms高质量文档数据集发布,助力VLM任务开发-merve
一个名为CommonForms的高质量文档数据集现已上线,并提供托管服务。该数据集容量达到308GB,旨在为需要大量文档数据的视觉语言模型(VLM)任务提供支持。这对于研究人员和开发者在文档理解、信息抽取等领域进行AI模型的训练和评估具有重要价值。
李飞飞World Labs发布实时视频生成“世界模型”RTFM-歸藏(guizang.ai)
由李飞飞领导的World Labs发布了其全新模型RTFM,这是一个能够实时生成视频的“世界模型”。该模型最大的亮点在于其高效性,可以在单张H100显卡上以交互式帧率运行,并且能够保持无限时长的场景持久性,为视频生成领域带来了突破性的进展。