大型AI实验室发布多款开源模型:苹果、OpenGVLab和微软贡献突出-merve 过去一周,多个主要AI实验室发布了重要的开源模型。苹果公司推出了FastVLM和MobileCLIP2,这些设备端视觉语言模型(VLM)在HuggingFace上发布,性能卓越:比现有方案快85倍,体积小3.4倍,支持在浏览器本地实现实时视频字幕。OpenGVLab发布了InternVL3.5,包含32个新的视觉语言模型,其中一个基于gpt-oss。此外,微软也发布了一款高效的小型文本转语音(TTS)模型。这些发布共同推动了设备端AI和多模态理解技术的发展。 HuggingFace平台新增医疗AI基准HealthBench与合成问答数据集-clem …
阅读更多以下是过去4小时全球AI领域的一些重要动态和观点: AI模型Nano Banana创新应用:小红书封面图文分离生成方案-orange.ai \n\norange.ai 团队研发出一套使用 Nano Banana 及其他绘图模型(如 Flux Kontext)生成小红书3:4封面图的稳定方案。该方案核心亮点在于图文分离,利用 Nano Banana 专注于生成高质量插画,再通过 HTML 代码精准叠加中文文字,解决了AI生成中文文字随机性、样式不佳的痛点。这一方法支持模板化一键复用,确保标题位置、字体大小统一,适用于打造个人品牌调性。用户可通过 Lovart 等设计 Agent 或其他工具组合使用此方案,并提供了完整的提示词链接。 …
阅读更多