OpenAI 计划进军音乐生成领域,并拓展多元产品线-小互 据 The Information 报道,OpenAI 正积极开发音乐生成相关的 AI 能力,计划利用 GPT 作为基础模型,结合专门的音乐数据集来训练模型,以实现从简单旋律到完整歌曲的创作。为此,OpenAI 正在雇佣茱莉亚音乐学院的学生进行音乐数据标注。预计功能将涵盖实时音乐生成、多流派风格自定义以及与 ChatGPT Voice 的结合。值得注意的是,OpenAI 早在 2020 年 4 月就曾推出并开源了音乐生成模型 Jukebox,能够根据歌词、艺术家和流派信息生成多种风格的完整音乐和人声歌曲,新举措或预示着更深入的产品化发展。 OpenAI 全面扩张产品版图, …
阅读更多Veo 3.1 与 Sora 2 视频生成能力对比:各有优劣-向阳乔木 近期对视频生成模型Veo 3.1和Sora 2的对比测试显示,两者在不同方面表现出各自的优势。Veo 3.1 在画质清晰度、动态幅度以及对提示词的遵循度上表现更佳,提供了更高的真实感。然而,其生成的动作有时显得不够自然。相比之下,Sora 2 在剧情叙事理解、画面连贯性以及中文语音的自然度方面则更胜一筹,展现出更强的故事性和语言处理能力。整体而言,Veo 3.1可能在画面细节和动态表现上领先,而Sora 2则在叙事和语言自然度上更具优势。 Gemini API 集成 Google Maps 实现地理位置信息“接地”-Demis Hassabis Google …
阅读更多以下是过去4小时全球AI领域的最新动态: Anthropic 发布 Claude Haiku 4.5 模型 - 歸藏(guizang.ai) Anthropic公司发布了最新的小型模型 Claude Haiku 4.5,该模型在性能上已接近五个月前的顶级模型 Claude Sonnet 4,但成本仅为后者三分之一,速度却提升两倍。尤其在如Claude for Chrome等电脑操作任务中,Haiku 4.5的表现甚至优于Sonnet 4。其定价极具竞争力,输入和输出每百万Token分别仅需1美元和5美元。Haiku 4.5现已全面集成到Claude平台、Claude Code以及Droid CLI中,旨在提供更高效、经济的AI服务。 …
阅读更多以下是过去4小时内全球AI领域的重要动态: Amjad Masad赞扬Jordan在AI品味上的突破 - Amjad Masad Replit CEO Amjad Masad高度赞扬了Jordan (@jordwalke) 在赋予AI卓越品味方面的执着追求,并指出其努力已开始显现成果。这一进展预示着AI在理解和生成更具美学和判断力的内容方面正取得突破性进展,有望为用户带来更精致和个性化的AI体验。 GAGA-1正式发布,可免费生成会说话的生动视频并计划新增竖屏与自定义音色 - 小互 Gaga AI正式推出其GAGA-1模型,现已免费开放使用,无需邀请码。该模型允许用户只需上传一张照片并提供文本提示,即可生成会说话、会表演的生动视频。 …
阅读更多Emad提出“人工普通人智能”(ANI)新概念-Emad Emad Mostaque提出了一个新术语——“人工普通人智能”(Artificial Normie Intelligence, ANI)。他认为,这种AI将难以与普通人在网络或远程工作场景中区分开来,表现“平平”,虽然无法解决量子引力等复杂问题,但足以应对日常任务。这一概念旨在描述一种功能足够但非顶尖的AI形态,暗示AI的普及化可能使其能力趋向“普通”。 ListenHub:最佳AI播客生成器亮相-orange.ai orange.ai分享了ListenHub,并将其宣传为“最好的AI播客生成器”。这款工具利用人工智能技术,为用户提供自动生成播客内容的能力,可能涵盖从脚本 …
阅读更多ElevenLabs 推出全新音视频编辑平台 Studio 3.0-小互 AI语音技术公司ElevenLabs发布了其全新的音视频编辑平台 Studio 3.0。该平台在一个统一界面内集成了AI语音合成、音频编辑、音效添加等多种功能。其核心能力包括自动配音(支持多语言和音色)、语音转文字、声音克隆、根据描述生成背景音乐与音效、多语言配音(自动翻译并生成配音),以及音频清理(去除噪音)。这一平台旨在为内容创作者提供更高效的音视频制作工具。 Wan 团队开源唇形与动作同步模型 Wan‑Animate-歸藏(guizang.ai) Wan团队发布了其强大的开源唇形和动作同步模型 Wan‑Animate。该模型具有极高的自定义程度,能够同 …
阅读更多OpenAI 针对 GPT-5 Thinking 模式新增了“思考时长”调节功能-宝玉 OpenAI为GPT-5的Thinking模式新增了“思考时长”调节功能,允许用户在速度和深入度之间进行选择,以适应不同需求。针对Plus、Pro、Business订阅用户,新增了Standard(标准,新默认模式,兼顾速度与深度)、Quick(更快,但思考不深)和Deep(更慢,但思考更深入)等选项。这一功能旨在提升用户对模型行为的控制力,优化使用体验。 “K-Dense”:多智能体AI科学家在衰老研究中取得新发现-Emad 一款名为“K-Dense”的多智能体AI科学家系统被公布,据称已在衰老研究领域取得了新的发现。这个AI科学家能够自主进 …
阅读更多Gary Marcus 呼吁重新思考AI,超越ML/LLM/RL-Gary Marcus AI研究者Gary Marcus强调,我们需要重新思考人工智能的发展路径,并将其扩展到机器学习、大型语言模型和强化学习之外。他认为,AI系统需要建立**内部因果模型(world models)**才能实现更深层次的理解和通用智能,而非仅仅依赖当前的数据驱动型方法。 可视化故事写作工具,实时呈现时间线、世界地图和角色关系-Emad 一款新型的文字处理器正在利用AI技术,为故事创作者带来革新。该工具在写作过程中能实时可视化故事的时间线、世界地图以及人物关系,帮助作者更好地构思和组织叙事结构,提升创作效率和故事的一致性。 Sam Altman …
阅读更多