罗永浩科技春晚评价两极化,且听App被指认知停留在GUI时代-向阳乔木 罗永浩的“且听”科技春晚收到了“灾难性”的评价。资深产品经理海庚指出,发布会效果不佳,更重要的是罗永浩对AI的认知可能停留在GUI时代,未能跟上Agent、AI克隆声音等前沿技术趋势。且听App的UI风格被评论为与十年前无异,显示出其在AI理解和应用上的滞后。尽管如此,罗永浩十五年的创业之路仍令人感慨。 AI与开源助力Reachy Mini机器人假日自修-clem 🤗 在假期期间,Clement Delangue的Reachy Mini机器人出现故障,但在AI助手@cursor_ai的辅助下成功进行了自我维修。此次经历凸显了AI和开源技术在提升用户自主维修和改 …
阅读更多过去4小时全球AI要闻回顾 OpenAI Images 1.5 正式发布,提升图像生成与编辑能力-Sam Altman OpenAI正式发布了Images 1.5图像生成模型,现已在ChatGPT和API中上线。该版本在图像质量、生成速度和编辑能力方面均有显著提升,并提供了在ChatGPT中轻松创建趣味图像的新方式。OpenAI CEO Sam Altman表示,这是他们今天推出的“非常有趣”的新功能。 GPT 5.2 Pro 获用户高度评价,被视为“范式转变”-Sam Altman OpenAI CEO Sam Altman转发的用户反馈显示,GPT 5.2 Pro在实际应用中带来了“范式转变”,特别是在代数几何和数论研究等需要长 …
阅读更多以下是过去4小时全球AI领域的主要动态: Baseten推出Kimi K2 Thinking模型-sarah guo Baseten 公司正式推出了全新的 Kimi K2 Thinking 模型,旨在为用户提供强大的思维辅助能力,特别适用于处理复杂的认知任务。这一发布强调了AI在增强人类思考过程和提升问题解决效率方面的应用潜力,预示着未来AI工具将更深入地融入日常工作流程,帮助用户进行更高效的概念构思和决策制定。 知名AI社区贡献者Fofr加入DeepMind-歸藏(guizang.ai) 在AI社区享有盛誉的贡献者 fofr 现已正式加盟 DeepMind。fofr此前在Replicate工作,并以其在Nano Banana …
阅读更多OpenAI 计划进军音乐生成领域,并拓展多元产品线-小互 据 The Information 报道,OpenAI 正积极开发音乐生成相关的 AI 能力,计划利用 GPT 作为基础模型,结合专门的音乐数据集来训练模型,以实现从简单旋律到完整歌曲的创作。为此,OpenAI 正在雇佣茱莉亚音乐学院的学生进行音乐数据标注。预计功能将涵盖实时音乐生成、多流派风格自定义以及与 ChatGPT Voice 的结合。值得注意的是,OpenAI 早在 2020 年 4 月就曾推出并开源了音乐生成模型 Jukebox,能够根据歌词、艺术家和流派信息生成多种风格的完整音乐和人声歌曲,新举措或预示着更深入的产品化发展。 OpenAI 全面扩张产品版图, …
阅读更多Veo 3.1 与 Sora 2 视频生成能力对比:各有优劣-向阳乔木 近期对视频生成模型Veo 3.1和Sora 2的对比测试显示,两者在不同方面表现出各自的优势。Veo 3.1 在画质清晰度、动态幅度以及对提示词的遵循度上表现更佳,提供了更高的真实感。然而,其生成的动作有时显得不够自然。相比之下,Sora 2 在剧情叙事理解、画面连贯性以及中文语音的自然度方面则更胜一筹,展现出更强的故事性和语言处理能力。整体而言,Veo 3.1可能在画面细节和动态表现上领先,而Sora 2则在叙事和语言自然度上更具优势。 Gemini API 集成 Google Maps 实现地理位置信息“接地”-Demis Hassabis Google …
阅读更多以下是过去4小时全球AI领域的最新动态: Anthropic 发布 Claude Haiku 4.5 模型 - 歸藏(guizang.ai) Anthropic公司发布了最新的小型模型 Claude Haiku 4.5,该模型在性能上已接近五个月前的顶级模型 Claude Sonnet 4,但成本仅为后者三分之一,速度却提升两倍。尤其在如Claude for Chrome等电脑操作任务中,Haiku 4.5的表现甚至优于Sonnet 4。其定价极具竞争力,输入和输出每百万Token分别仅需1美元和5美元。Haiku 4.5现已全面集成到Claude平台、Claude Code以及Droid CLI中,旨在提供更高效、经济的AI服务。 …
阅读更多以下是过去4小时内全球AI领域的重要动态: Amjad Masad赞扬Jordan在AI品味上的突破 - Amjad Masad Replit CEO Amjad Masad高度赞扬了Jordan (@jordwalke) 在赋予AI卓越品味方面的执着追求,并指出其努力已开始显现成果。这一进展预示着AI在理解和生成更具美学和判断力的内容方面正取得突破性进展,有望为用户带来更精致和个性化的AI体验。 GAGA-1正式发布,可免费生成会说话的生动视频并计划新增竖屏与自定义音色 - 小互 Gaga AI正式推出其GAGA-1模型,现已免费开放使用,无需邀请码。该模型允许用户只需上传一张照片并提供文本提示,即可生成会说话、会表演的生动视频。 …
阅读更多Emad提出“人工普通人智能”(ANI)新概念-Emad Emad Mostaque提出了一个新术语——“人工普通人智能”(Artificial Normie Intelligence, ANI)。他认为,这种AI将难以与普通人在网络或远程工作场景中区分开来,表现“平平”,虽然无法解决量子引力等复杂问题,但足以应对日常任务。这一概念旨在描述一种功能足够但非顶尖的AI形态,暗示AI的普及化可能使其能力趋向“普通”。 ListenHub:最佳AI播客生成器亮相-orange.ai orange.ai分享了ListenHub,并将其宣传为“最好的AI播客生成器”。这款工具利用人工智能技术,为用户提供自动生成播客内容的能力,可能涵盖从脚本 …
阅读更多ElevenLabs 推出全新音视频编辑平台 Studio 3.0-小互 AI语音技术公司ElevenLabs发布了其全新的音视频编辑平台 Studio 3.0。该平台在一个统一界面内集成了AI语音合成、音频编辑、音效添加等多种功能。其核心能力包括自动配音(支持多语言和音色)、语音转文字、声音克隆、根据描述生成背景音乐与音效、多语言配音(自动翻译并生成配音),以及音频清理(去除噪音)。这一平台旨在为内容创作者提供更高效的音视频制作工具。 Wan 团队开源唇形与动作同步模型 Wan‑Animate-歸藏(guizang.ai) Wan团队发布了其强大的开源唇形和动作同步模型 Wan‑Animate。该模型具有极高的自定义程度,能够同 …
阅读更多OpenAI 针对 GPT-5 Thinking 模式新增了“思考时长”调节功能-宝玉 OpenAI为GPT-5的Thinking模式新增了“思考时长”调节功能,允许用户在速度和深入度之间进行选择,以适应不同需求。针对Plus、Pro、Business订阅用户,新增了Standard(标准,新默认模式,兼顾速度与深度)、Quick(更快,但思考不深)和Deep(更慢,但思考更深入)等选项。这一功能旨在提升用户对模型行为的控制力,优化使用体验。 “K-Dense”:多智能体AI科学家在衰老研究中取得新发现-Emad 一款名为“K-Dense”的多智能体AI科学家系统被公布,据称已在衰老研究领域取得了新的发现。这个AI科学家能够自主进 …
阅读更多