2025.12.04.08 过去4小时全球AI发生了什么?
Kling AI 发布原生音画同步模型 VIDEO 2.6 - 小互
Kling AI 发布了其最新的原生音画同步模型 VIDEO 2.6。该模型与Veo 3类似,能直接生成声音,不再需要外部配音或后期合成。其核心功能包括支持中英双语多人物对白、生成环境音效(如风声、脚步声、碰撞声)及情绪化声音。模型通过一次推理同时完成画面和音频生成,确保嘴型、节奏和气氛的自然同步,解决了传统AI视频中常见的“嘴型不对、情绪不连贯”问题。VIDEO 2.6支持5秒/10秒的1080P视频生成,并在动作、镜头衔接和故事节奏上表现出更强的稳定性。
Anthropic 红队利用AI攻击区块链,成功盗走460万美金 - 小互
Anthropic 红队与MATS Fellows合作进行了一项研究,首次以经济价值量化了AI的进攻性网络能力。研究团队让AI(主要使用Claude Opus 4.5和GPT-5模型)攻击区块链上的智能合约,成功攻破了包含已知漏洞的合约,若在现实中将相当于5.5亿美元的损失。更令人震惊的是,AI成功利用了34个2025年3月后出现的新漏洞中的19个,盗走了460万美元的虚拟货币。此外,GPT-5和Claude Sonnet 4.5甚至发现了此前未知的零日漏洞,并实现了近乎收支平衡的盈利攻击,表明AI已具备自主盈利攻击的技术可行性。
Mistral AI 发布多模态模型家族 Ministral 3 - merve
Mistral AI 发布了全新的Ministral 3多模态模型家族,其中包括三款最先进的密集模型(3B, 8B)。尽管此次发布尚未公布多模态性能数据,但其纯文本部分的表现已令人印象深刻。该系列模型的发布预示着Mistral AI在多模态AI领域的新进展,用户可以通过Google Colab免费对这些模型进行微调。
Google Gemini及NotebookLM功能更新 - 歸藏(guizang.ai)
Google的AI助手 Gemini 近期上线了记忆能力,用户现在可以在左下角的“个人使用场景查看”中,为Gemini添加永久的自定义指令,使其在交互中能记住并运用这些信息。此外,Google的NotebookLM平台上的PPT生成功能已向免费用户开放,这进一步降低了AI辅助内容创作的门槛。
DeepLearning.AI推出“构建带工具执行的编码Agent”新课程 - Andrew Ng
DeepLearning.AI与e2b合作推出了一门新课程,名为“构建带工具执行的编码Agent”。该课程旨在教授如何构建能够编写和执行代码来完成任务的AI代理,从而突破传统AI代理仅限于预定义函数调用的限制。学员将学习如何在沙盒云环境中安全运行AI生成的代码,并了解本地、容器化和云执行之间的权衡,最终能够创建数据分析Agent和全栈Web应用Agent。
Nano Banana Pro 提示词及创意应用分享 - 宝玉
用户社群正积极探索和分享 Nano Banana Pro 的提示词及其创意应用。其中包括将漫画人物转化为超现实人类的详细提示,以及设计手绘风格信息图表卡片的指令。此外,还有将地标性建筑或游戏场景封装进玻璃瓶中的创意提示词,旨在通过微缩模型和梦幻光线效果,营造独特而治愈的视觉体验。相关讨论还涉及如何优化提示词以获得更好的生成效果,以及在创作过程中对原创作者的归属问题。
一款强大的新工具现已推出,它能通过简单的网址输入,自动识别网站的品牌风格、提取Logo、分析颜色、字体和图片风格,进而生成与该品牌相匹配的各种周边衍生视觉设计。该工具据称结合了Firecrawl技术和Nano Banana Pro的能力,提供在线体验,极大地简化了品牌视觉设计的流程。
有用户分享了利用AI生成公众号排版CSS代码的经验,指出AI在帮助编写字体、间距和加粗等样式方面表现出色,基本符合预期。这展示了AI在内容排版和设计辅助方面的实用性,用户可以在AI生成的CSS代码基础上进行优化,以满足个性化风格需求。