国内纯AI作品《箭头》发布,展示多模态AI创作新高度-宝玉 国内B站创作者DiDi_OK利用Nano Banana、VEO3、Runway等AI工具,并由Suno生成音乐,创作了一部名为**《箭头》的纯AI短片。该作品以“如果世界是程序,你会继续当NPC吗?”为主题,探讨人类在假想“屏幕世界”中的存在意义。这部作品被评价为国内纯AI创作的新高度,展现了AI在视频生成和音乐创作**方面的强大整合能力与叙事潜力。 Nano Banana Pro 在视觉创作与Prompt工程中的广泛应用-宝玉 Google的Nano Banana Pro模型在多种视觉生成任务中展现了其强大的能力。用户通过精心设计的Prompt,可以创作出高对比度 …
阅读更多以下是过去一段时间全球AI领域的重点新闻和进展: 谷歌Gemini 3 Deep Think的预测及2026年AI行业趋势分析-歸藏(guizang.ai) 谷歌发布了由Gemini 3驱动的Deep Think模型,并基于OpenRouter的报告分析了2026年AI行业发展趋势。预测指出,推理成本将大幅降低,云厂商的商业模式可能从“按Token收费”转向“按任务结果收费”,企业将更愿意为实际解决问题的成果付费。此外,AI基础设施将重构,全面支持有状态架构,使AI Agent能保持数小时甚至数天的“工作记忆”和上下文环境,无需重复上传数据,从而提升Agent的实用性和效率。 阿里巴巴发布Qwen3-TTS语音合成模型-小互 阿里巴 …
阅读更多Google DeepMind发布Gemini 3 Deep Think并预测2026年AI趋势-歸藏(guizang.ai) Google DeepMind已向Google AI Ultra订阅者推出 Gemini 3 Deep Think,该模型融合了IMO和ICPC获奖技术,擅长解决高度复杂的数学和科学问题。基于此模型对2026年AI行业趋势的分析显示,推理成本将趋向“白菜价”,导致云厂商商业模式从“按Token收费”转向“按任务结果收费”。此外,AI基础设施将重构以支持**“长程记忆”服务**,推理平台将支持有状态架构,允许AI Agent在云端保持数小时甚至数天的“工作记忆”和上下文环境,无需每次重复上传数据。 AI在未 …
阅读更多Andrew Ng推出构建工具执行型编码Agent新课程-Andrew Ng Andrew Ng宣布推出一门名为“Building Coding Agents with Tool Execution”的新课程。该课程旨在教授如何构建能编写和执行代码的AI Agent,而非仅仅依赖预定义的函数调用。学员将学习如何在沙盒云环境中安全地运行Agent生成的代码,并深入了解本地、容器化和云执行之间的权衡。课程内容涵盖了创建数据分析Agent(利用Pandas进行数据探索和可视化)以及构建全栈Next.js Web应用Agent等实用技能。 MistralAI发布Ministral 3多模态模型家族-merve (via …
阅读更多以下是过去一段时间全球AI领域的重要动态汇总: Andrew Ng发布AI编码代理新课程:Building Coding Agents with Tool Execution-Andrew Ng Andrew Ng宣布推出一项新课程,专注于教授如何构建具备工具执行能力的AI编码代理。该课程旨在让AI代理超越预定义函数调用,能够编写和执行代码来完成复杂任务,访问完整的编程语言生态系统。学员将学习在沙盒云环境中安全运行代理生成的代码,并掌握构建数据分析代理(使用Pandas)和全栈Next.js Web应用代理的技能,从而更自主地处理文件和错误。 MistralAI发布多模态模型Ministral 3系列-merve MistralAI …
阅读更多今日AI领域呈现出技术跃进与商业落地并存的复杂图景。一方面,Runway、Mistral等公司发布的新一代模型在文生视频、开源语言模型等领域树立了新的标杆,快手“音画同出”模型也预示着多模态生成能力的进一步融合。另一方面,商业化进程中的挑战开始显现,亚马逊因AI配音质量不佳而撤回产品,微软罕见下调AI销售指标,揭示了从技术演示到创造真实客户价值的鸿沟。同时,AI正加速向工业、医疗、自动驾驶等实体产业渗透,而端侧AI的兴起和脑机接口的进展,则共同勾勒出下一代人机交互的未来轮廓。 Runway Gen-4.5 发布,大幅提升文本到视频AI生成质量 Runway 推出了其最新的文生视频模型 Gen-4.5,该模型在生成视频的真实感和物理一 …
阅读更多Kling AI 发布原生音画同步模型 VIDEO 2.6 - 小互 Kling AI 发布了其最新的原生音画同步模型 VIDEO 2.6。该模型与Veo 3类似,能直接生成声音,不再需要外部配音或后期合成。其核心功能包括支持中英双语多人物对白、生成环境音效(如风声、脚步声、碰撞声)及情绪化声音。模型通过一次推理同时完成画面和音频生成,确保嘴型、节奏和气氛的自然同步,解决了传统AI视频中常见的“嘴型不对、情绪不连贯”问题。VIDEO 2.6支持5秒/10秒的1080P视频生成,并在动作、镜头衔接和故事节奏上表现出更强的稳定性。 Anthropic 红队利用AI攻击区块链,成功盗走460万美金 - 小互 Anthropic 红队 …
阅读更多Mistral AI 发布 Mistral 3 系列多模态模型,性能超越 Kim 2-小互 Mistral AI 重磅发布了其最新的 Mistral 3 系列模型,包括大型稀疏专家混合(MoE)模型 Mistral Large 3(41B活跃参数/675B总参数)以及面向端侧运行的 Ministral 3 系列(3B, 8B, 14B稠密模型)。Mistral Large 3 支持图像输入与分析,原生支持十余种主要语言,对系统指令遵循度高,并具备原生函数调用和结构化JSON输出能力,其 256K tokens的超长上下文窗口在开源模型中名列前茅。在LMArena榜单中,Mistral Large 3 位列开源非推理模型第二,开源总 …
阅读更多Mistral AI 发布 Mistral 3 系列模型-小互 Mistral AI 重磅发布了其 Mistral 3 系列模型,包括大型稀疏专家混合(MoE)模型 Mistral Large 3(总参数675B,活跃参数41B),以及面向端侧设备的小型稠密模型系列(3B、8B、14B)。这些模型在性能上超越了Kim 2,并支持图像输入与分析、原生函数调用、结构化JSON输出,且原生支持十余种主流语言。Mistral Large 3 还提供了 256K tokens 的超长上下文窗口。在 LMArena 榜单中,Mistral Large 3 在开源非推理模型中排名第二,在开源总体模型中排名第六。 炸裂 Anthropic 红队利 …
阅读更多以下是过去一段时间全球AI领域的重要动态: Runway 发布 Gen-4.5 视频生成模型,注重物理与视觉精度 - 歸藏(guizang.ai) Runway 推出了其最新视频生成模型 Gen-4.5。虽然该版本未带来范式革新,但其在多方面进行了显著升级,包括提升了物理与视觉精度,能够处理更复杂场景与详细构图。模型在物理准确性方面有所增强,并能生成更富有表现力的角色。此外,Gen-4.5 也优化了风格化与风格一致性,使其在生成电影感与真实日常场景时表现更佳。 国产AI视频生成应用内测,音画同步但风格抽象 - 向阳乔木 一项国产AI视频生成应用目前正在进行内测。该应用声称能够实现音画同步,这是一项重要的技术突破。然而,测试用户反馈其 …
阅读更多