过去4小时全球AI要闻速览 Google Gemini 3 Deep Think 预测2026年AI行业趋势-歸藏(guizang.ai) 谷歌发布了其最强模式Gemini 3驱动的Deep Think,并基于OpenRouter报告分析了2026年AI行业发展趋势。主要预测包括:推理成本将大幅降低,云厂商计费模式可能从“按Token收费”转向“按任务结果收费”;同时,基础设施将重构以服务“长程记忆”,推理平台将全面支持有状态架构,使AI Agent能保持数小时甚至数天的“工作记忆”和上下文环境。 阿里巴巴发布 Qwen3-TTS 语音合成模型-小互 阿里巴巴发布了Qwen3-TTS文本转语音模型,重点优化了语音的自然度、韵律控制与 …
阅读更多以下是过去4小时全球AI领域的精选动态: Andrew Ng:西方世界对AI缺乏信任 Edelman和Pew Research的报告显示,美国及大部分欧洲和西方国家民众对AI持不信任态度,缺乏热情。相比之下,中国对AI的接受度更高。这种普遍的不信任阻碍了AI的普及和重要项目的推进,例如导致谷歌在印第安纳州的数据中心计划受阻,并增加了阻碍AI发展的立法风险。吴恩达呼吁AI社区应坦诚面对AI的益处与潜在危害,积极解决问题,并纠正媒体对AI危险性的过度炒作,以重建公众信任。 OpenAI推出AI“告解室”机制,提升模型诚实度 OpenAI最新研究引入了名为“confessions”(告解)的方法,旨在让AI诚实反馈其回答中是否存在偷懒、作 …
阅读更多Runway 发布 Gen-4.5 视频生成模型,增强物理与视觉精度-歸藏(guizang.ai) Runway 发布了其最新的视频生成模型Gen-4.5。尽管此次更新未带来范式级别的革新,但模型在多个核心能力上取得了显著提升,包括物理与视觉精度、复杂场景与详细构图、物理准确性、富有表现力的角色、风格化与风格一致性,以及电影感与真实日常场景的生成。此外,Gen-4.5还全面升级了控制方式,支持图片转视频、关键帧控制和视频转视频编辑,使得创作流程更加灵活,用户体验接近专业视频剪辑软件。 DeepSeek V3.2 正式版发布,强化 Agent 能力并融入思考推理-Orange AI DeepSeek V3.2 正式版已推出,该版本显 …
阅读更多字节跳动发布“豆包手机助手”技术预览版-小互 字节跳动推出了“豆包手机助手”技术预览版,该产品具备强大的多模态识别与交互能力,支持跨应用操作手机,并通过语音、AI键或耳机唤醒。豆包助手还拥有个性化记忆功能,能够从历史对话和屏幕信息中提取关键数据,提供生活琐事回忆和喜好记忆,并强调数据本地处理以保护隐私。其核心亮点是App Agent能力,能模拟用户操作,自动执行全网比价、生活服务自动化及办公审批等任务。此外,豆包助手还支持系统原生的多模态生成与编辑,例如智能修图,并提供了针对复杂任务的“Pro模式”,能进行多步骤的复杂任务规划和执行,例如跨平台预订旅行。该版本通过与手机厂商的系统集成,获得了更深层的操作权限。 ChatGPT 发布 …
阅读更多以下是过去一段时间全球AI领域的重要动态: AI驱动的研究效率提升500倍-Peter H. Diamandis, MD Peter H. Diamandis博士指出,AI驱动的研究方法现在比传统方法快500倍。这一显著的效率提升预示着科学发现和技术进步将迎来前所未有的加速,有望在各领域带来颠覆性影响。 FLUX.2图像生成与编辑模型发布及测试反馈-merve / 歸藏(guizang.ai) / clem 🤗 FLUX.2,一个全新的先进图像生成与编辑模型,现已发布。该模型采用单文本编码器(Mistral Small 3.1)和DiT架构,并支持多种量化方案(如QLoRA,以减少对超过80GB显存的需求),同时提 …
阅读更多FLUX.2图像生成与编辑模型发布 - merve FLUX.2是一款功能强大的图像生成与编辑模型,现已发布。该模型采用单一文本编码器(Mistral Small 3.1)和DiT架构,并支持不同的量化方案,适用于推理和训练(QLoRA),在需要80GB以上显存的场景下尤其有用。FLUX.2还提供了对Diffusers的即日支持,并支持使用SAM3掩码进行图像修复和视频修复。有用户测试发现其2K分辨率版本一致性较好,甚至优于Banana模型,但在中文和提示词遵循上仍存在问题。它对设计师友好,能精准控制色值,但LLM部分在世界知识和多模态推理上不如Banana。 AI在研究领域的应用速度提升显著 - Peter H. …
阅读更多ChatGPT 上线群聊功能 - 小互 ChatGPT 已正式上线群聊功能,支持最多20人共同与AI互动。该功能具备智能判断发言时机、被 @ 提及时强制响应、支持 emoji 表情以及在图片生成中引用用户头像加入个性化元素等特性。目前,该功能正在日本、新西兰、韩国和台湾地区进行试点。群聊还提供了丰富的管理选项,包括自定义群名、成员管理、静音通知,以及为群聊单独设置自定义指令(Custom Instructions),允许用户定义ChatGPT在群聊中的语气、角色或参与方式,例如使其扮演“会议记录助理”或“语气更轻松幽默”的角色。 免费语音转文字工具“代体”改名为“闪电说” - 向阳乔木 免费语音转文字工具“代体”已更名为“闪电 …
阅读更多以下是过去4小时内全球AI领域的重要动态梳理: Fei-Fei Li on World Labs’ Marble & 3D World Generation-Fei-Fei Li AI领军人物李飞飞参与的World Labs正式发布其3D世界生成模型Marble,现已面向所有用户开放。该模型被定位为“空间智能未来”的基石,旨在通过其强大的生成能力激发用户的创造力和想象力。此项发布获得了业界广泛关注,知名投资人Garry Tan称之为一项“重要发布”,强调了AI在构建沉浸式数字环境方面的潜力,预示着空间计算领域的进一步发展。 Emad讨论用于大型语言模型的硬件需求-Emad Emad就名为“Gabecube”的AI硬件规格进行了讨论, …
阅读更多FII峰会探讨超级智能的未来与经济影响-Peter H. Diamandis, MD 在未来投资倡议(FII)峰会的一次对话中,Eric Schmidt和李飞飞深入探讨了超级智能的到来及其影响。他们预测“口袋里的爱因斯坦”将使数十亿人拥有IQ-148的智能,AI有望使医疗、教育和交通服务几乎免费。对话还强调了人类最后的优势在于尊严、自主性和想象力。展望未来,预计到2030年,AI将带来高达 15万亿美元 的经济增益。 OpenAI迎来新成员,加强计算基础设施建设-Sam Altman OpenAI首席执行官Sam Altman宣布,@sk7037已加入OpenAI团队,将负责设计和构建公司的计算基础设施。这一举措表明OpenAI正 …
阅读更多Demis Hassabis分享Gemini API新文件搜索工具-Demis Hassabis Google DeepMind首席执行官Demis Hassabis分享了Gemini API新推出的文件搜索工具。该工具是一个托管的检索增强生成(RAG)解决方案,为开发者提供免费存储和免费查询时间嵌入。此举旨在帮助开发者更高效地处理和检索信息,从而提升AI应用的性能和易用性,降低开发门槛。 AI的“拨号上网时代”:就业、泡沫与未来变形-宝玉 宝玉分享了一篇名为《AI’s Dial-Up Era》的文章,将当前的AI时代与1995年的互联网拨号时代进行类比。文章指出,当前关于AI将导致大规模失业或创造更多工作的争论,以及AI是泡沫还 …
阅读更多