2025.12.18.00 过去4小时全球AI发生了什么?
以下是过去一段时间全球AI领域的重要动态汇总:
OpenAI发布Images 1.5模型,提升图像生成能力-Sam Altman
OpenAI正式发布了其最新的图像生成模型Images 1.5,现已在ChatGPT和API中上线。OpenAI首席执行官Sam Altman指出,新模型在图像质量、生成速度和编辑能力方面均有显著提升。此前,业界已有多方预测和讨论,例如归藏(guizang.ai)、小互和向阳乔木等都提到OpenAI即将发布新的图像模型,并预计将引发图像生成领域的新热潮。此模型有望在现有市场竞争中脱颖而出,推动图像创作的进一步发展。
Google联合创始人谢尔盖·布林斯坦福演讲:回顾历史,洞察AI未来-向阳乔木
Google联合创始人谢尔盖·布林在斯坦福工程学院百年庆典上发表了深入演讲。他回顾了Google的创立历程,强调了运气和导师自由教育的重要性。布林坦承Google在AI领域的一些失误,例如未能充分利用Transformer论文和早期聊天机器人,导致OpenAI抢占先机。他还分享了对未来大学教育模式、AI发展方向及被低估技术的看法,特别指出AI在创意性任务上的优势以及其作为个人能力放大器的潜力,同时呼吁关注材料科学和分子生物学等领域。
小米发布MiMo-V2-Flash开源MoE模型,专为Agentic AI设计-clem 🤗
小米推出了一款名为MiMo-V2-Flash的全新开源MoE(Mixture-of-Experts)模型,专为Agentic AI设计,总参数量达309B。该模型以其卓越的**速度(150 tokens/秒)**和先进的混合滑动窗口注意力机制脱颖而出,并在27万亿个token上进行了FP8混合精度训练。初步评估显示,MiMo-V2-Flash在多个基准测试中表现出色,甚至以更少的参数与现有领先模型竞争,展现了强大的性能和效率。
Molmo 2在图像和视频任务中刷新开放模型SOTA记录-merve
Molmo 2作为一款新的开放模型,在图像和视频任务中取得了**最先进(SOTA)**的成果。该模型基于SigLIP2和Qwen3架构,并提供三种不同尺寸。特别值得一提的是,它包含一个独立的4B模型,专注于视频指向/计数任务,在此方面也达到了SOTA水平。Molmo 2采用Apache 2.0许可发布,同时还开放了图像和视频数据集,将进一步推动开源AI社区在该领域的研究和应用。
Google Labs推出Gmail AI效率代理“CC”:日程智能概览-Demis Hassabis
Google Labs推出了一项名为“CC”的实验性AI效率代理,集成于Gmail中。该代理旨在提升用户的工作效率,例如可以提供**“今日日程概览”**等功能。这一创新是Google持续探索AI在日常生产力工具中应用的一部分,旨在通过自动化和智能辅助,帮助用户更好地管理时间和任务。
Amjad Masad分享AI验证/测试代理的构建经验-Amjad Masad
Replit首席执行官Amjad Masad撰文分享了关于如何构建AI验证/测试代理的经验。这篇文章深入探讨了其团队在开发此类代理过程中的方法和技术细节,强调了AI在自动化软件质量保证方面的潜力。构建高效的验证/测试代理对于确保AI系统在复杂环境中的可靠性和稳定性至关重要,为AI驱动的开发流程提供了宝贵见解。
Google DeepMind播客:探讨计算前沿与AI奥秘-Demis Hassabis
Google DeepMind的首席执行官Demis Hassabis在最新一季的获奖播客中,与@FryRsquared深入探讨了计算的边界、心智的本质以及AI如何帮助我们理解宇宙最深层奥秘的乐观前景。播客聚焦于人工智能的宏大愿景及其在科学探索中的作用,标志着本季播客的圆满结束。
MSL(Microsoft Speech and Language)团队宣布发布了一款名为SAM Audio的新型开放音频模型。这一发布旨在推动音频AI领域的研究和发展,为开发者和研究人员提供了新的工具和资源,以探索更先进的语音处理、音频识别及生成应用,预示着音频AI技术可能迎来新的突破。
腾讯发布HY World 1.5 (WorldPlay) 世界模型:实时交互与长期记忆-clem 🤗
腾讯公布了其最新的HY World 1.5 (WorldPlay) 世界模型。该模型的一大亮点是其具备实时交互和长期记忆能力,这对于构建更沉浸式和智能化的虚拟世界体验至关重要。此项技术进展预示着在游戏、元宇宙以及其他虚拟应用领域可能迎来新的突破,为用户带来更智能、更逼真的数字体验。
Claude的代码编辑器迎来了一系列重要更新,旨在提升开发者的使用体验。新功能包括语法高亮,使代码阅读更加清晰;提示词建议,帮助用户更高效地编写代码;以及官方插件市场,提供更多扩展功能。此外,还新增了“可分享的访客通行证”功能,虽然具体含义有待进一步官方说明,但预计将增强协作和分享的便利性。
智能成本三年内下降千倍,创新普及前所未有-Peter H. Diamandis, MD
未来学家Peter H. Diamandis, MD指出,在过去三年里,智能的获取成本已经下降了近1000倍,这使得创新变得前所未有的普及和可及。这一趋势预示着未来十年,技术进步和创新将加速,对各行各业产生深远影响,尤其是在AI领域,极低的智能获取成本将催生更多颠覆性应用和解决方案。
呼吁对大型语言模型(LLMs)进行“道德机器”研究-sarah guo
sarah guo提出了一个关键问题,即目前缺少针对大型语言模型(LLMs)的“道德机器”研究。这一呼吁强调了在AI伦理领域,需要像自动驾驶汽车领域的“道德机器”实验那样,对LLMs在面对复杂伦理困境时的决策机制进行深入探讨和评估,以确保其行为符合人类的价值观和道德标准。
Gemini深度研究功能强化视觉学习体验-Demis Hassabis
Gemini应用宣布其“深度研究”功能得到升级,用户现在不仅可以深入阅读某个主题,还能通过视觉化的方式直观地看到其概念。这一改进极大地提升了学习体验,使得复杂信息的理解更为直观和高效,代表了AI在教育和知识获取领域的新进展,使用户能更全面地掌握知识。
宝玉分享了一个由GPT设计的高级提示词,用于生成高细节的3D等距图标,灵感来源于迪特·拉姆斯(Dieter Rams)的博朗(Braun)设计风格。该提示词被证实适用于GPT和Nano Banana Pro等图像生成模型,为用户提供了一种简单有效的方法,来创作具有特定美学和专业品质的视觉内容,极大地简化了设计流程。
彼得·戴曼迪斯展望:80岁将是新的50岁-Peter H. Diamandis, MD
未来学家Peter H. Diamandis, MD发表了对未来长寿趋势的展望,他大胆预测“80岁将是新的50岁”。这一观点暗示随着生物技术、人工智能和医学的快速发展,人类的健康寿命将显著延长,老年生活质量将大幅提升,重塑社会对年龄和生产力的认知。