过去4小时全球AI要闻回顾 Runway 发布 Gen-4.5 视频生成模型:多维度升级,控制更灵活 Runway 发布了其最新的 Gen-4.5 视频生成模型,尽管未带来范式上的革新,但在多方面进行了显著升级。新模型提升了物理与视觉精度,能够处理更复杂场景与详细构图,增强了物理准确性,并能生成富有表现力的角色。同时,Gen-4.5 在风格化与风格一致性方面也有进步,能创造出更具电影感和真实日常场景的视频。此外,模型还全面升级了控制方式,除了文字生成视频 (Text to Video),还支持图片转视频、关键帧控制及视频转视频编辑,使创作流程更加灵活,接近专业视频剪辑软件的体验。 DeepSeek V3.2 正式发布: …
阅读更多重新定义机器人与人类工作关系-Peter H. Diamandis, MD Peter H. Diamandis博士提出,关于“人形机器人将取代人类工作”的说法是错误的。他认为,机器人的真正作用是承担人类不擅长或具有风险的任务,从而使人类能够专注于发挥自己的长处和优势。这一观点强调了AI与人类协作的未来,而非简单的替代关系。 AI在灾区、诊所及冲突区域的自主配送应用-Peter H. Diamandis, MD Peter H. Diamandis博士指出,尽管自主配送系统可能从家用场景开始普及,但它们在灾区、诊所和冲突区域将发挥至关重要的作用。这些系统能够以快速且安全的方式向最需要帮助的人提供援助,展示了AI技术在人道主义和紧急 …
阅读更多中国在开放AI模型市场超越美国-clem 🤗 一项由麻省理工学院和Hugging Face联合发布的研究指出,中国在开放AI模型的全球市场中已超越美国。这一突破性的进展标志着全球AI格局的重大变化,中国在开源AI生态系统中的影响力显著增强。 Z-Image Turbo模型登顶Hugging Face排行榜-clem 🤗 由Ali_TongyiLab开发的Z-Image Turbo模型在Hugging Face的模型排行榜上表现出色,位居榜首。这表明该模型在性能和社区关注度方面取得了显著成就,进一步推动了图像生成领域的发展。 Hugging Face指令数据集的再生与优化-clem 🤗 有专家提出,可以从Hugging Face中挑 …
阅读更多AI模型提示词优化与图像生成新进展 多个作者分享了AI在提示词工程和图像生成方面的最新实践。其中,有讨论如何将特定场景的提示词转化为通用模板,使AI能够根据动态输入(如地名和天数)生成个性化的旅游手账插画。此外,Gemini的Nano Banana Pro模型被提及,它通过在绘图前搜索资料来显著提升图片质量和准确性,尤其在生成写实照片和头像方面表现突出。还有用户展示了如何利用Gemini优化提示词,以创作更具真实感的教育科普漫画和视频讲解,甚至可以生成高度逼真的名人视频内容。 AI代理发展与挑战 AI代理技术正在不断进步,一个可自我改进的“Droid Bot”在Telegram上被开发出来,并能自主修复和优化自身功能。与此同时,行 …
阅读更多今日AI领域呈现出从云端向物理世界加速渗透的趋势。具身智能成为焦点,小米和长安汽车相继宣布在人形机器人领域的重大布局,而清华系团队在核心的AI触觉感知技术上取得突破,为机器人的物理交互奠定了基础。同时,AI在各行业的应用持续深化,货拉拉展示了AI如何优化物流效率,Adobe则将AI更深度地集成到创意工具中。然而,亚马逊员工的联名信也揭示了AI快速部署背后,关于工作流程、效率与员工负担的现实矛盾,凸显了技术落地过程中的挑战。 雷军:未来5年,人形机器人将大面积在小米工厂上岗 小米创始人雷军表示,未来五年内,人形机器人将在小米的工厂中被大规模应用。他认为人工智能将深刻变革传统产业,所有行业都值得利用AI进行重塑。该消息还提及,淘宝的即时 …
阅读更多Google AI负责人Jeff Dean揭示AI指数级增长奥秘-向阳乔木 Google AI负责人Jeff Dean在斯坦福的分享中指出,当前AI的强大是过去十五年技术叠加的产物,而非单一突破。他回顾了AI发展中的关键里程碑,包括2012年Google Brain项目实现无监督学习识别猫,以及Word2Vec让机器理解语言语义。算力方面,Google于2015年推出TPU专用芯片,性能比CPU和GPU快15-30倍,能效高30-80倍,并持续迭代。2017年的Transformer架构大幅提升了模型效率与准确率,成为现代大模型的基础。Jeff Dean强调,AI进步是指数级的,例如Google的模型两年内从15%的初中数学题准确 …
阅读更多Google AI负责人Jeff Dean分享AI快速发展历程-向阳乔木 Google AI负责人Jeff Dean在一场分享中回顾了AI从2012年到2024年的指数级发展。他指出,AI的强大是过去十五年技术叠加的产物,包括2012年Google Brain的无监督学习(识别猫)、Word2Vec提升语言理解、2015年TPU(Tensor Processing Unit)解决算力危机(比CPU/GPU快15-30倍,能效高30-80倍),以及2017年Transformer架构的诞生。Dean还介绍了稀疏模型、蒸馏和思维链等训练技巧。他强调,AI从2022年解决初中数学题(15%准确率)到2024年Gemini 2.5 Pro …
阅读更多sfcompute 获得 4000 万美元融资并招聘 Linux 程序员 - Ben Tossell sfcompute 公司近日宣布成功完成 4000 万美元融资,并正在积极招募 Linux 程序员,以支持其超级计算机项目。这一发展表明了在高性能计算和人工智能基础设施领域持续的投资热度,旨在加速前沿技术的研发与落地。 Gary Marcus 持续批评大型语言模型与 AGI 发展 - Gary Marcus 知名 AI 批评家 Gary Marcus 再次就大型语言模型(LLMs)能否实现通用人工智能(AGI)发表了强硬观点。他指责 Yann LeCun 盗用其 2022 年关于 LLM 扩展瓶颈和 AGI 局限性的论 …
阅读更多HuggingFace与Google Cloud每日数据传输量突破1500TB-merve HuggingFace CEO Clement Delangue透露,每天有超过 1,500太字节(Terabytes)的开源模型和数据集在HuggingFace与Google Cloud之间进行下载和上传。这一庞大的数据流量突显了开源AI生态系统的活跃度和规模,以及云计算基础设施在支持AI模型开发和共享方面所扮演的关键角色。这表明了社区对开放AI资源的强烈需求,以及对AI技术普及化的巨大推动。 VLAb:机器人视觉-语言-动作模型预训练工具包发布-merve 一款名为 VLAb 的新型预训练工具包已发布,专为机器人领域的视觉-语言-动 …
阅读更多AI 提炼 Reddit 热帖:独立开发者为何“穷得叮当响”及破局之道-宝玉 一位开发者利用 Gemini 2.5 Pro 模型和特制提示词,深入分析了 Reddit 上一篇关于独立开发者“副业项目”失败原因的热帖。该讨论揭示了独立黑客普遍面临的困境:沉迷于为彼此制造工具的“公开构建”陷阱,导致目标客户群体(其他技术精明但缺乏付费意愿的独立黑客)市场价值低。同时,转向“无聊”但有潜在商机的传统行业也面临领域知识、客户验证和信任的巨大门槛。讨论最终指出,破局之道在于与拥有精准受众和信任的内容创作者合作,为其提供能直接增加销售额、快速回本的技术产品,将“卖工具”转变为“卖钱”。 微博开源 VibeThinker-1.5B 模型,小模型 …
阅读更多