Generalist 发布机器人基础模型GEN-0,宣称找到机器人智能缩放规律 - 小互 Generalist公司发布了机器人基础模型 GEN-0,并宣称找到了机器人智能模型的“缩放规律”,预示着机器人领域可能迎来其“ChatGPT时刻”。GEN-0 模型在 27万小时真实操作数据上训练,其核心创新是名为 Harmonic Reasoning 的智能机制,使AI能够一边思考(预测未来状态)一边行动(实时执行任务),并在连续的时间流中协调两者。这使得机器人能够流畅执行长时任务,例如“组装相机套件”等复杂操作,无需分步指令。研究发现,模型越大越智能,70亿参数是智能临界点,且该模型可在不同机器人间通用,性能随数据可预测提升。这标志着机 …
阅读更多Clement Delangue 宣布在 Nvidia 展示 Reachy 2 和 Reachy mini,并支持开源AI机器人-clem 🤗 Clement Delangue 宣布其机器人团队正在旧金山湾区(Nvidia)展示 Reachy 2 和 Reachy mini。他强调了对 开源AI机器人 发展的支持,这表明开源项目在AI机器人领域持续活跃,并在重要行业活动中获得关注,推动AI在实体硬件中的应用。 宝玉分享通过持续输出建立AI提示词影响力-宝玉 宝玉分享了他在推特上建立关于 AI提示词(prompt engineering) 影响力的经验。他指出,通过持续输出内容,其观点和创作获得了广泛认可,甚至有人会将其他博主的硬件 …
阅读更多AI Agent 现状报告:落地挑战与成功策略 - 宝玉 一份来自MMC的《State of Agentic AI: Founder’s edition》报告深入分析了AI Agent在2025年的发展现状和落地挑战。报告指出,部署AI Agent的三大主要障碍并非AI不够智能,而是工作流集成与人机交互(60%)、员工抵触与非技术因素(50%)以及数据隐私与安全(50%)。报告通过**准确率(Accuracy)和自主性(Autonomy)**两个维度将AI Agent划分为不同类别,并发现62%的AI Agent创业公司已获得“业务线预算”,但最佳收费模式仍在探索中。成功的落地策略包括“小处着手”(聚焦低风险、高重复任务,定位为“ …
阅读更多OpenAI 完成营利性资本重组,微软延长IP权益至2032年-宝玉 OpenAI 宣布已完成复杂的资本重组,正式将公司架构调整为由一个非营利基金会控制的“公益公司”性质的营利性实体 OpenAI Group。基金会将持有营利公司26%的股份,并负责任命董事会。作为早期投资者,微软将持有约27%的股份,目前公司估值约1350亿美元。此次重组使得微软对 OpenAI 模型知识产权的权益延长至2032年,并规定若实现通用人工智能 (AGI),需提交独立专家小组验证。此举旨在平衡AI技术发展与公共利益,并得到加州和特拉华州总检察长的放行,但附加了需持续减轻AI对青少年风险的条件。 \n\n NVIDIA 发布新版开放数据集和OCR工具, …
阅读更多以下是过去4小时全球AI领域的动态摘要: Lovart 接入 Sora 2 模型:一键生成MV和宣传片-小互 AI工具Lovart已成功接入Sora 2模型,实现了从文字到视频的全自动一站式生成,尤其擅长制作MV和产品宣传片。用户只需提供简单的提示词,Lovart便能自动生成音乐、视频片段并进行智能剪辑,极大地简化了原本需要多种工具和复杂流程的视频创作过程,让不具备设计、剪辑或3D技能的用户也能轻松产出高质量视频内容。 Shadcn 在AI时代被加速:AI友好且易于生成-宝玉 用户界面(UI)组件库Shadcn因其出色的设计和与AI时代的良好契合而备受赞誉。如同TailwindCSS一样,Shadcn的组件在AI辅助下更容易生成和集 …
阅读更多State of AI 报告亮点与微调技术复苏-clem 🤗 最新“State of AI”报告的幻灯片揭示了当前AI领域的几个关键趋势。报告指出,人们对微调(finetuning)技术(包括RL/Lora/Thinking Machine)的兴趣重新高涨,并预测未来90%的AI价值将基于开源而非API使用,尽管目前尚未完全实现。此外,本地和内部部署AI的规模正在扩大,同时出现了“更小、更高效的模型”、“AI for Science”以及设备端AI等有趣趋势。报告的第二项预测指出,一家主要的AI实验室将重新回归开源策略。LoRA微调也再次受到看好,这可能得益于当前模型更强的适应性。 Google AI Plus 扩展至全球36个新 …
阅读更多过去4小时全球AI要闻 FactoryAI CLI助力构建小型TUI监控工具-Ben Tossell Ian Nuttall利用FactoryAI CLI成功开发了一个轻量级TUI工具。该工具具备多项实用功能,包括实时监控网页内容变化、向Telegram发送即时通知,以及运行私有定制化任务。这一案例展示了FactoryAI CLI在快速构建自动化、监控类工具方面的强大能力和灵活性,为开发者提供了高效且便捷的解决方案。 Droid平台为新用户提供4000万免费Token并展示代码审查机器人-Ben Tossell Droid平台近期为新用户推出了4000万免费token的福利,旨在鼓励更多人体验其AI功能。同时,该平台还展示了其强大的 …
阅读更多Anthropic发布Claude Sonnet 4.5,编程能力和智能体特性显著提升-宝玉 Anthropic最新推出的Claude Sonnet 4.5模型在编程能力和智能体任务处理方面实现了重大突破。第三方评测显示,Sonnet 4.5速度比Opus 4.1快至少50%,且具备更强的可控性、超长上下文处理能力以及更高的稳定性。它在SWE-bench基准测试中刷新了业界最高水平,并引入了全新的记忆工具(Beta版)API。此外,Sonnet 4.5在自主运行时间上可超过30小时,且在OSWorld计算机使用基准测试中表现出色,沟通风格也更为精炼自然。 Reachy Mini机器人集成OpenAI GPT-4o,实现多模态交互新 …
阅读更多以下是过去4小时全球AI领域的重要动态: 新基准评估LLM在44个职业中的表现 - merve 一项新的基准测试对大型语言模型(LLM)在9个行业部门的44个不同职业中的能力进行了评估,结果显示LLM距离实现全面胜任还有很长的路要走。这项全面的评估旨在衡量AI在现实世界工作场景中的实用性,揭示了当前模型在复杂任务和专业知识方面仍存在的显著不足。 特斯拉擎天柱机器人展望:2040年每家一台 - Peter H. Diamandis, MD Peter Diamandis预测,到2040年,每个家庭都将拥有一个机器人,特斯拉的目标是每年生产一百万台擎天柱(Optimus)机器人。他预计每台擎天柱的成本约为3万美元,这意味着用户每天只需支 …
阅读更多谷歌发布具身智能模型 Gemini Robotics 1.5 - 歸藏(guizang.ai) 谷歌近日推出了专门用于具身智能的 Gemini Robotics 1.5 模型系列,其中包含 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5 两款协同模型。Gemini Robotics 1.5 作为视觉-语言-动作 (VLA) 模型,负责将高层指令转化为机器人精确的运动指令,并通过思考过程提高透明度,加速跨形态技能学习。Gemini Robotics-ER 1.5 则作为视觉-语言模型 (VLM),充当机器人的高级大脑,能够进行物理世界推理、原生调用数字工具并制定详细的多步骤计划。这两款模型 …
阅读更多