AI范式转变:从通用LLM API到开源及专业化模型 - clem 🤗 Clement Delangue观察到AI领域正经历一场范式转变,重心正从对通用大型语言模型(LLM)API的痴迷,转向企业训练、优化和运行基于开源模型(特别是更小、更专业的模型)的趋势。近期验证性迹象包括:@karpathy发布了nanochat,简化了模型训练;@thinkymachines推出了微调产品;@vllm_project、@sgl_project、@PrimeIntellect、Loras和trl等工具日益普及;Hugging Face在90天内新增了100万个仓库,其中包含OpenAI的首批开源LLM。此外,NVIDIA最新发布的DGX …
阅读更多今日全球AI领域动态纷呈,呈现出技术加速迭代与产业落地挑战并存的局面。一方面,谷歌Veo 3.1等文生视频模型持续精进,Anthropic的Claude Code通过插件化提升开发者效能,显示出模型层面的竞争仍在深化。另一方面,具身智能成为资本与技术角力的焦点,Figure 03的发布与智元机器人的上市计划,预示着AI正加速从数字世界向物理世界渗透。然而,伴随技术应用的普及,版权纠纷(苹果被诉)与市场监管(高通被查)等问题也日益凸显,为行业的野蛮生长敲响了警钟。 谷歌最强文生视频模型 Veo 3.1 首批样本曝光:自带配乐、8 秒 720P,剑指 Sora 2 谷歌新一代文生视频模型 Veo 3.1 的首批生成样本已曝光。该模型能够 …
阅读更多Radical Numerics发布RND1,最强大的扩散语言模型 Radical Numerics公司推出了RND1,声称这是迄今为止最强大的基础扩散语言模型(DLM)。该模型旨在推动AI在语言理解和生成领域的最新进展,可能为内容创作、代码生成及其他AI应用带来新的可能性。 Emad M.呼吁社会核心模型全面开放与合成化 Emad M.强调,驱动社会运行的模型需要实现完全开放,包括数据和权重。他指出,这些模型应趋向于完全合成和聚焦,并透露其团队正致力于政府、金融和健康领域的开放模型开发,预计很快将有更多公告发布。 Gary Marcus批判AI炒作及大模型局限性 AI研究员Gary Marcus对当前AI领域的过度炒作表示担忧, …
阅读更多Gary Marcus 对Sora 2能力提出质疑及能源消耗担忧-Gary Marcus 知名AI研究者Gary Marcus对OpenAI的Sora 2模型表达了多方面质疑。他认为,尽管投入了巨量计算资源,Sora 2仍未能展现通用人工智能(AGI)的能力。Marcus指出,Sora 2在应对新颖、富有挑战性的提示词时,常出现物理法则和组合性方面的错误,并提供了“驴子骑贝斯手”等复杂场景下的失败案例(如物体消失或出现“无实物手”)。他认为,模型在某些特定提示词上的表现出色,可能是因为在这些已知例子上进行了**“应试训练”。此外,Marcus还对OpenAI因模型扩展而带来的电力消耗问题**表示担忧。 OpenAI Sora 2 …
阅读更多Claude Agent SDK 推荐-宝玉 宝玉推荐使用 Claude Agent SDK,因为它内置了 Claude Code 所需的所有工具,能够完成大部分普通 Agent 的任务。开发者只需根据需求编写新的提示词或添加少量工具,即可快速完成原型开发。这一推荐强调了 SDK 在简化 AI Agent 开发流程方面的优势,特别是对于需要快速验证概念或搭建原型项目的情况。 如何编写 prompt 才能让大模型更好地理解工具?-宝玉 关于如何编写能让大模型更好地理解工具的 Prompt,宝玉分享了一个有效方法:让模型自己来写并优化 Prompt。具体步骤包括:首先让 Claude Code 基于设计系统完成一个任务(如制作登录页 …
阅读更多OpenAI Sora 推出IP版权精细控制与商业化分成模式-Sam Altman OpenAI 正为视频生成模型 Sora 推出两项重要调整。首先,OpenAI 将允许IP版权方对人物角色的创作提供更细粒度的控制,版权方可以精细设定允许/不允许、允许的场景及可能的限制,甚至放开大尺度创作,以促进“互动式粉丝创作”并吸引更多版权方参与。其次,鉴于用户创作量远超预期导致成本上升,OpenAI 计划探索商业化路径,推出收入分享模式,如果用户创作的视频涉及版权方的角色,OpenAI 将与版权方分享相应的收入。Sam Altman 强调团队将像ChatGPT早期一样进行快速迭代,并特别提及日本内容生态的强大创意表现力,暗示日本动漫/角色可 …
阅读更多ModernVBERT高效视觉语言检索模型发布-merve Hugging Face平台宣布推出ModernVBERT,这是一种高效的视觉语言检索模型,专为文档和通用图像-文本检索设计。与传统基于因果注意力的检索器不同,ModernVBERT训练了一个双编码器,在nDCG@5指标上取得了显著的10.6点提升。所有模型均已在Hugging Face上发布,并遵循MIT许可证,为研究人员和开发者提供了强大的新工具。 对AI产品成瘾性与行业泡沫的深度反思-orange.ai 作者对当前科技界将AI产品“成瘾性”视为成功标志的趋势表达了深度担忧,并质疑了类似“AI抖音”这类产品是否满足真实需求。文章指出,成瘾性并非积极指标,低门槛的AI内 …
阅读更多在过去四小时内,AI领域迎来多项重要进展,OpenAI 推出了直接集成购物功能的 ChatGPT Merchants,将电商带入对话界面。同时,Anthropic 发布了其新一代模型 Claude Sonnet 4.5,并推出了实验性的实时界面生成功能 “Imagine with Claude”,进一步提升了其在编程和交互方面的能力。此外,Replit 平台的 Agent 3 也创下了新的运行记录。 OpenAI 推出 ChatGPT Merchants 功能,将购物集成至对话界面 - 小互 OpenAI 正式推出 ChatGPT Merchants 功能,将购物体验直接整合进 ChatGPT 的对话窗口,实现“边问边买”。用户现在 …
阅读更多以下是过去4小时全球AI领域的关键动态: Hugging Face Inference Providers 支持 Qwen3-VL 视觉语言模型-merve Hugging Face的推理服务平台,由Novita Labs提供支持,现已集成并支持Qwen3-VL,一款前沿的视觉语言模型。该模型参数规模庞大,其中220亿为活跃参数,总参数量达2350亿,此次集成将极大便利研究人员和开发者体验和利用这款强大的多模态AI模型,进一步推动视觉-语言理解领域的发展。 GPT-5 在解决开放性数学问题上展现潜力-Sam Altman Sam Altman转发Sebastien Bubeck的观点指出,GPT-5在解决一些非核心的开放性数学问题方 …
阅读更多Meta 发布 32B 参数开源代码世界模型 (CWM)-宝玉 Meta AI 发布了全新的开源代码世界模型 (Code World Model, CWM),该模型拥有 32B 参数。与传统大语言模型不同,CWM 利用“世界模型”让 AI 智能体学会推理和规划,通过模拟代码执行的后果来提升代码生成能力。这使得模型能够理解代码运行时的动态世界,而非仅仅进行“代码模仿”。在多任务强化学习测试中,CWM 在 LiveCodeBench v5 上达到 67.6%,在 AIME24 上达到 76%,在 SweBench Verified 上通过推理扩展达到 65.8%,表现出色。 Google AI 提升 Gemini CLI/Code …
阅读更多