以下是过去4小时全球AI领域的重要动态: 新基准评估LLM在44个职业中的表现 - merve 一项新的基准测试对大型语言模型(LLM)在9个行业部门的44个不同职业中的能力进行了评估,结果显示LLM距离实现全面胜任还有很长的路要走。这项全面的评估旨在衡量AI在现实世界工作场景中的实用性,揭示了当前模型在复杂任务和专业知识方面仍存在的显著不足。 特斯拉擎天柱机器人展望:2040年每家一台 - Peter H. Diamandis, MD Peter Diamandis预测,到2040年,每个家庭都将拥有一个机器人,特斯拉的目标是每年生产一百万台擎天柱(Optimus)机器人。他预计每台擎天柱的成本约为3万美元,这意味着用户每天只需支 …
阅读更多DeepSeek发布实验性模型V3.2-Exp,大幅提升长文本推理效率并降低成本-小互 DeepSeek发布了其最新实验性语言模型 DeepSeek-V3.2-Exp,该模型在推理效率和计算成本方面实现了显著提升。V3.2-Exp在整体性能上与V3.1-Terminus持平,但长文本推理效率提高了约一倍,使得其 API价格大幅下降50%。这一突破主要得益于其引入的 稀疏注意力(DSA)机制,该机制能够智能地聚焦文本中的关键部分,从而在不影响输出质量的前提下,显著加快处理速度并减少显存占用,特别适合处理 超过32K tokens 的长文档和对话场景。 Merve Noyan公开分享多模态AI幻灯片,涵盖趋势、模型与工具-merve …
阅读更多Karen Hao在慕尼黑增加一场免费活动 知名作家Karen Hao宣布,除了原定的10月24日售票活动外,她将于10月23日在慕尼黑新增一场免费活动。此次活动由Sheila Beladinejad和Women in AI组织并提供场地资源。此举为更多对AI领域感兴趣的人提供了参与和交流的机会,体现了AI社区的积极互动与知识共享。 FactoryAI CLI新增Gemini支持,效率显著提升 用户@donvito(经Ben Tossell转发)对全新的FactoryAI CLI印象深刻。该工具仅用Sonnet 4就在15分钟内为**@aibackends添加了Gemini支持**,并实现了实时同步。这表明新的CLI工具在集成和开 …
阅读更多Hyper3D Rodin Gen-2:一款可“无限炸裂”的SOTA 3D模型-orange.ai 一款名为 Hyper3D Rodin Gen-2 的图生3D模型在云栖大会上亮相,展示了其独特的“组件分解”能力,支持3D模型的无限炸裂式拆解,将复杂模型分解为简单组件。这项技术显著提升了3D模型的精度和可用性,尤其适用于精细化3D打印、高精度游戏、影视制作及工业设计等领域。该模型被认为是当前3D模型效果的SOTA(State-Of-The-Art)。用户可通过提供的链接尝试该模型。 商业本质:AI作为扩展与利用的双重性-向阳乔木 有观点指出,一切商业活动都围绕着利用或解除人类的各种限制和短板。技术进步如显微镜、望远镜、汽车、飞机和 …
阅读更多今日全球AI动态呈现出从底层技术向垂直应用全面渗透的清晰趋势。AI不再仅仅是模型能力的竞赛,而是深入具体行业解决实际问题的“尖兵”。从赋能生物科技原料创新、重塑外贸流程,到自动驾驶领域的商业化落地加速,AI正在成为产业升级的核心驱动力。同时,AI安全与治理的重要性日益凸显,专用安全模型的推出标志着行业正从野蛮生长迈向责任发展。消费电子领域,AI功能正从“炫技”走向实用,成为提升用户体验的关键。 哈啰出行前COO创业外贸垂类AI Agent,获金沙江创投数千万元投资 国内首家外贸垂直领域的AI Agent公司“百型智能”完成数千万元Pre-A轮融资,由金沙江创投领投。该公司旨在解决中国出海企业的获客难题,其核心产品“AI外贸员”能够实 …
阅读更多AI Agents赋能短视频创作流程标准化-orange.ai 用户@dontbesilent12(由@oran_ge转推)发布了一份长达6000字的SOP(标准操作程序),详细阐述了如何利用四个AI Agent完成短视频创作中80%的工作。该作者强调,这并非简单的“AI一键出爆款”,而是通过将自媒体创作流程细化,形成一套可重复验证的方法论。这表明AI正被用于构建更加系统化和高效的创作工作流,为内容生产者提供了实现流程自动化和规模化生产的有效途径。 Emad Mostaque预测AI将重塑软件开发-Emad Stability AI创始人Emad Mostaque预测,在未来几年内,AI代码模型将变得极其高效,能够从零开始重写任何 …
阅读更多以下是过去4小时全球AI领域的最新动态: Factory AI 推出免费代币及创新编码工作流-Ben Tossell AI编码工具Factory AI正在积极推广其平台,用户可获得4000万免费代币。同时,有用户分享了使用Factory AI进行复杂代码重构的工作流,强调通过“spec mode”实现高效实施。该平台还曾举办“Factory Founders:AI编码的未来”线上活动,展示其在AI辅助开发领域的进展和潜力,旨在提升开发者利用AI进行软件开发的能力。 vLLM 正式支持小红书 hi lab 的多语言 OCR 模型 dots.ocr-merve vLLM项目宣布其最新版本正式支持小红书 hi lab 开发的强大多语言光学 …
阅读更多AI Agent:从感知革命到自我监督-向阳乔木/宝玉 绿洲资本合伙人张津剑指出,注意力是人类最宝贵的资源,而AI时代的Agent正带来一场感知革命。AI Agent的频谱理论上无限,能够处理从伽马射线到红外线的各种数据,并用语言模型统一。这使得人类不再是将AI融入工作流,而是将自身融入AI的工作流。在此背景下,人类的核心价值在于提出需求和审美判断。此外,有观点指出,使用AI监督AI比传统脚本更具优势,因为它能探索更多可能性,且能根据任务执行结果动态调整Prompt,尽管会消耗更多Token。Sub Agent则主要用于上下文管理,不携带主线程上下文,实现更高效的任务分离。 AI音乐生成模型Suno v5音质显著提 …
阅读更多腾讯开源生图模型 3.0 亮相,具备强悍文字生成与世界知识理解能力-歸藏(guizang.ai) 腾讯最新开源的生图模型 3.0,参数高达 80B,在美学表现、文字生成与世界知识理解方面取得了显著提升。该模型能够生成包括中文在内的较长文字,支持复杂排版和艺术字体设计,甚至能图解中学几何题,媲美头部图像模型如Banana。虽然目前尚不支持图像编辑功能,但有消息称该能力有望在国庆后上线。其强大的世界知识和推理能力,结合微调潜力,预示着广泛的应用前景。 Google DeepMind Veo 3 达到视觉AI的“GPT-3”时刻-小互 Google DeepMind的研究揭示,Veo 3 在视觉AI领域可能迎来了“GPT-3”时刻。该模 …
阅读更多腾讯混元图像3.0模型免费开源,支持中英文精准渲染与长文本生成-向阳乔木 腾讯混元团队近日发布并免费开源了80B图像生成模型“混元图像3.0”,该模型支持中英文精准渲染和长文本生成,被认为是AI图像生成领域的“Deepseek”时刻。无论是插画、漫画、海报还是表情包,用户只需通过一段提示词即可生成专业级作品。模型具备强大的世界知识理解和推理能力,能够从诗句等抽象描述中准确生成图片。此模型不仅可免费商用,还允许个人和企业进行二次开发,极大地拓展了AI图像生成的应用场景,如电商广告、品牌Logo设计、图标生成、PPT配图及多样材质渲染等。该模型源代码已完全开放,体现了腾讯在AI领域的加速布局。 Deemos发布高精度3D生成模 …
阅读更多