AI提示工程新进展:利用NotebookLM生成高质量解说视频脚本-宝玉 AI研究者“宝玉”分享了一个详细的提示词(prompt),旨在利用人工智能(如Google的NotebookLM)生成高质量的解说视频脚本。该提示词将AI设定为一位屡获殊荣的解说视频制作人,核心任务是将复杂信息简化为动态、引人入胜的20张幻灯片、5分钟时长的视频脚本。它强调以核心问题驱动的叙事结构,包含提炼、组织、叙述、连接和总结五个步骤,并对主持人风格、节奏感及视觉风格(如极简手绘、突出黄色)进行了细致规定。该方法旨在帮助AI产出清晰、高效且视觉化的学习内容,优化用户理解复杂主题的体验。 OpenAI首席科学官加倍施压批评者,要求提供监管相关文件-Gary …
阅读更多今日全球AI动态的核心在于硬件层面的激烈竞争与应用层面的深度融合。硬件方面,英伟达不仅发布了桌面级AI超算DGX Spark,还亲自下场研发Robotaxi,展示其构建全栈物理AI生态的野心;英特尔则以Crescent Island GPU瞄准AI推理市场,力图分羹。软件应用层面,AI正加速融入现有生态,沃尔玛与OpenAI合作实现聊天购物,谷歌Gemini则能辅助用户安排会议,标志着AI正从独立应用向无缝集成的工作流工具演进。同时,苹果布局家庭机器人,预示着竞争正从数字世界向物理世界延伸。 英伟达推出桌面级AI超算DGX Spark,并亲自下场研发Robotaxi 英伟达正式交付其号称“全球迄今最小”的AI超级计算机 NVIDIA …
阅读更多English Version News Discovery Time! Today we want to explore… Bang! Pop! Wow! Amazing Animal Journey: Penguins’ Unusual Gift Problem
Scientists have discovered something funny and strange happening between penguins and leopard seals across two continents! In Antarctica and South Africa, leopard seals have been …
阅读更多Meta推出REFRAG技术显著提升RAG性能-宝玉 Meta超级智能实验室发布了名为REFRAG(Make RAG Great Again)的检索增强生成(RAG)优化方案,旨在解决传统RAG速度慢、检索精度不高的问题,回应了“RAG已死”的行业担忧。该方案通过在检索时仅返回少量关键文本内容和大部分文本块的向量,将首次生成延迟缩短了30.85倍,并使上下文长度增加16倍,同时降低2-4倍的token使用量。这标志着对现有RAG技术的重大改进,使其在摘要、多轮对话和检索问答等场景下表现更优,且无精度损失,并可能引发模型间通信方式的变革。 Reddit官方推出AI问答功能以挖掘用户需求-宝玉 Reddit官方近期推出了一项AI问答功 …
阅读更多ChatGPT将放宽内容限制,支持个性化及成人内容-Sam Altman OpenAI首席执行官Sam Altman宣布,ChatGPT计划在未来几周内放宽内容限制,以提供更具人情味的个性化体验,使其更接近用户喜爱的4o版本。Altman表示,在成功缓解了严重的心理健康问题风险并开发出新工具后,公司认为可以安全地放松此前的严格限制。此外,到今年12月,随着年龄验证功能的全面上线,ChatGPT将对通过验证的成年用户进一步放宽限制,允许提供如情色内容(erotica)等。这一举措旨在“将成年用户视为成年人对待”,并满足用户对更具表达力、甚至使用表情包或朋友般交互方式的需求,前提是用户主动选择。 阿里云发布Qwen3-VL 4B和8B …
阅读更多AI范式转变:从通用LLM API到开源及专业化模型 - clem 🤗 Clement Delangue观察到AI领域正经历一场范式转变,重心正从对通用大型语言模型(LLM)API的痴迷,转向企业训练、优化和运行基于开源模型(特别是更小、更专业的模型)的趋势。近期验证性迹象包括:@karpathy发布了nanochat,简化了模型训练;@thinkymachines推出了微调产品;@vllm_project、@sgl_project、@PrimeIntellect、Loras和trl等工具日益普及;Hugging Face在90天内新增了100万个仓库,其中包含OpenAI的首批开源LLM。此外,NVIDIA最新发布的DGX …
阅读更多Nanonets 发布 Nanonets-OCR2:全新的 3B VLM 智能识别模型-merve Nanonets 近日推出了 Nanonets-OCR2,这是一款全新的 3B 视觉语言模型 (VLM),专为光学字符识别 (OCR) 任务设计。该模型具备强大的功能,能够识别包括 LaTeX 方程式、表格、手写文字、图表在内的多种复杂内容,并支持多语言处理。此次发布显著提升了 OCR 的能力,使其在处理复杂文档理解任务时更加灵活和高效。 Google AI 中心在印度安得拉邦维沙卡帕特南启动-Demis Hassabis Google 在印度安得拉邦的维沙卡帕特南市设立并启动了其新的 AI 中心。印度总理纳伦德拉·莫迪对此多方面举 …
阅读更多以下是过去4小时全球AI领域的重要动态摘要: OpenAI大幅投资算力基础设施并自研芯片,计划到2033年将算力提升125倍-歸藏(guizang.ai) OpenAI正大举投入算力基础设施建设,并已开始自主研发芯片。公司宣布与博通合作,将部署10GW的AI加速器,其中芯片设计和系统均为OpenAI自研。据Greg(可能是Greg Brockman)解释,GPT模型正从实时推理向非交互式主动服务(如“Pulse”功能)发展,这需要巨大的算力。目前OpenAI拥有2GW算力,主要用于模型训练和研发。其宏伟目标是到2033年将算力提升至250GW,增长125倍,预计将消耗美国一半的能源。其自研ASIC芯片项目已进行18个月。 全球AI陪 …
阅读更多Meta发布SAM 3论文:实现通过概念进行图像分割 Meta发布了SAM 3(Segment Anything with Concepts)论文,在SAM 1和SAM 2的基础上,实现了对自然语言的语义理解,用户可通过口头描述(如“黄色校车”)批量识别并分割图像中符合概念的物体。这一突破解决了之前版本需要手动点击或画框的局限,大大提升了操作效率。其短期落地场景广泛,包括电商批量抠图、视频内容理解、工业质检、内容审核及数据标注提效等。在测试评分上,SAM 3表现显著,如LVIS基准上达到47.0 AP,超越现有最佳的38.5 AP,并在视频跟踪等任务上也有显著提升。 nanochat:由Karpathy开发的ChatGPT开源“教 …
阅读更多今日全球AI领域风起云涌,焦点集中于硬件层面的战略博弈与上层应用的持续爆发。OpenAI联手博通自研芯片,意图打破算力瓶颈,标志着AI巨头正加速垂直整合,从模型开发者转向全栈基础设施掌控者。与此同时,微软推出自研图像模型,英伟达则将AI超算能力下放至桌面级,并联合产业巨头构建更强大的生态护城河。从底层芯片到顶层应用,AI竞赛已进入“软硬一体”的深水区,算力所有权正成为定义未来十年行业格局的关键变量。 OpenAI携手博通自研AI芯片,部署10吉瓦级算力 OpenAI与博通宣布达成战略合作,将共同开发和部署一个规模高达10吉瓦的定制AI芯片及网络系统。根据协议,OpenAI将主导AI芯片设计,博通提供以太网等关键连接解决方案并协同开 …
阅读更多