OpenAI论文揭示大模型幻觉根源与解决之道-向阳乔木 OpenAI九月份的一篇论文深入探讨了大语言模型产生“幻觉”的根本原因。研究指出,即使训练数据无误,模型在优化目标下仍可能因无法区分事实与错误而自然产生幻觉,且训练数据中“单例事实”越多,幻觉率越高。核心问题在于现有评测机制的激励错位,鼓励模型“猜测”而非表达不确定性。为解决此问题,论文建议修改评测标准,让模型在不确定时选择“我不知道”也能获得分数,并设定“信心阈值”,从而从根本上减少幻觉,提升AI系统的可信度。 加勒比小岛国安圭拉因“.ai”域名意外暴富-向阳乔木 人口仅1.6万的加勒比海小岛国安圭拉共和国,因其国家顶级域名“.ai”与“人工智能”的缩写不谋而合,意外成为全 …
阅读更多以下是过去4小时全球AI领域的关键动态: Hugging Face Inference Providers 支持 Qwen3-VL 视觉语言模型-merve Hugging Face的推理服务平台,由Novita Labs提供支持,现已集成并支持Qwen3-VL,一款前沿的视觉语言模型。该模型参数规模庞大,其中220亿为活跃参数,总参数量达2350亿,此次集成将极大便利研究人员和开发者体验和利用这款强大的多模态AI模型,进一步推动视觉-语言理解领域的发展。 GPT-5 在解决开放性数学问题上展现潜力-Sam Altman Sam Altman转发Sebastien Bubeck的观点指出,GPT-5在解决一些非核心的开放性数学问题方 …
阅读更多以下是过去4小时全球AI领域的主要动态: Nvidia Lyra模型在Hugging Face发布-clem 🤗 Nvidia已在Hugging Face上发布了Lyra模型,这是一款基于视频扩散模型自蒸馏的生成式3D场景重建工具。Lyra通过分析视频内容,能够高效地重建出逼真的3D场景,这对于内容创作、虚拟现实(VR)、增强现实(AR)以及专业模拟领域具有重要意义。该模型的开源发布预计将推动3D内容生成技术的发展和应用。 Paper2Agent:将研究论文转变为互动可靠的AI智能体-宝玉 Paper2Agent是一个创新的AI智能体,它能够将静态的PDF研究论文转化为动态可交互的AI智能体。该系统能自动搭建代码环境,从论文相关的代 …
阅读更多AI如何取代你的知识工作:一个三步走的流程 - Emad Emad M. 阐述了AI取代知识型工作的三个关键步骤。首先,AI会抓取你在Slack、GitHub和文档中的所有数字足迹,包括每次互动、代码提交和备忘录。接着,AI会部署你的数字分身作为“助手”,该分身能够从你的错误中学习,优化最佳实践,并全天候24小时可用。最终,这个“有才华的AI”将全面接管工作,形成一种“模仿即服务”(Mimic-as-a-service)的模式。这一过程预示着AI将成为专业环境中一个持续存在、自我改进的运营实体。 阿里巴巴发布新模型及万相2.5产品动态 - orange.ai 阿里巴巴在今日发布了强大的新AI模型,其在展馆中的多个站台也备受关注,展 …
阅读更多Google Deep Researcher (TTD-DR):基于扩散模型的长篇报告生成框架-小互 Google 发布了一种新型的 Deep Researcher (TTD-DR) 框架,它是一个基于扩散模型的AI代理,旨在模拟人类研究员撰写报告的迭代过程。该框架借鉴了图片扩散模型的原理,将粗糙的初稿逐步“去噪”成高质量的研究报告。在长篇报告生成任务上,TTD-DR 的胜率达到了 74.5%,显著优于 OpenAI DR 的 50%。此外,它在 HLE-Search 和 GAIA 任务上的正确率也分别提升了 7.7% 和 1.7%,显示出在相同时间延迟下能生成更高质量结果的高效性。 AI对软件工程底层范式的影响:加速而非颠覆-宝 …
阅读更多Luma AI 推出 Ray3:世界首个具备“推理能力”的视频模型-小互 Luma AI 发布了 Ray 3 视频生成模型,号称是全球首个具备**“推理能力”的视频模型。Ray 3 能够理解复杂指令,以视觉和语言进行创作,并能评估自身生成结果。该模型支持生成专业级 HDR 视频**,提供 10、12、16-bit 高动态范围,并支持物理仿真、复杂场景、群体动画、运动模糊及写实光照等高级功能。此外,它能理解图像上的涂鸦和绘制等视觉注释,实现对镜头、运动和构图的精确控制,并引入草稿模式以提升创意迭代效率,通过 Hi-Fi diffusion 技术可将视频无缝升级至 4K HDR,还能将普通 SDR 视频转换为 HDR 并输出 EXR …
阅读更多以下是过去4小时内全球AI领域的重要动态: 保险公司将支付传感器费用以预防疾病-Peter H. Diamandis, MD Peter H. Diamandis 博士提出,未来保险公司将倾向于为用户支付健康传感器的费用。这不是出于对用户的关心,而是因为预防疾病的成本远低于治疗疾病的成本。这预示着AI驱动的预防性健康管理将成为医疗健康和保险行业的重要趋势。 DecartAI开源Lucy Edit并迅速被集成-clem 🤗 DecartAI正式开源了其视频编辑工具Lucy Edit,旨在打造“视频领域的开源Nano Banana”。该项目发布不到一小时,就已被迅速集成到Anycoder中,成为首个支持Lucy Video Edit …
阅读更多谷歌推出Agent间开放支付协议AP2 - 歸藏(guizang.ai) 谷歌已推出一项名为AP2(Agent-to-Agent Payment Protocol)的开放支付协议,旨在解决AI代理间交易的授权、真实性与问责核心挑战。该协议支持信用卡、借记卡、稳定币及实时转账等多种支付渠道,并基于加密签名和不可篡改的数字合同,建立可审计的证据链。它能处理用户在场时的“实时购买”场景,通过Intent Mandate和Cart Mandate确保交易意图;也能支持无人值守的“委派任务”,允许代理根据预设约束自动完成支付。AP2还与Coinbase、以太坊基金会等合作,为AI驱动的加密支付提供可投产方案。目前,该协议已获得包 …
阅读更多今日AI领域呈现出深度集成与应用落地两大趋势。开发者工具成为新战场,OpenAI的GPT-5-Codex与Anthropic的Claude全面融入主流IDE,预示着软件工程范式的变革。具身智能持续火热,Figure AI获巨额融资,而国内的导盲犬、空翻机器人展示了其在特定场景的突破。在消费端,苹果正式推送Apple Intelligence,将AI无缝嵌入操作系统,提升用户体验。同时,AI正深入垂直行业,从加速材料科学研究到赋能生物回收,展现出解决复杂问题的巨大潜力。Mira Murati对LLM确定性的探索和谷歌为AI代理支付制定的新标准,则从底层技术和生态规则上推动行业走向成熟。 OpenAI 推出 GPT-5-Codex, …
阅读更多YouTube Shorts推出AI新功能:Veo 3和Lyria 2-Demis Hassabis Demis Hassabis 宣布YouTube Shorts上线了两项强大的AI新功能。Veo 3能够根据文本提示生成带有集成音频的视频片段,极大地简化了视频创作流程。同时,Lyria 2则支持“Speech to song”功能,可以将视频对话内容自动转化为配乐,为用户提供更丰富的音频创作体验。 AI助力手持超声波技术实现医生级技能-Peter H. Diamandis, MD Peter H. Diamandis 博士展望了AI在医疗领域的应用前景,指出未来人们可以通过AI引导的手持超声波设备,即时获得医生般的诊断技能。这项 …
阅读更多