知名教授对生成式AI估值过高发出警告 - Gary Marcus 纽约大学心理学和神经科学荣誉教授Gary Marcus向德国之声表示,除了英伟达(作为淘金热中的“卖铲人”)之外,大多数生成式AI公司都存在严重的估值过高和过度炒作问题。他预测,这些公司可能会在短期内“崩盘”,因为其技术和经济基本面都“毫无意义”。这一观点对当前生成式AI领域的狂热投下了一丝冷静的阴影,强调了行业内存在的泡沫风险。 教皇方济各谈技术创新的伦理与精神维度 - Pontifex via Gary Marcus & Clement Delangue 教皇方济各(Pontifex)通过Gary Marcus和Clement Delangue的转发指出,技术创 …
阅读更多以下是过去4小时全球AI领域的最新动态: 阿里发布最强模型Qwen 3-MAX推理版,基准测试表现出色 - 歸藏(guizang.ai) 阿里巴巴近日发布了其最强模型 Qwen 3-MAX 的推理版本。该模型在包括 AIME 2025 和 HMMT 在内的挑战性推理基准测试中取得了 100% 的得分,展现了卓越的推理能力。此外,Qwen 3 Max 的“Thinking”版本也进行了更新,在测试中显示出更像 Claude 的对话风格,并且能够就阅读习惯等非宇宙或科技主题展开讨论,表明其在更广泛的领域具备出色的对话和理解能力。 深度分析:AI为何疯狂使用破折号?—— 19世纪旧书的“语法DNA” - 向阳乔木 一篇深入分析探讨了大 …
阅读更多以下是过去4小时内全球AI领域的重要动态: OpenAI发布开源安全推理模型gpt-oss-safeguard - clem 🤗 OpenAI已发布gpt-oss-safeguard,这是一个处于研究预览阶段的开源安全推理模型,旨在用于内容分类和审核。该模型提供120B和20B两个版本,其核心特点是采用推理而非记忆的方式,能够直接读取并遵循开发者自定义的安全政策进行判断。这意味着开发者无需重新训练模型即可修改政策,模型能够输出其推理过程,且不同产品和场景可以灵活定制政策。性能评估显示,gpt-oss-safeguard在同时执行多项政策时,准确率优于GPT-5-thinking及其他gpt-oss模型,标志着内容安全从“被动学习规 …
阅读更多Anthropic发布Claude Sonnet 4.5,编程能力和智能体特性显著提升-宝玉 Anthropic最新推出的Claude Sonnet 4.5模型在编程能力和智能体任务处理方面实现了重大突破。第三方评测显示,Sonnet 4.5速度比Opus 4.1快至少50%,且具备更强的可控性、超长上下文处理能力以及更高的稳定性。它在SWE-bench基准测试中刷新了业界最高水平,并引入了全新的记忆工具(Beta版)API。此外,Sonnet 4.5在自主运行时间上可超过30小时,且在OSWorld计算机使用基准测试中表现出色,沟通风格也更为精炼自然。 Reachy Mini机器人集成OpenAI GPT-4o,实现多模态交互新 …
阅读更多以下是过去4小时全球AI领域的重要动态: 新基准评估LLM在44个职业中的表现 - merve 一项新的基准测试对大型语言模型(LLM)在9个行业部门的44个不同职业中的能力进行了评估,结果显示LLM距离实现全面胜任还有很长的路要走。这项全面的评估旨在衡量AI在现实世界工作场景中的实用性,揭示了当前模型在复杂任务和专业知识方面仍存在的显著不足。 特斯拉擎天柱机器人展望:2040年每家一台 - Peter H. Diamandis, MD Peter Diamandis预测,到2040年,每个家庭都将拥有一个机器人,特斯拉的目标是每年生产一百万台擎天柱(Optimus)机器人。他预计每台擎天柱的成本约为3万美元,这意味着用户每天只需支 …
阅读更多OpenAI 公布青少年用户安全、自由与隐私原则-Sam Altman Sam Altman 详细阐述了 OpenAI 在处理青少年用户安全、自由和隐私方面的原则。公司将青少年安全置于优先地位,为此将引入年龄预测系统并可能要求身份验证。对于未成年用户,ChatGPT 将被限制进行调情对话或讨论自杀/自残内容,并在紧急情况下联系家长或当局。对于成年用户,OpenAI 致力于在确保安全的前提下提供最大程度的自由。同时,公司承诺保护所有用户的数据隐私,即使是内部员工也无法访问,但对危及生命、伤害他人或重大网络安全事件等关键风险存在例外。 Google DeepMind 细致调优 Gemini,提升长对话可靠性-clem 🤗 Google …
阅读更多文心开源ERNIE-4.5-21B-A3B-Thinking模型登顶HuggingFace趋势榜-向阳乔木 百度文心团队新开源的 ERNIE-4.5-21B-A3B-Thinking 模型在HuggingFace全球模型总趋势榜上取得了第一名。这款模型是一款轻量级的MoE(Mixture-of-Experts)模型,总参数量为21B,但激活参数仅3B,具备128K的上下文窗口,专为提升推理能力而设计。该模型基于百度自研的飞桨深度学习框架构建,而非主流的PyTorch。HuggingFace的CEO Clem也转发推荐了此模型。分析指出,其强大的推理和工具调用能力对于开发Agent产品具有重要意义,有助于打破现有市场垄断。
阅读更多以下是过去4小时全球AI领域的精选动态: PaddleOCRv5 发布并登陆 Hugging Face Hub - merv PaddleOCRv5 现已在 Hugging Face Hub 上发布,采用 Apache-2.0 许可证。尽管模型尺寸仅为 70M,但其基准测试结果表现“惊人”,展示了其高效而强大的性能。这一发布为开发者和研究人员提供了易于获取且性能卓越的 OCR 工具。 Anthropic 分享 AI Agent 工具开发经验,强调 Claude Code 优势 - 宝玉 Anthropic 工程团队发布了《为 AI 智能体打造高效工具》的技术文章,强调其 Claude Code 作为最强编程 Agent 的地位。该文 …
阅读更多Replit 推出 Agent 能力重大创新与全新设计-Amjad Masad Replit 宣布对其平台进行全面优化,推出了Agent 能力的重大创新,并对用户界面进行了流线型重新设计。此次更新旨在提升开发者的编程体验,并增强AI Agent在Replit生态系统中的功能和交互效率,使其能更好地辅助代码编写和项目开发。 Emad Mostaque 宣布新公司致力于可验证的超级智能-Emad ChrSzegedy 宣布成立一家新公司,专注于通过自动化形式化 (autoformalization) 来创建可验证的超级智能 (verified superintelligence)。此举标志着在追求高级AI能力的同时,高度重视AI的可靠 …
阅读更多Apple AirPods Pro 3 新功能曝光:实时翻译和心率监测 苹果的下一代 AirPods Pro 3 预计将集成多项由AI驱动的创新功能。据爆料,新耳机将支持实时语言翻译和内置心率传感器。此外,AirPods Pro 3 在主动降噪(ANC)性能上比前代提升两倍,电池续航时间在ANC模式下可达8小时,并维持249美元的售价。这些功能预示着个人智能设备在健康监测和跨语言交流方面的进一步智能化。 阿联酋推出320亿参数开源推理模型 K2 Think 阿联酋(UAE)在人工智能领域迈出重要一步,发布了K2 Think模型。这是一个拥有320亿参数的开源推理模型,其性能表现“远超同等量级模型”。该模型已在Hugging …
阅读更多