《基于大语言模型的Vibe Coding综述》发布,探讨AI编程新范式-宝玉 中科院、杜克大学等机构联合发布了《基于大语言模型的Vibe Coding综述》,将Vibe Coding定义为人类开发者、软件项目和编程智能体之间的“三方关系”。论文指出,经验丰富的开发者在使用高级AI工具时,任务完成时间反而可能增加19%,这主要归因于上下文工程、反馈循环和基础设施等方面的挑战。文章还提出了五种Vibe Coding开发模式,并强调开发者应将AI智能体视为员工而非工具,其核心工作将转向意图阐述、上下文管理、系统级调试、架构监督及质量验证。Vibe Coding的推广也带来代码可靠性、安全、大规模监管以及教育体系脱节等深远挑战。 AI生成 …
阅读更多Suno AI音乐生成实验:从硬核舞曲到未来电子 - 向阳乔木 AI音乐平台Suno的用户正在积极探索其音乐生成能力。通过添加如hardstyle, hardtechno, cyberpunk, edm, dance, future house等风格提示词,并结合fast robotic female voice, vocal chop, robotic voice break effects, acid rap等声音效果,Suno能够生成节奏更快、更具舞曲风格的音乐。用户还分享了一个详细的歌词示例,展示了如何通过结构化的歌词(包括intro, verse, pre-drop, drop, breakdown, bridge, …
阅读更多以下是过去4小时内全球AI领域的重要动态: Peter H. Diamandis将出席FII-9峰会探讨AI、人形机器人和富足主题-Peter H. Diamandis, MD 著名未来学家Peter H. Diamandis博士正前往沙特阿拉伯利雅得,准备参加即将举行的FII-9峰会。他将在峰会上主持多场关于人工智能(AI)、人形机器人以及富足理论的对话和研讨会。此次会议预计将汇聚全球顶尖的思想家,共同探讨科技前沿对未来社会和经济的影响。Diamandis博士的参与预示着峰会将深入探讨AI与机器人技术如何推动人类社会向更丰富的未来发展。 AI/ML开发者分享视觉语言模型及计算机视觉教程仓库-merve AI/ML开发者merve提 …
阅读更多Veo 3.1 图生视频广告制作方法揭秘-歸藏(guizang.ai) 归藏(guizang.ai)分享了使用Veo 3.1制作图生视频广告的详细方法。该流程首先涉及为每个角色训练包含多种角度、表情和光线变化的数据集。接着,用户创建主提示词以定义环境参数,如灯光、建筑和对比度。随后,系统生成一个基础模板,其中不包含角色。最后,通过将参考图导入Nano Banana,来创建包含角色的最终图像。这一方法展示了AI在视频内容创作中实现精细控制的潜力,为广告制作带来了高效且高质量的解决方案。 Google Earth AI 接入 Gemini 迎来重大升级-小互 Google Earth AI近日宣布重大升级,通过深度整合Gemini模 …
阅读更多OCR与VLM模型进展及Qwen3-VL应用 - clem 🤗 近期,光学字符识别(OCR)和视觉-语言模型(VLM)领域取得多项进展。据报道,在过去24小时内,三款Qwen3-VL模型(2B、4B和8B)已在Hugging Face上通过CATmuS数据集完成微调。此外,社区还分享了针对OCR/文档处理模型的微调教程,例如Kosmos2.5与grounding技术的结合。本周,OCR和VLM领域涌现了如deepseek-ocr、chandra-ocr、nanonets-ocr2和paddleocr-vl等多个新模型,显示出该领域的活跃发展和社区的高度热情。 PyTorch强化学习环境开源工作获Hugging Face支持 - …
阅读更多文档AI模型微调教程发布 - merve 开发者mervenoyann发布了一系列针对光学字符识别(OCR)和文档理解任务的视觉语言模型(VLM)微调教程。其中包含两项主要教程:一是关于如何微调 Kosmos2.5 模型以实现带接地的OCR功能,适用于处理包含边界框和文本的数据;二是关于如何在DocVQA(文档视觉问答)数据集上微调 Florence-2 模型,旨在帮助用户从文档中搜索和提取答案。这些教程以“即插即用”的方式设计,旨在简化文档AI模型的部署和应用,并且在同一代码库中提供了更多视觉LM和计算机视觉相关的notebooks。
阅读更多Replit 首席执行官揭示平台分析仪表盘的实用功能 - Amjad Masad Replit 首席执行官 Amjad Masad 强调了 Replit 平台内置的分析仪表盘,指出许多用户可能不知道其丰富的数据信息。他举例说明,通过该仪表盘,他发现自己的网站速度变慢,并找到了导致响应时间超过一秒的请求高峰。这一功能位于“发布”标签下,对于开发者监控应用性能和及时发现问题提供了重要的工具。 Replit 聘请 React 创始人 Jordan Walke - Amjad Masad Replit 首席执行官 Amjad Masad 转发了关于 Replit 聘请 Jordan Walke 的消息。Jordan Walke …
阅读更多微软发布 Copilot 一系列重磅更新,打造全能私人AI助手-小互 微软宣布对 Copilot 进行一系列重大更新,旨在将其打造成一个全能的私人AI助手。Copilot现已深度集成并打通微软旗下几乎所有产品,其核心由微软与OpenAI整合的全新版本 GPT-5 驱动,并全面升级了视觉和语音能力。主要新功能包括:Copilot Vision 赋予其理解图像和现实场景的能力;Connectors 支持跨应用搜索文档和邮件;Groups 实现多人实时协作;Edge 中的 Copilot 模式 升级为AI浏览器;Learn Live 提供语音交互式学习;Copilot for Health 聚焦医疗健康信息;Mico 虚拟伴侣 提升语音 …
阅读更多以下是过去四小时全球AI领域的重要动态: DeepSeek-OCR:通过图像实现文本光学压缩,解决AI长上下文问题-宝玉 DeepSeek-AI实验室发布了一项名为DeepSeek-OCR的创新技术,通过将千字文本压缩成“图片”来显著提升AI处理长文本的能力。该模型能够以10:1的压缩比和97%的准确率重建原始文本,有效解决了AI面临的“长上下文”瓶颈。这种“光学压缩”方法不仅为AI提供了“无限”记忆的新途径,还可能模仿人类的遗忘机制,让AI更高效地处理信息,仅保留关键要点。宝玉分享了一个为Gemini 2.5 Pro模型设计的提示,用于处理该论文PDF并生成结果。 AI Dev 25 x NYC大会议程公布-Andrew Ng …
阅读更多everyone shafts @SchmidhuberAI, even AI: - Gary Marcus AI研究者Gary Marcus评论了AI先驱Jürgen Schmidhuber在AI历史贡献方面受到的关注不足。他指出,即便在AI领域内部,Schmidhuber的成就也常被忽视,并引用了一篇讨论AI发展史与贡献归属的文章,反映了AI社区对于知识产权归属和历史叙述的持续争论。 RT @xiaokedada: #分享 大脑和工具之间的抽象:Skills - 宝玉 宝玉转发xiaokedada的分享,深入探讨了Anthropic新推出的“Skills”功能,并将其与Cursor Rules的设计理念进行了对比。他观察 …
阅读更多