Veo 3.1 图生视频广告制作方法揭秘-歸藏(guizang.ai) 归藏(guizang.ai)分享了使用Veo 3.1制作图生视频广告的详细方法。该流程首先涉及为每个角色训练包含多种角度、表情和光线变化的数据集。接着,用户创建主提示词以定义环境参数,如灯光、建筑和对比度。随后,系统生成一个基础模板,其中不包含角色。最后,通过将参考图导入Nano Banana,来创建包含角色的最终图像。这一方法展示了AI在视频内容创作中实现精细控制的潜力,为广告制作带来了高效且高质量的解决方案。 Google Earth AI 接入 Gemini 迎来重大升级-小互 Google Earth AI近日宣布重大升级,通过深度整合Gemini模 …
阅读更多Andreessen Horowitz资助“合成网红”以服务形式操纵社交媒体-Gary Marcus 知名风险投资公司Andreessen Horowitz (a16z) 被曝正投资数千名“合成网红 (Synthetic Influencers)”,以提供“社交媒体操纵即服务”。这一消息由著名AI评论家Gary Marcus转发,并援引JOSourcing的报道,揭示了AI技术在数字营销和信息传播领域可能带来的道德和伦理挑战。这种做法引发了对社交媒体生态系统真实性、公众舆论被操纵以及信息茧房效应加剧的广泛担忧,预示着AI在社会影响力方面的应用正走向一个需要严格监管和深刻反思的阶段。 Gemini Canvas功能支持自动导出 …
阅读更多今日全球AI动态的核心在于 应用层与企业级的深度融合。OpenAI正式将ChatGPT接入企业内部知识库,标志着大模型从通用助手向企业核心智能中枢的转变。与此同时,微软推出情感化AI伴侣Mico,探索下一代人机交互范式。AI在垂直领域的落地也在加速,从Stability AI与EA合作重塑游戏开发,到字节跳动豆包大模型“上车”赛力斯,再到谷歌Gemini赋能地理空间分析,展示了AI技术正从底层能力向产业价值快速转化。这一系列动向,都建立在如Anthropic巨额投入谷歌TPU的庞大算力基础之上。 OpenAI 推出 ChatGPT 新功能,允许AI访问并整合企业内部知识 OpenAI为ChatGPT …
阅读更多揭秘“AI 智能体” (Agentic AI) 到底如何工作:给孩子的科普指南-宝玉 这篇文章以科普指南的形式,详细解释了AI 智能体(Agentic AI)的工作原理。它将AI智能体比作一个超级聪明的帮手,能够自主做决定、定计划并执行任务。文章阐述了AI智能体的三大核心能力:记忆力、思考力和行动力,并区分了任务型智能体和自主型智能体。通过举例日本旅行规划,以及AI如何拆解任务、利用工具(如搜索引擎、邮件)和通过反馈机制学习进步,清晰地展示了AI智能体在自动化会议预订、日历管理、邮件撰写乃至业务流程运营等方面的实际应用。 斯坦福大学论文揭示 AI 智能体失败根源及调试方案-宝玉 斯坦福大学的论文《WHERE LLM AGENTS …
阅读更多警惕:Token用量或成裁员依据-宝玉 一位名为“宝玉”的作者提醒,一些公司可能将 AI工具的Token用量 作为裁员的依据。他建议开发者可以有意识地使用 Copilot 的 Agent模式 来运行一些任务,以维持或提高个人在AI工具使用上的统计数据,这可能是应对潜在评估策略的一种方式,凸显了AI工具在企业绩效管理中日益复杂的影响。 AI辅助Markdown转纯文本Prompt分享-宝玉 “宝玉”分享了一个实用的AI Prompt,用于将 Markdown文本转换为纯文本 格式,特别适用于发布到X或微博等社交平台,以避免因Markdown标签造成的阅读障碍。该Prompt详细定义了转换规则,包括保留核心内容、移除所 …
阅读更多OCR与VLM模型进展及Qwen3-VL应用 - clem 🤗 近期,光学字符识别(OCR)和视觉-语言模型(VLM)领域取得多项进展。据报道,在过去24小时内,三款Qwen3-VL模型(2B、4B和8B)已在Hugging Face上通过CATmuS数据集完成微调。此外,社区还分享了针对OCR/文档处理模型的微调教程,例如Kosmos2.5与grounding技术的结合。本周,OCR和VLM领域涌现了如deepseek-ocr、chandra-ocr、nanonets-ocr2和paddleocr-vl等多个新模型,显示出该领域的活跃发展和社区的高度热情。 PyTorch强化学习环境开源工作获Hugging Face支持 - …
阅读更多文档AI模型微调教程发布 - merve 开发者mervenoyann发布了一系列针对光学字符识别(OCR)和文档理解任务的视觉语言模型(VLM)微调教程。其中包含两项主要教程:一是关于如何微调 Kosmos2.5 模型以实现带接地的OCR功能,适用于处理包含边界框和文本的数据;二是关于如何在DocVQA(文档视觉问答)数据集上微调 Florence-2 模型,旨在帮助用户从文档中搜索和提取答案。这些教程以“即插即用”的方式设计,旨在简化文档AI模型的部署和应用,并且在同一代码库中提供了更多视觉LM和计算机视觉相关的notebooks。
阅读更多Replit 首席执行官揭示平台分析仪表盘的实用功能 - Amjad Masad Replit 首席执行官 Amjad Masad 强调了 Replit 平台内置的分析仪表盘,指出许多用户可能不知道其丰富的数据信息。他举例说明,通过该仪表盘,他发现自己的网站速度变慢,并找到了导致响应时间超过一秒的请求高峰。这一功能位于“发布”标签下,对于开发者监控应用性能和及时发现问题提供了重要的工具。 Replit 聘请 React 创始人 Jordan Walke - Amjad Masad Replit 首席执行官 Amjad Masad 转发了关于 Replit 聘请 Jordan Walke 的消息。Jordan Walke …
阅读更多微软发布 Copilot 一系列重磅更新,打造全能私人AI助手-小互 微软宣布对 Copilot 进行一系列重大更新,旨在将其打造成一个全能的私人AI助手。Copilot现已深度集成并打通微软旗下几乎所有产品,其核心由微软与OpenAI整合的全新版本 GPT-5 驱动,并全面升级了视觉和语音能力。主要新功能包括:Copilot Vision 赋予其理解图像和现实场景的能力;Connectors 支持跨应用搜索文档和邮件;Groups 实现多人实时协作;Edge 中的 Copilot 模式 升级为AI浏览器;Learn Live 提供语音交互式学习;Copilot for Health 聚焦医疗健康信息;Mico 虚拟伴侣 提升语音 …
阅读更多今日全球AI动态的核心聚焦于 AI的深度整合与应用层竞争。OpenAI收购苹果“快捷指令”原创团队,并更新其AI浏览器,明确指向了将AI能力从云端向操作系统和核心应用(如浏览器)深度渗透的战略野心,意图打造无缝的桌面级AI智能体。与之呼应,苹果提前交付自研AI服务器,为“Apple Intelligence”构建坚实算力基座。同时,AI的应用形态日益丰富,从阿里发布的AI眼镜到微软为Copilot引入动画助手,各大厂商正积极探索下一代人机交互界面。 OpenAI收购苹果“快捷指令”原创团队,意图打造桌面级AI OpenAI已收购Software Applications Incorporated (SAI)公司,其核心团队正是苹果“ …
阅读更多