生成 | 梭哈 AI

AI 日报

AI日报：豆包音频生成模型1.0发布；企业微信内测AI Agent大圆；Cursor发布全自主训练大模型 16

欢迎来到【AI日报】栏目！这里是你每天探索人工智能世界的指南，每天为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh 1、豆包音频生成模型1.0 发布，开启音频导演时代豆包音频生成模型1.0正式发布，通过多模态参考生成和长时音色一致性技术，彻底革新了传统音频制作流程。创作者…

6天前

字节Seedance 2.0 Mini上线：单秒成本砍半，速度翻倍，电商素材生产可以更放肆

做电商的老板们有福了——字节跳动火山引擎今天正式上线了 Seedance 2.0 Mini 视频生成模型。这个 Mini 版不是「阉割版」，是专门为「大批量、低成本」场景设计的「效率怪兽」。两个最关键的数字第一，成本。Mini 版的单秒视频生成成本降到 0.5 元人民币，是原版 Seedance 2.0 的一半左右。这意味着什么？以前你花 100 块能生成 30 秒广告视频…

应用 2026年6月16日

豆包上线“任务模式”:支持多轮搜索与PPT自动化生成

豆包的“任务模式”确实是近期一个值得关注的升级，它把豆包从单纯的聊天工具推向了真正的 AI Agent 方向，尤其在国内大模型里走得比较靠前。 ithome.com核心亮点这标志着豆包在向“高价值生产力工具”转型，用户黏性会明显提升——以前AI是“聊天搭子”，现在能直接“干活”交付可直接使用的成品。实际体验反馈实测用户反馈，生成一份行业PPT或报告通常几分钟完成，结构化程度较…

应用 2026年6月15日

40秒生成一首歌！男子用AI写歌月入十几万，AI音乐创作成新赛道

近日，浙江杭州一名从业者借助AI音乐创作工具实现可观收益，引发业内关注。该创作者只需上传一张图片，耗时40秒便能生成一首完整曲目，工具可驾驭各类曲风，生成作品的人声、唱腔还原度贴近真人演唱，普通听众很难区分演唱者是AI还是真人。依托低成本批量制作AI歌曲，投放到音乐、短视频平台变现，月收入可达十几万元，AI生成音乐也逐渐在各大内容平台收获流量。但AI声音克隆技术也带来诈骗风…

行业/好文 2026年6月5日

OpenAI Codex 变身”万能助手”：一键接入 62 个应用，覆盖 110 项技能

核心看点 OpenAI 的编程神器 Codex 正在经历一场身份蜕变——从”代码助手”升级为”全岗位 AI 代理”。通过全新推出的插件系统，Codex 现在可以一键接入 62 个热门应用，掌握 110 项专业技能，覆盖销售、数据分析、创意制作、产品设计、股权投资等五大核心领域。无需写代码，安装即用。详细解析 1. 插件系统：让 …

openai-gpt 2026年6月4日

LobsterAI接入四大图像视频模型：一个平台搞定Seedream、Seedance、HappyHorse、MiniMax-Hailuo

核心看点：一次性接入Seedream、Seedance、HappyHorse、MiniMax-Hailuo四大主流模型多模型矩阵联动，降低开发者和创作者调用多模态AI的门槛覆盖图片生成和视频生成两大领域做内容创作的人有个痛点：不同AI画图和视频工具各有优劣，换来换去很麻烦。LobsterAI的新动作就是解决这个问题——把四大主流图像视频生成模型整合到一个平台里。四大模…

应用 2026年6月1日

xAI发布Grok Imagine质量模式API：生成的照片毛孔细节都能看清

xAI（埃隆·马斯克的AI公司）正式推出了Grok Imagine API的{LQ}质量模式{RQ}，这是一个针对AI图像生成的全新升级，在画面写实度、文字渲染精度和创意控制力方面实现了重大突破，标志着AI图像生成进入了一个新的阶段。这个质量模式到底有多强？我们分几个方面来看：第一，画面细腻程度大幅提升。以前的AI生成图片，人脸经常有一种{LQ}塑料感{RQ}，皮肤像磨皮过…

应用 2026年5月8日

爆改漫画师！OpenAI 发布 ChatGPT Images 2.0，单次可生成8张连贯图像

OpenAI 近日正式发布 ChatGPT Images 2.0，这是一次针对图像生成能力的重大升级。新版本引入了推理规划功能，让 AI 生成图像时能够更好地理解和遵循逻辑，大幅提升成图质量。核心升级亮点 🧠 推理规划功能：Images 2.0 内置了类似 CoT（思维链）的推理规划能力，AI 会在生成图像前进行逻辑推理，使最终效果更符合用户意图，减少”幻觉&#8…

应用 2026年4月22日

腾讯混元3D世界模型2.0开源：AI从’对话’进化到’造世界’

4月16日，腾讯宣布混元3D世界模型2.0（HY-World 2.0）正式发布并开源。这标志着AI技术从单纯的对话、画图、生成物体，正式进化到了能够”造世界”的新阶段。核心看点多模态输入支持：可根据文字、图片、视频等不同类型输入，自动生成、重建和模拟完整的3D世界游戏工作流无缝对接：直接输出可二次编辑的3D资产文件（Mesh/3DGS/点云），支持…

模型框架 2026年4月16日

应用

Inception Labs 开发的一款基于扩散技术的大型语言模型（dLLM）- Mercury Coder,这玩意儿太快了……

技术特点 Mercury Coder 是由 Inception Labs 开发的一款基于扩散技术的大型语言模型（dLLM），专为高效编程和文本生成设计。性能表现应用场景优势总结 Mercury Coder 的主要优势在于其极高的生成速度和并行处理能力，同时保持了与传统模型相当的性能。它还具备纠错能力，能够生成更准确的文本和代码。体验地址： https://chat.in…

2025年3月8日