生成
-
AI日报:豆包音频生成模型1.0发布;企业微信内测AI Agent大圆;Cursor发布全自主训练大模型 16
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://app.aibase.com/zh 1、豆包音频生成模型1.0 发布,开启音频导演时代 豆包音频生成模型1.0正式发布,通过多模态参考生成和长时音色一致性技术,彻底革新了传统音频制作流程。创作者…
-
字节Seedance 2.0 Mini上线:单秒成本砍半,速度翻倍,电商素材生产可以更放肆
做电商的老板们有福了——字节跳动火山引擎今天正式上线了 Seedance 2.0 Mini 视频生成模型。这个 Mini 版不是「阉割版」,是专门为「大批量、低成本」场景设计的「效率怪兽」。 两个最关键的数字 第一,成本。Mini 版的单秒视频生成成本降到 0.5 元人民币,是原版 Seedance 2.0 的一半左右。这意味着什么?以前你花 100 块能生成 30 秒广告视频…
-
豆包上线“任务模式”:支持多轮搜索与PPT自动化生成
豆包的“任务模式”确实是近期一个值得关注的升级,它把豆包从单纯的聊天工具推向了真正的 AI Agent 方向,尤其在国内大模型里走得比较靠前。 ithome.com核心亮点 这标志着豆包在向“高价值生产力工具”转型,用户黏性会明显提升——以前AI是“聊天搭子”,现在能直接“干活”交付可直接使用的成品。实际体验反馈实测用户反馈,生成一份行业PPT或报告通常几分钟完成,结构化程度较…
-
40秒生成一首歌!男子用AI写歌月入十几万,AI音乐创作成新赛道
近日,浙江杭州一名从业者借助AI音乐创作工具实现可观收益,引发业内关注。该创作者只需上传一张图片,耗时40秒便能生成一首完整曲目,工具可驾驭各类曲风,生成作品的人声、唱腔还原度贴近真人演唱,普通听众很难区分演唱者是AI还是真人。 依托低成本批量制作AI歌曲,投放到音乐、短视频平台变现,月收入可达十几万元,AI生成音乐也逐渐在各大内容平台收获流量。 但AI声音克隆技术也带来诈骗风…
-
OpenAI Codex 变身”万能助手”:一键接入 62 个应用,覆盖 110 项技能
核心看点 OpenAI 的编程神器 Codex 正在经历一场身份蜕变——从”代码助手”升级为”全岗位 AI 代理”。通过全新推出的插件系统,Codex 现在可以一键接入 62 个热门应用,掌握 110 项专业技能,覆盖销售、数据分析、创意制作、产品设计、股权投资等五大核心领域。无需写代码,安装即用。 详细解析 1. 插件系统:让 …
-
LobsterAI接入四大图像视频模型:一个平台搞定Seedream、Seedance、HappyHorse、MiniMax-Hailuo
核心看点: 一次性接入Seedream、Seedance、HappyHorse、MiniMax-Hailuo四大主流模型 多模型矩阵联动,降低开发者和创作者调用多模态AI的门槛 覆盖图片生成和视频生成两大领域 做内容创作的人有个痛点:不同AI画图和视频工具各有优劣,换来换去很麻烦。LobsterAI的新动作就是解决这个问题——把四大主流图像视频生成模型整合到一个平台里。 四大模…
-
xAI发布Grok Imagine质量模式API:生成的照片毛孔细节都能看清
xAI(埃隆·马斯克的AI公司)正式推出了Grok Imagine API的{LQ}质量模式{RQ},这是一个针对AI图像生成的全新升级,在画面写实度、文字渲染精度和创意控制力方面实现了重大突破,标志着AI图像生成进入了一个新的阶段。 这个质量模式到底有多强?我们分几个方面来看: 第一,画面细腻程度大幅提升。以前的AI生成图片,人脸经常有一种{LQ}塑料感{RQ},皮肤像磨皮过…
-
爆改漫画师!OpenAI 发布 ChatGPT Images 2.0,单次可生成8张连贯图像
OpenAI 近日正式发布 ChatGPT Images 2.0,这是一次针对图像生成能力的重大升级。新版本引入了推理规划功能,让 AI 生成图像时能够更好地理解和遵循逻辑,大幅提升成图质量。 核心升级亮点 🧠 推理规划功能:Images 2.0 内置了类似 CoT(思维链)的推理规划能力,AI 会在生成图像前进行逻辑推理,使最终效果更符合用户意图,减少”幻觉…
-
腾讯混元3D世界模型2.0开源:AI从’对话’进化到’造世界’
4月16日,腾讯宣布混元3D世界模型2.0(HY-World 2.0)正式发布并开源。这标志着AI技术从单纯的对话、画图、生成物体,正式进化到了能够”造世界”的新阶段。 核心看点 多模态输入支持:可根据文字、图片、视频等不同类型输入,自动生成、重建和模拟完整的3D世界 游戏工作流无缝对接:直接输出可二次编辑的3D资产文件(Mesh/3DGS/点云),支持…
-
Inception Labs 开发的一款基于扩散技术的大型语言模型(dLLM)- Mercury Coder,这玩意儿太快了……
技术特点 Mercury Coder 是由 Inception Labs 开发的一款基于扩散技术的大型语言模型(dLLM),专为高效编程和文本生成设计。 性能表现 应用场景 优势总结 Mercury Coder 的主要优势在于其极高的生成速度和并行处理能力,同时保持了与传统模型相当的性能。它还具备纠错能力,能够生成更准确的文本和代码。 体验地址: https://chat.in…
