controlnet作者张吕敏公开了新项目, Omost:一个将 LLM 的编码能力转换为图像生成(或更准确地说,图像合成)能力的项目。
Omost是一个将LLM的编码能力转换为图像生成(或更准确地说是图像合成)能力的项目。
Omost(发音:almost)这个名字有两个意思:1)每次使用Omost后,你的图像几乎已经完成;2)O代表“omni”(多模态),most表示我们希望充分利用它。
Omost提供LLMs模型,这些模型将编写代码来用Omost的虚拟画布代理来组合图像视觉内容。此画布可以由特定实现的图像生成器渲染,从而实际生成图像。
目前,我们提供基于Llama3和Phi3变种的3个预训练LLM模型(也请参阅本页末尾的模型注释)。
所有模型都是使用(1)几个数据集(包括Open-Images)的地面真实注释数据,(2)通过自动注释图像提取的数据,(3)来自DPO(Direct Preference Optimization,“代码是否能够通过Python 3.10编译”作为直接参考)的强化,以及(4)来自OpenAI GPT4o的多模态能力的一小部分调整数据进行训练的混合数据。
项目地址:
https://github.com/lllyasviel/
体验地址:
https://huggingface.co/spaces/lllyasviel/Omost
本文地址:https://www.163264.com/7646