IT之家4月18日音尘,腾讯混元本日告示开源定制化图像生成插件InstantCharacter,并已矣了对开源文生图模子Flux的兼容。
腾讯官方先容称,通过这个插件,在大模子中,只需要一张图加一句话,就不错让任何变装以你思要的姿势出现时职何所在。
输入原始图片
+prompt:arabbitisinthekitchenholdingaspoonanddrinkingsoup
就能取得底下的图:
+prompt:arabbitinthecity,cyberpunk
就不错取得:
变装一致性是多轮文生图场景中的一浩劫题。InstantCharacter的上风在于不错确保变装在不同场景中的一致性和真确性、画质和精度高,同期ag百家乐下三路具有天的确文本裁剪性,用户不错把柄需要天显露换苟且场景,让东谈主物生成苟且手脚。
其在变装一致性和图像生成的精准度上堪称向上了此前业界的关系技巧,大要处理多种作风和复杂度的图像。
通过这个插件,内容创作家不错让生成的变装保执高度一致,大要更高效地创作出合适其需求的视觉作品,aG百家乐真人平台不错用于连环画、影片创作等场景。
本体的测评中,开源的InstantCharacter已矣的效劳忘形GPT4o等模子。
从技巧上看,现存基于学习的阵势主要依赖于U-Net架构,但在泛化才能和图像质料上存在局限性,而基于优化的阵势则需要针对特定主体进行微调,这弗成幸免地裁汰了文本可控性。
为了贬责这些挑战,InstantCharacter诈欺DiT模子构建了一个改进的框架。框架引入了一个可推广的适配器(adapter),领受多个transformerencoder,大要有用处理灵通域的变装特征,并与当代扩散变换器的潜在空间无缝交互。这种缱绻使得系统大要天真恰当不同的变装特征。
同期,为了有用进修框架,腾讯混元团队还构建了一个包含千万级样本的大畛域变装数据集。数据集被系统地组织为成对(多视角变装)和非成对(文本-图像组合)子集。这种双数据结构使得身份一致性和文本可裁剪性大要通过不同的学习旅途同期优化。