下载AG百家乐
网络彩票和AG百家乐

你的位置:下载AG百家乐 > 网络彩票和AG百家乐 >

热点资讯

百家乐AG真人 GPT-4o图像生成的隐秘,OpenAI 没说,网友照旧拼出真相?

发布日期:2024-06-13 06:00    点击次数:149

机器之心报说念百家乐AG真人

剪辑:Panda、陈陈

自从 OpenAI 发布 GPT-4o 图像生成功能以来,短短几天时候,咱们眼睛里看的,耳朵里听的,险些齐是对于它的音问。

不会 PS 也能化身绘画大众,通俗掀开一个酬酢媒体,一眼望去齐是 GPT-4o 生成的案例。

比如,吉卜力画风的特朗普「积极坦诚对话」泽连斯基:

然而,OpenAI 一向并不 Open,此次也不例外。他们仅仅发布一份 GPT-4o 系统卡附录(增补文献),其中也主如若发达了评估、安全和处置方面的内容。

地址:https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

对于时间,在这份长达 13 页的附录文献中,也仅在最启动时提到了一句:「不同于基于扩散模子的 DALL・E,4o 图像生成是一个镶嵌在 ChatGPT 中的自总结模子。」

OpenAI 对时间守密,也造反不住大众对 GPT-4o 职责形状的温煦,现时收罗上照旧出现了各式谋略、逆向工程。

比如谷歌 DeepMind 盘考者 Jon Barron 字据 4o 出图的历程谋略其可能是组合使用了某种多轨范时间与自总结。

不外,值得一提的是,香港汉文大学博士生刘杰(Jie Liu)在盘考 GPT-4o 的前端时发现,用户在生成图像时看到的逐行生成图像的恶果其实仅仅浏览器上的前端动画恶果,并不成准确真的地响应其图像生成的具体历程。本色上,在每次生成历程中,OpenAI 的奇迹器只会向用户端发送 5 张中间图像。您以致不错在末端台手动诊治拖沓函数的高度来更正生成图像的拖沓限制!

因此,在推断 GPT-4o 的职责旨趣时,其生成时的前端展示恶果可能并不是一个好依据。

尽管如斯,照旧让咱们来望望各路盘考者齐作念出了怎样的谋略。合座来说,对 GPT-4o 原生图像生成才智的推断主要谄媚在两个标的:自总结 + 扩散生成、非扩散的自总结生成。底下咱们谛视清点一下关联猜念念,并会绵薄先容网友们猜念念关联的一些关联论文。

猜念念一:自总结 + 扩散

许多网友猜念念 GPT-4o 的图像生成收受了「自总结 + 扩散」的范式。比如 CMU 博士生 Sangyun Lee 在该功能发布后不久就发推猜念念 GPT-4o 会先生成视觉 token,再由扩散模子将其解码到像素空间。而且他以为,GPT-4o 使用的扩漫步调是访佛于 Rolling Diffusion 的分组扩散解码器,会以从上到下的礼貌进行解码。

他进一步给出了我方得出如斯猜念念的依据。

情理 1:如果有一个浩大的条款信号(如文本,也可能有视觉 token),用户频频会先看到将要生成的内容的拖沓草图。因此,那些待生成区域会浮现不祥的结构。情理 2:其 UI 标明,图像是从顶部到底部生成的。Sangyun Lee 曾在我方的盘登第尝试过底部到顶部的礼貌。

Sangyun Lee 猜念念到,这么的分组模式下,高 NFE(函数评估数目)区域的 FID 会更好一些。但在他盘考发现这小数时,他仅仅以为这是个 bug,而非特色。但现时情况不相通了,东说念主们齐在盘考测试时打算。

终末,他得出论断说:「因此,这是一种介于扩散和自总结模子之间的模子。事实上,通过成就 num_groups=num_pixels,你以致不错还原自总结!」

另外也有其他一些盘考者给出了访佛的判断:

如果你对这一猜念念感兴味,不错参看以下论文:

Rolling Diffusion Models,网络彩票和AG百家乐arXiv:2402.09470;Sequential Data Generation with Groupwise Diffusion Process, arXiv:2310.01400Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,arXiv:2408.11039

猜念念二:非扩散的自总结生成

使用过 GPT-4o 的齐知说念,其在生成图像的历程中老是先出现上半部分,然后才生成好意思满的图像。

Moonpig 公司 AI 阁下 Peter Gostev 以为,GPT-4o 是收受从图像的顶部流 token 启动生成图像的,就像文本生成形状相通。

着手:https://www.linkedin.com/feed/update/urn:li:activity:7311176227078172674/

Gostev 表示,与传统的图像生成模子比拟,GPT-4o 图像生成的关节差异在于它是一个自总结模子。这意味着它会像生成文本相通,按礼貌逐一流式传输图像 token。比拟之下,基于扩散历程的模子(举例 Midjourney、DALL-E、Stable Diffusion)频频是从噪声到清澈图像一次性完成调度。

这种自总结模子的主要上风在于,模子不需要一次性生成所有这个词全局图像。相背,它不错通过以下形状来生成图像:

愚弄其模子权重中镶嵌的通用常识;通过按礼貌流式传输 token 来更连贯地生成图像。

更进一步的,Gostev 以为,如果你使用 ChatGPT 并点击查验(Inspect),然后在浏览器中导航到收罗(Network)标签,就不错监控浏览器与奇迹器之间的流量。这让你大约搜检 ChatGPT 在图像生成历程中发送的中间图像,从而得到一些有价值的痕迹。

Gostev 给出了一些初步的不雅察完毕(可能并不好意思满):

图像是从上到下生成的;这个历程如实触及流 token,与扩漫步调截然有异;从一启动,就不错看到图像的大要详尽;先前生成的像素在生成历程中可能会发生显耀变化;这可能标明模子收受了某种连贯性优化,尤其是在接近完成阶段时愈加赫然。

终末,Gostev 表示还有一些无法径直从图像中看到的额外不雅察完毕:

对于绵薄的图像生成,GPT-4o 速率要快得多,频频只须一个中间图像,而不是多个。这可能表示使用了推测解码或其他访佛步调;图像生成还具备布景移除功能,从现时的情况来说,率先 GPT-4o 生成图片会呈现一个假的棋盘格布景,直到终末才移除本色布景,这会稍稍镌汰图像质料。这似乎是一个额外的处理历程,而不是 GPT-4o 自身的功能。

设备者 @KeyTryer 也给出了我方的猜念念。他说 4o 是一种自总结模子,通过屡次通过来逐像素地生成图像,而不是像扩散模子那样扩充去噪门径。

而这种才智自身便是 GPT-4o LLM 神经收罗的一部分。表面上讲,它大约比扩散系统更好地掌抓它们正在操作的观念,而扩散系统仅仅对立时噪声的一种谋略。

GPT-4o 还大约使用 LLM「知说念」的信息来生成图像。也因此,它们具有更好的泛化才智,大约使用多条音问进行险阻体裁习,通过特定的剪辑输出斟酌(或极端接近)的完毕,而况具有广义的空间和场景感。

芬兰赫尔辛基的大学副解释 Luigi Acerbi 也指出,GPT-4o 基本就仅仅使用 Transformer 来谋略下一个 token,而况其原生图像生成才智一启动就有,仅仅一直以来齐莫得公设备布。

不外,Acerbi 解释也提到,OpenAI 可能使用了扩散模子或或一些修饰模子来为 GPT-4o 生成的图像扩充一些计帐或添加小细节。

GPT-4o 原生图像生成功能究竟是怎样完结的?这小数终究还得恭候 OpenAI 我方来揭秘。对此,你有什么我方的猜念念呢?

https://x.com/karminski3/status/1905765848423211237

https://x.com/iScienceLuvr/status/1905730169631080564

https://x.com/AcerbiLuigi/status/1904793122015522922

https://x.com/Hesamation/status/1905762746056278278

https://x.com/jie_liu1/status/1905761704195346680



友情链接:

Powered by 下载AG百家乐 @2013-2022 RSS地图 HTML地图