Können GANs auch auf einem großen Datensatz für eine allgemeine Text-zu-Bild-Synthese-Aufgabe trainiert werden? Wir präsentieren unser Modell GigaGAN mit 1 Milliarde Parametern, das eine niedrigere FID (Frechet Inception Distance) als Stable Diffusion v1.5, DALL·E 2 und Parti-750M erreicht. Es generiert Ausgaben mit einer Auflösung von 512px in nur 0,13 Sekunden, was um Größenordnungen schneller ist als Diffusion und autoregressive Modelle. GigaGAN erbt den entkoppelten, kontinuierlichen und steuerbaren Latentraum von GANs. Zusätzlich haben wir einen schnellen Upsampler trainiert, der aus den niedrigauflösenden Ausgaben von Text-zu-Bild-Modellen 4K-Bilder generieren kann.
Kommentare