A geraรงรฃo de imagens por inteligรชncia artificial (IA) sempre enfrentou dificuldades em criar resultados consistentes, frequentemente cometendo erros bizarros em detalhes como dedos e simetria facial. Alรฉm disso, esses modelos podem falhar completamente quando solicitados a gerar imagens em diferentes tamanhos e resoluรงรตes. No entanto, uma nova soluรงรฃo desenvolvida por cientistas da computaรงรฃo da Rice University pretende corrigir essas falhas.
Moayed Haji Ali, doutorando em ciรชncia da computaรงรฃo na Rice University, desenvolveu um mรฉtodo chamado ElasticDiffusion. Este mรฉtodo utiliza modelos de difusรฃo prรฉ-treinados para gerar imagens, uma classe de IA generativa que โaprendeโ adicionando camadas de ruรญdo aleatรณrio ร s imagens em que foi treinada e, posteriormente, gera novas imagens removendo esse ruรญdo.
A pesquisa foi apresentada na IEEE 2024 Conference on Computer Vision and Pattern Recognition (CVPR) em Seattle.
O problema com modelos de difusรฃo atuais
Modelos de difusรฃo populares como Stable Diffusion, Midjourney e DALL-E sรฃo conhecidos por gerar imagens realistas. No entanto, eles possuem uma limitaรงรฃo relevante: sรณ conseguem criar imagens quadradas. Quando se trata de diferentes proporรงรตes, como as de um monitor widescreen (16:9) ou de um smartwatch, esses modelos falham ao gerar elementos repetitivos e distorcidos.
Esta limitaรงรฃo ocorre devido ao treinamento dos modelos em imagens de uma รบnica resoluรงรฃo. Com isso, a tentativa de gerar imagens em proporรงรตes diferentes resulta em anomalias visuais, como pessoas com seis dedos ou carros estranhamente alongados.
Esse problema รฉ agravado pelo fenรดmeno conhecido como overfitting, no qual o modelo se torna excessivamente bom em criar dados semelhantes ao que foi treinado, mas incapaz de se adaptar a outras variaรงรตes. Ou seja, o modelo que apresenta overfitting รฉ incapaz de fazer generalizaรงรตes para o usar o que aprendeu em outro conjunto de dados.
O mรฉtodo ElasticDiffusion
O mรฉtodo ElasticDiffusion propรตe uma soluรงรฃo para esse problema separando o โsinalโ das imagens geradas em dois tipos de dados: local e global. O sinal local contรฉm detalhes em nรญvel de pixel, enquanto o sinal global fornece um contorno geral da imagem. Em modelos de difusรฃo convencionais, esses sinais sรฃo processados juntos, o que leva a problemas quando a IA tenta acomodar proporรงรตes diferentes.
Entรฃo, o tratamento de Haji Ali separa os sinais em caminhos de geraรงรฃo condicionais e incondicionais. Isso permite que o modelo aplique detalhes locais em quadrantes da imagem, preenchendo um quadrado de cada vez. O sinal global, que define a proporรงรฃo da imagem e o conteรบdo geral, รฉ mantido separado, evitando a repetiรงรฃo e confusรฃo de dados.
Como resultado, o ElasticDiffusion consegue criar imagens mais limpas, independentemente da proporรงรฃo, sem necessidade de treinamento adicional.
Desafios do modelo e futuro da pesquisa
Embora o ElasticDiffusion apresente uma soluรงรฃo que parece promissora, ele possui uma desvantagem em relaรงรฃo aos modelos de difusรฃo existentes: o tempo. Atualmente, a tรฉcnica de Haji Ali leva de 6 a 9 vezes mais tempo para gerar uma imagem. Assim, o objetivo futuro รฉ reduzir esse tempo para se equiparar a modelos como o Stable Diffusion ou o DALL-E.
Haji Ali espera que sua pesquisa conduza a um melhor entendimento de por que os modelos de difusรฃo apresentam repetiรงรฃo e nรฃo se adaptam a diferentes proporรงรตes, criando assim uma estrutura que possa se adaptar a qualquer proporรงรฃo, mantendo o mesmo tempo de inferรชncia.
Referรชncia:
HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDรรEZ-ROMรN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023. Disponรญvel em: https://arxiv.org/abs/2311.18822.