Este modelo pode acabar com as imagens estranhas criadas por IA

Pesquisa da Rice University apresenta mรฉtodo que corrige falhas em imagens de IA com diferentes proporรงรตes.

por Caio Pรณvoa
| Em 16/09/2024 ร s 07:01
Crรฉditos: HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDร“ร‘EZ-ROMรN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023

A geraรงรฃo de imagens por inteligรชncia artificial (IA) sempre enfrentou dificuldades em criar resultados consistentes, frequentemente cometendo erros bizarros em detalhes como dedos e simetria facial. Alรฉm disso, esses modelos podem falhar completamente quando solicitados a gerar imagens em diferentes tamanhos e resoluรงรตes. No entanto, uma nova soluรงรฃo desenvolvida por cientistas da computaรงรฃo da Rice University pretende corrigir essas falhas.

Moayed Haji Ali, doutorando em ciรชncia da computaรงรฃo na Rice University, desenvolveu um mรฉtodo chamado ElasticDiffusion. Este mรฉtodo utiliza modelos de difusรฃo prรฉ-treinados para gerar imagens, uma classe de IA generativa que โ€œaprendeโ€ adicionando camadas de ruรญdo aleatรณrio ร s imagens em que foi treinada e, posteriormente, gera novas imagens removendo esse ruรญdo.

A pesquisa foi apresentada na IEEE 2024 Conference on Computer Vision and Pattern Recognition (CVPR) em Seattle.

O problema com modelos de difusรฃo atuais

Modelos de difusรฃo populares como Stable Diffusion, Midjourney e DALL-E sรฃo conhecidos por gerar imagens realistas. No entanto, eles possuem uma limitaรงรฃo relevante: sรณ conseguem criar imagens quadradas. Quando se trata de diferentes proporรงรตes, como as de um monitor widescreen (16:9) ou de um smartwatch, esses modelos falham ao gerar elementos repetitivos e distorcidos.

Esta limitaรงรฃo ocorre devido ao treinamento dos modelos em imagens de uma รบnica resoluรงรฃo. Com isso, a tentativa de gerar imagens em proporรงรตes diferentes resulta em anomalias visuais, como pessoas com seis dedos ou carros estranhamente alongados.

Exemplo de IA com falha na simulaรงรฃo de dedos de mรฃo humana

Esse problema รฉ agravado pelo fenรดmeno conhecido como overfitting, no qual o modelo se torna excessivamente bom em criar dados semelhantes ao que foi treinado, mas incapaz de se adaptar a outras variaรงรตes. Ou seja, o modelo que apresenta overfitting รฉ incapaz de fazer generalizaรงรตes para o usar o que aprendeu em outro conjunto de dados.

O mรฉtodo ElasticDiffusion

O mรฉtodo ElasticDiffusion propรตe uma soluรงรฃo para esse problema separando o โ€œsinalโ€ das imagens geradas em dois tipos de dados: local e global. O sinal local contรฉm detalhes em nรญvel de pixel, enquanto o sinal global fornece um contorno geral da imagem. Em modelos de difusรฃo convencionais, esses sinais sรฃo processados juntos, o que leva a problemas quando a IA tenta acomodar proporรงรตes diferentes.

Entรฃo, o tratamento de Haji Ali separa os sinais em caminhos de geraรงรฃo condicionais e incondicionais. Isso permite que o modelo aplique detalhes locais em quadrantes da imagem, preenchendo um quadrado de cada vez. O sinal global, que define a proporรงรฃo da imagem e o conteรบdo geral, รฉ mantido separado, evitando a repetiรงรฃo e confusรฃo de dados.

Esquemรกtico do tratamento de sinais feito pelo modelo ElasticDiffusion (HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDร“ร‘EZ-ROMรN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023)

Como resultado, o ElasticDiffusion consegue criar imagens mais limpas, independentemente da proporรงรฃo, sem necessidade de treinamento adicional.

Comparaรงรฃo de imagens geradas pelo modelo Elastic Diffusion e StableDiffusion (HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDร“ร‘EZ-ROMรN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023)

Desafios do modelo e futuro da pesquisa

Embora o ElasticDiffusion apresente uma soluรงรฃo que parece promissora, ele possui uma desvantagem em relaรงรฃo aos modelos de difusรฃo existentes: o tempo. Atualmente, a tรฉcnica de Haji Ali leva de 6 a 9 vezes mais tempo para gerar uma imagem. Assim, o objetivo futuro รฉ reduzir esse tempo para se equiparar a modelos como o Stable Diffusion ou o DALL-E.

Haji Ali espera que sua pesquisa conduza a um melhor entendimento de por que os modelos de difusรฃo apresentam repetiรงรฃo e nรฃo se adaptam a diferentes proporรงรตes, criando assim uma estrutura que possa se adaptar a qualquer proporรงรฃo, mantendo o mesmo tempo de inferรชncia.


Referรชncia:

HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDร“ร‘EZ-ROMรN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023. Disponรญvel em: https://arxiv.org/abs/2311.18822.

  • Graduado em Engenharia Elรฉtrica pela Universidade Federal de Goiรกs. Possui tambรฉm tรญtulo de Mestre em Engenharia Elรฉtrica e de Computaรงรฃo pela Escola de Engenharia Elรฉtrica, Mecรขnica e de Computaรงรฃo-EMC UFG. Por meio da escrita, compartilha conhecimentos e orientaรงรตes prรกticas com foco em รกreas da ciรชncia, tecnologia e temas relacionados.

RECENTES

6 ajustes para fazer a bateria do seu Galaxy Watch durar mais

6 ajustes para fazer a bateria do seu Galaxy Watch durar mais

O Galaxy Watch - o relรณgio inteligente da Samsung - รฉ um companheiro inteligente que facilita a rotina de quem o usa, mas muitos usuรกrios percebem que sua bateria pode se esgotar mais rรกpido do que gostariam. Para aproveitar ao mรกximo seu relรณgio e estender a duraรงรฃo...

Senhas mais usadas de 2024: Evite-as para proteger seus dados!

Senhas mais usadas de 2024: Evite-as para proteger seus dados!

No mundo digital, onde senhas sรฃo a chave para praticamente tudo โ€” desde contas bancรกrias atรฉ dispositivos inteligentes โ€”, a escolha de combinaรงรตes fรกceis de lembrar pode se tornar uma grande vulnerabilidade. Um estudo da NordPass, especializado em gestรฃo de senhas,...

5 vantagens da Bluesky em relaรงรฃo a outras redes sociais

5 vantagens da Bluesky em relaรงรฃo a outras redes sociais

Recentemente, a rede Bluesky tem se ganhado espaรงo como uma das opรงรตes mais comentadas entre redes sociais descentralizadas. Criada para oferecer maior controle aos usuรกrios e eliminar a manipulaรงรฃo algorรญtmica, ela รฉ vista como uma alternativa atrativa para quem...

Evite problemas! 7 cuidados fundamentais para sua geladeira

Evite problemas! 7 cuidados fundamentais para sua geladeira

Muitas vezes subestimamos o impacto de pequenos hรกbitos que, sem percebermos, podem comprometer o funcionamento da nossa geladeira e atรฉ mesmo sua durabilidade. Com isso em mente, preparamos um guia detalhado para te ajudar a cuidar melhor deste item essencial do dia...

Android 15: 7 novos modelos da Motorola tรชm update confirmado

Android 15: 7 novos modelos da Motorola tรชm update confirmado

Apรณs o lanรงamento oficial do Android 15 em 15 de outubro, a Motorola confirmou a chegada da nova atualizaรงรฃo do sistema operacional da Google para sete de seus dispositivos. Embora ainda nรฃo haja uma data especรญfica para liberaรงรฃo, a empresa jรก incluiu novos modelos...

7 erros comuns ao trocar o pneu do carro – e como evitรก-los!

7 erros comuns ao trocar o pneu do carro – e como evitรก-los!

Trocar o pneu do carro pode parecer uma tarefa simples, atรฉ o momento em que vocรช realmente precisa trocar um. Nessa hora, muitos motoristas cometem erros que podem comprometer a seguranรงa e a integridade do veรญculo. Entรฃo, para te ajudar a entender melhor o que nรฃo...

Estรก de PC novo? 5 passos para configurar sua nova mรกquina!

Estรก de PC novo? 5 passos para configurar sua nova mรกquina!

Se vocรช acabou de adquirir um computador novo com Windows, parabรฉns pela aquisiรงรฃo! No entanto, antes de comeรงar a usรก-lo, hรก algumas etapas importantes para garantir que o sistema esteja seguro, otimizado e pronto para atender ร s suas necessidades. Saiba como...

5 coisas que a Meta AI do WhatsApp pode fazer por vocรช

5 coisas que a Meta AI do WhatsApp pode fazer por vocรช

Vocรช certamente jรก deve ter reparado em um cรญrculo azul que apareceu recentemente no aplicativo WhatsApp. Trata-se da Meta AI, uma ferramenta de inteligรชncia artificial que agora estรก integrada ao app de mensagens. Acontece que, apesar de ser ainda pouco explorada...

6 aplicativos para instalar na sua Smart TV agora mesmo

6 aplicativos para instalar na sua Smart TV agora mesmo

Vocรช sabia que as Smart TVs oferecem uma infinidade de possibilidades alรฉm de simplesmente assistir televisรฃo? Com a instalaรงรฃo dos aplicativos certos, vocรช pode transformar sua TV em um รณtimo centro de entretenimento. Pensando nisso, separamos 6 dos melhores...

5 truques para aproveitar a รrea de Transferรชncia do Windows

5 truques para aproveitar a รrea de Transferรชncia do Windows

A ferramenta de รกrea de transferรชncia do Windows nรฃo se resume a apenas copiar e colar (o famoso CTRL+C CTRL+V). Ela oferece funcionalidades que podem tornar o seu fluxo de trabalho mais รกgil, com a vantagem de jรก vir incorporada ao sistema da Microsoft. A seguir,...

0 comentรกrios

Enviar um comentรกrio

O seu endereรงo de e-mail nรฃo serรก publicado. Campos obrigatรณrios sรฃo marcados com *