Este modelo pode acabar com as imagens estranhas criadas por IA

Pesquisa da Rice University apresenta método que corrige falhas em imagens de IA com diferentes proporções.

por Caio Póvoa

| Em 16/09/2024 às 07:01

Créditos: HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDÓÑEZ-ROMÁN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023

A geração de imagens por inteligência artificial (IA) sempre enfrentou dificuldades em criar resultados consistentes, frequentemente cometendo erros bizarros em detalhes como dedos e simetria facial. Além disso, esses modelos podem falhar completamente quando solicitados a gerar imagens em diferentes tamanhos e resoluções. No entanto, uma nova solução desenvolvida por cientistas da computação da Rice University pretende corrigir essas falhas.

Moayed Haji Ali, doutorando em ciência da computação na Rice University, desenvolveu um método chamado ElasticDiffusion. Este método utiliza modelos de difusão pré-treinados para gerar imagens, uma classe de IA generativa que “aprende” adicionando camadas de ruído aleatório às imagens em que foi treinada e, posteriormente, gera novas imagens removendo esse ruído.

A pesquisa foi apresentada na IEEE 2024 Conference on Computer Vision and Pattern Recognition (CVPR) em Seattle.

O problema com modelos de difusão atuais

Modelos de difusão populares como Stable Diffusion, Midjourney e DALL-E são conhecidos por gerar imagens realistas. No entanto, eles possuem uma limitação relevante: só conseguem criar imagens quadradas. Quando se trata de diferentes proporções, como as de um monitor widescreen (16:9) ou de um smartwatch, esses modelos falham ao gerar elementos repetitivos e distorcidos.

Esta limitação ocorre devido ao treinamento dos modelos em imagens de uma única resolução. Com isso, a tentativa de gerar imagens em proporções diferentes resulta em anomalias visuais, como pessoas com seis dedos ou carros estranhamente alongados.

Exemplo de IA com falha na simulação de dedos de mão humana

Esse problema é agravado pelo fenômeno conhecido como overfitting, no qual o modelo se torna excessivamente bom em criar dados semelhantes ao que foi treinado, mas incapaz de se adaptar a outras variações. Ou seja, o modelo que apresenta overfitting é incapaz de fazer generalizações para o usar o que aprendeu em outro conjunto de dados.

O método ElasticDiffusion

O método ElasticDiffusion propõe uma solução para esse problema separando o “sinal” das imagens geradas em dois tipos de dados: local e global. O sinal local contém detalhes em nível de pixel, enquanto o sinal global fornece um contorno geral da imagem. Em modelos de difusão convencionais, esses sinais são processados juntos, o que leva a problemas quando a IA tenta acomodar proporções diferentes.

Então, o tratamento de Haji Ali separa os sinais em caminhos de geração condicionais e incondicionais. Isso permite que o modelo aplique detalhes locais em quadrantes da imagem, preenchendo um quadrado de cada vez. O sinal global, que define a proporção da imagem e o conteúdo geral, é mantido separado, evitando a repetição e confusão de dados.

Esquemático do tratamento de sinais feito pelo modelo ElasticDiffusion (HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDÓÑEZ-ROMÁN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023)

Como resultado, o ElasticDiffusion consegue criar imagens mais limpas, independentemente da proporção, sem necessidade de treinamento adicional.

Comparação de imagens geradas pelo modelo Elastic Diffusion e StableDiffusion (HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDÓÑEZ-ROMÁN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023)

Desafios do modelo e futuro da pesquisa

Embora o ElasticDiffusion apresente uma solução que parece promissora, ele possui uma desvantagem em relação aos modelos de difusão existentes: o tempo. Atualmente, a técnica de Haji Ali leva de 6 a 9 vezes mais tempo para gerar uma imagem. Assim, o objetivo futuro é reduzir esse tempo para se equiparar a modelos como o Stable Diffusion ou o DALL-E.

Haji Ali espera que sua pesquisa conduza a um melhor entendimento de por que os modelos de difusão apresentam repetição e não se adaptam a diferentes proporções, criando assim uma estrutura que possa se adaptar a qualquer proporção, mantendo o mesmo tempo de inferência.

Referência:

HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDÓÑEZ-ROMÁN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023. Disponível em: https://arxiv.org/abs/2311.18822.

Escrito por:
Caio Póvoa

Graduado em Engenharia Elétrica pela Universidade Federal de Goiás. Possui também título de Mestre em Engenharia Elétrica e de Computação pela Escola de Engenharia Elétrica, Mecânica e de Computação-EMC UFG. Por meio da escrita, compartilha conhecimentos e orientações práticas com foco em áreas da ciência, tecnologia e temas relacionados.

Tags: ia generativa | imagens

RECENTES

Para que usar o Copilot no Windows? Funções para você usar!

04/01/2025

A Microsoft integrou a inteligência artificial de forma ampla em seu sistema operacional Windows, com o lançamento do Copilot, sua assistente virtual, em 2023. A ferramenta traz recursos que vão desde respostas a perguntas até a criação de arte digital e aprimoramento...

Para que serve a porta USB azul? E a verde-azulada? Entenda!

27/12/2024

Os diferentes tons nas portas USB dos dispositivos eletrônicos não são meras escolhas estéticas. Na verdade, essas cores indicam funcionalidades específicas e o desempenho potencial de cada porta. Entre essas cores, as portas USB azuis se destacam por ter uma maior...

Fim do suporte do Windows 10: 5 alternativas para PCs ‘incompatíveis’

26/12/2024

O suporte oficial ao Windows 10 será encerrado pela Microsoft em 14 de outubro de 2025. A partir dessa data, o sistema operacional não receberá mais atualizações de segurança, nem suporte técnico. Por isso, para os usuários cujos computadores não são compatíveis com o...

7 locais em sua casa que você se esquece de incluir na limpeza

25/12/2024

Manter a casa impecável é um objetivo praticamente inalcançável, apesar de muito desejado, e muitas vezes. Isso porque, por maior que seja o seu esforço, alguns lugares passam despercebidos na rotina de limpeza. Mesmo com uma programação bem definida, é fácil esquecer...

Honda, Nissan e Mitsubishi anunciam integração e cronograma; saiba mais!

24/12/2024

Nissan Motor Co., Ltd. e Honda Motor Co., Ltd., dois gigantes da indústria automotiva, assinaram um Memorando de Entendimento (MOU) para tratar uma possível integração empresarial por meio da criação de uma holding. O acordo foi anunciado em 23 de dezembro de 2024....

Renove a playlist! 5 dicas para descobrir novas músicas no Spotify

23/12/2024

Se você está procurando renovar suas playlists ou encontrar novos artistas para se apaixonar, o Spotify é uma genuína mina de ouro para descoberta musical. Afinal de contas, o aplicativo é um enorme catálogo que te possibilita explorar novos sons. E você pode...

Tesla realiza recall de quase 700 mil veículos por falha em sistema

22/12/2024

A Tesla anunciou o recall de aproximadamente 694 mil veículos, incluindo os modelos Cybertruck 2024, Model 3 (2017-2025) e Model Y (2020-2025). A medida foi tomada após a constatação de uma falha no sistema de monitoramento da pressão dos pneus. Segundo a...

Por que cortes feitos por papel doem tanto? Entenda os motivos!

21/12/2024

Os cortes de papel são pequenas feridas que causam um nível de dor desproporcional ao tamanho e à gravidade do machucado. Afinal, embora superficiais, esses cortes despertam grande desconforto, que fica ainda pior quando ocorrem em áreas altamente sensíveis do corpo....

ChatGPT chega ao WhatsApp e você pode usá-lo gratuitamente

19/12/2024

O ChatGPT, desenvolvido pela OpenAI, agora pode ser utilizado diretamente no WhatsApp. Esta novidade faz parte do programa “12 Days of OpenAI” e traz uma opção fácil para interagir com a inteligência artificial por meio de uma das plataformas de mensagens mais...

Como consultar multas online pela placa do carro? Aprenda!

19/12/2024

Fazer consultas de multas utilizando a placa do carro é uma prática de suma importância para motoristas e compradores de veículos. A busca tende a evitar que você faça uma negociação ruim, por exemplo, e também garante a legalidade do veículo para os proprietários. A...

VEJA TAMBÉM

Este modelo pode acabar com as imagens estranhas criadas por IA

Pesquisa da Rice University apresenta método que corrige falhas em imagens de IA com diferentes proporções.

O problema com modelos de difusão atuais

O método ElasticDiffusion

Desafios do modelo e futuro da pesquisa

Para que usar o Copilot no Windows? Funções para você usar!

Para que serve a porta USB azul? E a verde-azulada? Entenda!

Fim do suporte do Windows 10: 5 alternativas para PCs ‘incompatíveis’

7 locais em sua casa que você se esquece de incluir na limpeza

Honda, Nissan e Mitsubishi anunciam integração e cronograma; saiba mais!

Renove a playlist! 5 dicas para descobrir novas músicas no Spotify

Tesla realiza recall de quase 700 mil veículos por falha em sistema

Por que cortes feitos por papel doem tanto? Entenda os motivos!

ChatGPT chega ao WhatsApp e você pode usá-lo gratuitamente

Como consultar multas online pela placa do carro? Aprenda!

0 comentários

Enviar um comentário Cancelar resposta

Pin It on Pinterest