Este modelo pode acabar com as imagens estranhas criadas por IA

Pesquisa da Rice University apresenta mรฉtodo que corrige falhas em imagens de IA com diferentes proporรงรตes.

por Caio Pรณvoa
| Em 16/09/2024 ร s 07:01
Crรฉditos: HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDร“ร‘EZ-ROMรN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023

A geraรงรฃo de imagens por inteligรชncia artificial (IA) sempre enfrentou dificuldades em criar resultados consistentes, frequentemente cometendo erros bizarros em detalhes como dedos e simetria facial. Alรฉm disso, esses modelos podem falhar completamente quando solicitados a gerar imagens em diferentes tamanhos e resoluรงรตes. No entanto, uma nova soluรงรฃo desenvolvida por cientistas da computaรงรฃo da Rice University pretende corrigir essas falhas.

Moayed Haji Ali, doutorando em ciรชncia da computaรงรฃo na Rice University, desenvolveu um mรฉtodo chamado ElasticDiffusion. Este mรฉtodo utiliza modelos de difusรฃo prรฉ-treinados para gerar imagens, uma classe de IA generativa que โ€œaprendeโ€ adicionando camadas de ruรญdo aleatรณrio ร s imagens em que foi treinada e, posteriormente, gera novas imagens removendo esse ruรญdo.

A pesquisa foi apresentada na IEEE 2024 Conference on Computer Vision and Pattern Recognition (CVPR) em Seattle.

O problema com modelos de difusรฃo atuais

Modelos de difusรฃo populares como Stable Diffusion, Midjourney e DALL-E sรฃo conhecidos por gerar imagens realistas. No entanto, eles possuem uma limitaรงรฃo relevante: sรณ conseguem criar imagens quadradas. Quando se trata de diferentes proporรงรตes, como as de um monitor widescreen (16:9) ou de um smartwatch, esses modelos falham ao gerar elementos repetitivos e distorcidos.

Esta limitaรงรฃo ocorre devido ao treinamento dos modelos em imagens de uma รบnica resoluรงรฃo. Com isso, a tentativa de gerar imagens em proporรงรตes diferentes resulta em anomalias visuais, como pessoas com seis dedos ou carros estranhamente alongados.

Exemplo de IA com falha na simulaรงรฃo de dedos de mรฃo humana

Esse problema รฉ agravado pelo fenรดmeno conhecido como overfitting, no qual o modelo se torna excessivamente bom em criar dados semelhantes ao que foi treinado, mas incapaz de se adaptar a outras variaรงรตes. Ou seja, o modelo que apresenta overfitting รฉ incapaz de fazer generalizaรงรตes para o usar o que aprendeu em outro conjunto de dados.

O mรฉtodo ElasticDiffusion

O mรฉtodo ElasticDiffusion propรตe uma soluรงรฃo para esse problema separando o โ€œsinalโ€ das imagens geradas em dois tipos de dados: local e global. O sinal local contรฉm detalhes em nรญvel de pixel, enquanto o sinal global fornece um contorno geral da imagem. Em modelos de difusรฃo convencionais, esses sinais sรฃo processados juntos, o que leva a problemas quando a IA tenta acomodar proporรงรตes diferentes.

Entรฃo, o tratamento de Haji Ali separa os sinais em caminhos de geraรงรฃo condicionais e incondicionais. Isso permite que o modelo aplique detalhes locais em quadrantes da imagem, preenchendo um quadrado de cada vez. O sinal global, que define a proporรงรฃo da imagem e o conteรบdo geral, รฉ mantido separado, evitando a repetiรงรฃo e confusรฃo de dados.

Esquemรกtico do tratamento de sinais feito pelo modelo ElasticDiffusion (HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDร“ร‘EZ-ROMรN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023)

Como resultado, o ElasticDiffusion consegue criar imagens mais limpas, independentemente da proporรงรฃo, sem necessidade de treinamento adicional.

Comparaรงรฃo de imagens geradas pelo modelo Elastic Diffusion e StableDiffusion (HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDร“ร‘EZ-ROMรN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023)

Desafios do modelo e futuro da pesquisa

Embora o ElasticDiffusion apresente uma soluรงรฃo que parece promissora, ele possui uma desvantagem em relaรงรฃo aos modelos de difusรฃo existentes: o tempo. Atualmente, a tรฉcnica de Haji Ali leva de 6 a 9 vezes mais tempo para gerar uma imagem. Assim, o objetivo futuro รฉ reduzir esse tempo para se equiparar a modelos como o Stable Diffusion ou o DALL-E.

Haji Ali espera que sua pesquisa conduza a um melhor entendimento de por que os modelos de difusรฃo apresentam repetiรงรฃo e nรฃo se adaptam a diferentes proporรงรตes, criando assim uma estrutura que possa se adaptar a qualquer proporรงรฃo, mantendo o mesmo tempo de inferรชncia.


Referรชncia:

HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDร“ร‘EZ-ROMรN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023. Disponรญvel em: https://arxiv.org/abs/2311.18822.

  • Caio Pรณvoa

    Graduado em Engenharia Elรฉtrica pela Universidade Federal de Goiรกs. Possui tambรฉm tรญtulo de Mestre em Engenharia Elรฉtrica e de Computaรงรฃo pela Escola de Engenharia Elรฉtrica, Mecรขnica e de Computaรงรฃo-EMC UFG. Por meio da escrita, compartilha conhecimentos e orientaรงรตes prรกticas com foco em รกreas da ciรชncia, tecnologia e temas relacionados.

Recentes

Afinal, o Tesla Cybertruck รฉ realmente ร  prova de balas?

Afinal, o Tesla Cybertruck รฉ realmente ร  prova de balas?

Durante o evento de lanรงamento do Tesla Cybertruck, em 2019, Elon Musk, CEO da Tesla, afirmou que o veรญculo seria revestido com aรงo inoxidรกvel 301 de 3 mm, o mesmo usado nas naves Starship da SpaceX, o que, segundo ele, tornaria o Cybertruck resistente a balas de 9...

Future You: IA do MIT permite conversar com o seu ‘eu do futuro’

Future You: IA do MIT permite conversar com o seu ‘eu do futuro’

Um dos grandes exemplos do progresso veloz da Inteligรชncia Artificial รฉ o Future You, uma IA desenvolvida para permitir que os usuรกrios conversem com uma versรฃo mais velha de si mesmos. Esse sistema tem a capacidade de impactar diretamente a forma como tomamos...

Onde Bill Gates investe sua fortuna de 159 bilhรตes de dรณlares?

Onde Bill Gates investe sua fortuna de 159 bilhรตes de dรณlares?

Bill Gates, cofundador da Microsoft e uma das pessoas mais ricas do mundo, atrai atenรงรฃo por suas atividades no setor de tecnologia e pela forma como gerencia seu vasto patrimรดnio. Em agosto de 2024, sua fortuna foi estimada em aproximadamente 159 bilhรตes de dรณlares....

Qual a populaรงรฃo atual do planeta Terra? Pico deve ser atingido em 2080!

Qual a populaรงรฃo atual do planeta Terra? Pico deve ser atingido em 2080!

A populaรงรฃo mundial continua a crescer em ritmo acelerado, mas os especialistas jรก antecipam uma desaceleraรงรฃo nas prรณximas dรฉcadas. Segundo dados recentes da ONU, em 2022, a populaรงรฃo global ultrapassou 8 bilhรตes de habitantes, um nรบmero que reflete sรฉculos de...

ChatGPT mais caro? Entenda o aumento de preรงo e o futuro da OpenAI

ChatGPT mais caro? Entenda o aumento de preรงo e o futuro da OpenAI

ร‰ isso mesmo, produรงรฃo? ChatGPT mais caro? Pois bem, a partir de 2025, assinantes do ChatGPT Plus podem esperar sim um aumento na mensalidade do serviรงo. A OpenAI, desenvolvedora do chatbot de inteligรชncia artificial, anunciou planos para ajustar os preรงos em resposta...

Renault, Fiat e VW: SUVs que tรชm origem em hatches compactos

Renault, Fiat e VW: SUVs que tรชm origem em hatches compactos

Vocรช jรก notou como alguns SUVs parecem bem prรณximos aos hatches? Isso nรฃo รฉ coincidรชncia. No setor automotivo, a tendรชncia de transformar hatches populares em SUVs estรก ganhando terreno, seguindo uma estratรฉgia de oferecer ao mercado variantes mais robustas de modelos...

Recarga de veรญculos elรฉtricos: 5 regras que todos deveriam seguir

Recarga de veรญculos elรฉtricos: 5 regras que todos deveriam seguir

Em 2023, foram vendidas cerca de 94 mil unidades de veรญculos eletrificados, incluindo modelos elรฉtricos e hรญbridos. Em 2024, o nรบmero de emplacamentos aumentou significativamente, com 79.304 unidades de veรญculos leves eletrificados comercializados apenas no primeiro...

Arco-รญris tem todas as cores? Desvende 4 mitos sobre cores!

Arco-รญris tem todas as cores? Desvende 4 mitos sobre cores!

As cores fazem parte do nosso cotidiano, mas muitas vezes acreditamos em informaรงรตes que nรฃo sรฃo verdadeiras sobre como as percebemos. Dois dos mitos mais comuns estรฃo relacionados ร  visรฃo dos animais e dos seres humanos. Para desmitificar essas ideais, abaixo...