Este modelo pode acabar com as imagens estranhas criadas por IA

Pesquisa da Rice University apresenta mรฉtodo que corrige falhas em imagens de IA com diferentes proporรงรตes.

por Caio Pรณvoa
| Em 16/09/2024 ร s 07:01
Crรฉditos: HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDร“ร‘EZ-ROMรN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023

A geraรงรฃo de imagens por inteligรชncia artificial (IA) sempre enfrentou dificuldades em criar resultados consistentes, frequentemente cometendo erros bizarros em detalhes como dedos e simetria facial. Alรฉm disso, esses modelos podem falhar completamente quando solicitados a gerar imagens em diferentes tamanhos e resoluรงรตes. No entanto, uma nova soluรงรฃo desenvolvida por cientistas da computaรงรฃo da Rice University pretende corrigir essas falhas.

Moayed Haji Ali, doutorando em ciรชncia da computaรงรฃo na Rice University, desenvolveu um mรฉtodo chamado ElasticDiffusion. Este mรฉtodo utiliza modelos de difusรฃo prรฉ-treinados para gerar imagens, uma classe de IA generativa que โ€œaprendeโ€ adicionando camadas de ruรญdo aleatรณrio ร s imagens em que foi treinada e, posteriormente, gera novas imagens removendo esse ruรญdo.

A pesquisa foi apresentada na IEEE 2024 Conference on Computer Vision and Pattern Recognition (CVPR) em Seattle.

O problema com modelos de difusรฃo atuais

Modelos de difusรฃo populares como Stable Diffusion, Midjourney e DALL-E sรฃo conhecidos por gerar imagens realistas. No entanto, eles possuem uma limitaรงรฃo relevante: sรณ conseguem criar imagens quadradas. Quando se trata de diferentes proporรงรตes, como as de um monitor widescreen (16:9) ou de um smartwatch, esses modelos falham ao gerar elementos repetitivos e distorcidos.

Esta limitaรงรฃo ocorre devido ao treinamento dos modelos em imagens de uma รบnica resoluรงรฃo. Com isso, a tentativa de gerar imagens em proporรงรตes diferentes resulta em anomalias visuais, como pessoas com seis dedos ou carros estranhamente alongados.

Exemplo de IA com falha na simulaรงรฃo de dedos de mรฃo humana

Esse problema รฉ agravado pelo fenรดmeno conhecido como overfitting, no qual o modelo se torna excessivamente bom em criar dados semelhantes ao que foi treinado, mas incapaz de se adaptar a outras variaรงรตes. Ou seja, o modelo que apresenta overfitting รฉ incapaz de fazer generalizaรงรตes para o usar o que aprendeu em outro conjunto de dados.

O mรฉtodo ElasticDiffusion

O mรฉtodo ElasticDiffusion propรตe uma soluรงรฃo para esse problema separando o โ€œsinalโ€ das imagens geradas em dois tipos de dados: local e global. O sinal local contรฉm detalhes em nรญvel de pixel, enquanto o sinal global fornece um contorno geral da imagem. Em modelos de difusรฃo convencionais, esses sinais sรฃo processados juntos, o que leva a problemas quando a IA tenta acomodar proporรงรตes diferentes.

Entรฃo, o tratamento de Haji Ali separa os sinais em caminhos de geraรงรฃo condicionais e incondicionais. Isso permite que o modelo aplique detalhes locais em quadrantes da imagem, preenchendo um quadrado de cada vez. O sinal global, que define a proporรงรฃo da imagem e o conteรบdo geral, รฉ mantido separado, evitando a repetiรงรฃo e confusรฃo de dados.

Esquemรกtico do tratamento de sinais feito pelo modelo ElasticDiffusion (HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDร“ร‘EZ-ROMรN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023)

Como resultado, o ElasticDiffusion consegue criar imagens mais limpas, independentemente da proporรงรฃo, sem necessidade de treinamento adicional.

Comparaรงรฃo de imagens geradas pelo modelo Elastic Diffusion e StableDiffusion (HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDร“ร‘EZ-ROMรN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023)

Desafios do modelo e futuro da pesquisa

Embora o ElasticDiffusion apresente uma soluรงรฃo que parece promissora, ele possui uma desvantagem em relaรงรฃo aos modelos de difusรฃo existentes: o tempo. Atualmente, a tรฉcnica de Haji Ali leva de 6 a 9 vezes mais tempo para gerar uma imagem. Assim, o objetivo futuro รฉ reduzir esse tempo para se equiparar a modelos como o Stable Diffusion ou o DALL-E.

Haji Ali espera que sua pesquisa conduza a um melhor entendimento de por que os modelos de difusรฃo apresentam repetiรงรฃo e nรฃo se adaptam a diferentes proporรงรตes, criando assim uma estrutura que possa se adaptar a qualquer proporรงรฃo, mantendo o mesmo tempo de inferรชncia.


Referรชncia:

HAJI ALI, Moayed; BALAKRISHNAN, Guha; ORDร“ร‘EZ-ROMรN, Vicente. ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation. 2023. Disponรญvel em: https://arxiv.org/abs/2311.18822.

  • Caio Pรณvoa

    Graduado em Engenharia Elรฉtrica pela Universidade Federal de Goiรกs. Possui tambรฉm tรญtulo de Mestre em Engenharia Elรฉtrica e de Computaรงรฃo pela Escola de Engenharia Elรฉtrica, Mecรขnica e de Computaรงรฃo-EMC UFG. Por meio da escrita, compartilha conhecimentos e orientaรงรตes prรกticas com foco em รกreas da ciรชncia, tecnologia e temas relacionados.

Recentes

Rรฉplica da McLaren P1 feita de LEGO roda no Circuito de Silverstone

Rรฉplica da McLaren P1 feita de LEGO roda no Circuito de Silverstone

Lego surpreendeu mais uma vez ao criar uma rรฉplica em tamanho real do McLaren P1, um hipercarro icรดnico. No total, foram utilizadas mais de 342.817 peรงas Technic. Mas o grande diferencial mesmo รฉ que esta impressionante construรงรฃo nรฃo รฉ apenas um modelo estรกtico; รฉ um...

4 opรงรตes baratas de carros automรกticos atualmente – seu preรงos!

4 opรงรตes baratas de carros automรกticos atualmente – seu preรงos!

Se vocรช estรก buscando praticidade na direรงรฃo, um carro automรกtico pode ser uma excelente opรงรฃo. E, no Brasil, com o aumento da demanda por esse tipo de cรขmbio, as montadoras estรฃo cada vez mais se empenhando para oferecer modelos automรกticos a preรงos acessรญveis. A...

Uso do ChatGPT pode prejudicar desempenho de estudantes, aponta estudo

Uso do ChatGPT pode prejudicar desempenho de estudantes, aponta estudo

Um estudo conduzido por pesquisadores da Universidade da Pensilvรขnia revelou que o uso do ChatGPT como ferramenta de apoio no aprendizado pode, na verdade, prejudicar o desempenho dos alunos em testes. Duvida disso? Bom, a pesquisa, que envolveu estudantes do ensino...

Minha Smart TV Box รฉ homologada pela Anatel? Confira a lista completa!

Minha Smart TV Box รฉ homologada pela Anatel? Confira a lista completa!

A Anatel (Agรชncia Nacional de Telecomunicaรงรตes) estabelece requisitos tรฉcnicos rigorosos para a homologaรงรฃo de Smart TV Boxes no Brasil, a fim de garantir a conformidade dos dispositivos com as normas de seguranรงa e operaรงรฃo. O Ato nยบ 9281, de 05 de julho de 2023,...

9 comandos ‘secretos’ da Alexa para vocรช aproveitar

9 comandos ‘secretos’ da Alexa para vocรช aproveitar

A assistente virtual Alexa, desenvolvida pela Amazon, jรก รฉ parte de vรกrias famรญlias, facilitando a vida dos usuรกrios com comandos de voz que controlam dispositivos inteligentes, tocam mรบsicas e fornecem informaรงรตes. No entanto, alรฉm de suas funรงรตes mais conhecidas, a...

Planejando viagens com a IA: Veja o que fazer (e o que evitar!)

Planejando viagens com a IA: Veja o que fazer (e o que evitar!)

A popularizaรงรฃo da IA generativa tem feito com que os bots inteligentes assumam uma variedade de funรงรตes no nosso dia a dia, desde a criaรงรฃo de aplicativos atรฉ a produรงรฃo de filmes. E agora, essas ferramentas estรฃo se tornando tambรฉm companheiras de viagem, servindo...

Estudo mostra novo uso para Slack e WhatsApp no trabalho e seu efeito positivo!

Estudo mostra novo uso para Slack e WhatsApp no trabalho e seu efeito positivo!

Um estudo recente conduzido pela Universidade do Texas em Austin demonstrou que plataformas de comunicaรงรฃo no local de trabalho, como Slack e Microsoft Teams (e por que nรฃo, WhatsApp, para nรณs brasileiros?), algumas vezes criticadas por diminuir a produtividade, podem...