Novembro 23, 2024

Revista PORT.COM

Informações sobre Portugal. Selecione os assuntos que você deseja saber mais sobre no Revistaport

Melhor que JPEG? O pesquisador descobre que a difusão estável pode comprimir imagens

Melhor que JPEG?  O pesquisador descobre que a difusão estável pode comprimir imagens
Ampliação / Esses blocos coloridos irregulares são exatamente como o conceito de compressão de imagem soa.

Bing Edwards / Ars Technica

Na semana passada, o engenheiro de software suíço Matthias Pullman Descobrir Aquele famoso modelo de fotomontagem propagação estável Ele pode compactar bitmaps existentes com menos artefatos visuais do que JPEG ou WebP em altas taxas de compactação, embora haja ressalvas significativas.

A propagação estável é um arquivo Modelo de fotomontagem de inteligência artificial que normalmente geram imagens com base em descrições de texto (chamadas de “reivindicações”). O modelo de IA aprendeu essa habilidade estudando milhões de imagens retiradas da Internet. Durante o processo de treinamento, o modelo faz associações estatísticas entre imagens e palavras relacionadas, fazendo uma representação muito menor das informações básicas sobre cada imagem e armazenando-as como “pesos”, que são valores matemáticos que representam o que o modelo de imagem de IA sabe, então eles ocorrem.

Quando a difusão estável analisa e “comprime” as imagens em uma forma de peso, elas residem no que os pesquisadores chamam de “espaço latente”, uma forma de dizer que existe como uma espécie de potencial borrado que pode ser percebido nas imagens uma vez decodificadas. . Com Stable Diffusion 1.4, o arquivo de pesos é de aproximadamente 4 GB, mas é conhecimento de centenas de milhões de imagens.

Exemplos de uso de difusão estável para compactar imagens.
Ampliação / Exemplos de uso de difusão estável para compactar imagens.

Enquanto a maioria das pessoas usa Stable Diffusion com prompts de texto, Bühlmann cortou o codificador de texto e, em vez disso, forçou suas imagens através do processo de codificação de imagem Stable Diffusion, que pega uma imagem de baixa resolução de 512 × 512 e a converte em uma representação latente de resolução 64 × 64 mais alta do espaço. Neste ponto, a imagem existe com um tamanho de dados muito menor do que a imagem original, mas ainda pode ser expandida (decodificada) para uma imagem de 512×512 com resultados bastante bons.

READ  Battlefield 2042 traz capítulos de volta ao jogo sob atualização

Durante os testes, Bühlmann descobriu que imagens compactadas com Difusão Estável parecem subjetivamente melhores em taxas de compactação mais altas (tamanho de arquivo menor) do que JPEG ou WebP. Em um exemplo, ele mostra uma imagem de uma loja de doces compactada em 5,68 KB usando JPEG, 5,71 KB usando WebP e 4,98 KB usando difusão estável. A imagem de difusão estável parece ter detalhes mais finos e resultados de compactação menos claros do que aqueles compactados em outros formatos.

Exemplos de demonstração do uso de difusão estável para compactar imagens.  Resultados SD na extrema direita.
Ampliação / Exemplos de demonstração do uso de difusão estável para compactar imagens. Resultados SD na extrema direita.

O método de Bühlmann atualmente vem com limitações significativas, no entanto: não é bom com rostos ou texto e, em alguns casos, pode realmente alucinar recursos detalhados na imagem decodificada que não estavam presentes na imagem de origem. (Você provavelmente não quer que o compressor de imagem invente detalhes em uma imagem que não existe.) Além disso, a decodificação de arquivos requer 4 GB de pesos de propagação estáveis ​​e tempo de decodificação adicional.

Embora esse uso do Stable Diffusion não seja convencional e seja mais um truque divertido do que uma solução prática, pode indicar um novo uso futuro de modelos de montagem de fotos. Pode ser um símbolo Pullman encontrado no Google Colab, Você encontrará mais detalhes técnicos sobre sua experiência em Postado como IA.