Na semana passada, o engenheiro de software suíço Matthias Pullman Descobrir Aquele famoso modelo de fotomontagem propagação estável Ele pode compactar bitmaps existentes com menos artefatos visuais do que JPEG ou WebP em altas taxas de compactação, embora haja ressalvas significativas.
A propagação estável é um arquivo Modelo de fotomontagem de inteligência artificial que normalmente geram imagens com base em descrições de texto (chamadas de “reivindicações”). O modelo de IA aprendeu essa habilidade estudando milhões de imagens retiradas da Internet. Durante o processo de treinamento, o modelo faz associações estatísticas entre imagens e palavras relacionadas, fazendo uma representação muito menor das informações básicas sobre cada imagem e armazenando-as como “pesos”, que são valores matemáticos que representam o que o modelo de imagem de IA sabe, então eles ocorrem.
Quando a difusão estável analisa e “comprime” as imagens em uma forma de peso, elas residem no que os pesquisadores chamam de “espaço latente”, uma forma de dizer que existe como uma espécie de potencial borrado que pode ser percebido nas imagens uma vez decodificadas. . Com Stable Diffusion 1.4, o arquivo de pesos é de aproximadamente 4 GB, mas é conhecimento de centenas de milhões de imagens.
Enquanto a maioria das pessoas usa Stable Diffusion com prompts de texto, Bühlmann cortou o codificador de texto e, em vez disso, forçou suas imagens através do processo de codificação de imagem Stable Diffusion, que pega uma imagem de baixa resolução de 512 × 512 e a converte em uma representação latente de resolução 64 × 64 mais alta do espaço. Neste ponto, a imagem existe com um tamanho de dados muito menor do que a imagem original, mas ainda pode ser expandida (decodificada) para uma imagem de 512×512 com resultados bastante bons.
Durante os testes, Bühlmann descobriu que imagens compactadas com Difusão Estável parecem subjetivamente melhores em taxas de compactação mais altas (tamanho de arquivo menor) do que JPEG ou WebP. Em um exemplo, ele mostra uma imagem de uma loja de doces compactada em 5,68 KB usando JPEG, 5,71 KB usando WebP e 4,98 KB usando difusão estável. A imagem de difusão estável parece ter detalhes mais finos e resultados de compactação menos claros do que aqueles compactados em outros formatos.
O método de Bühlmann atualmente vem com limitações significativas, no entanto: não é bom com rostos ou texto e, em alguns casos, pode realmente alucinar recursos detalhados na imagem decodificada que não estavam presentes na imagem de origem. (Você provavelmente não quer que o compressor de imagem invente detalhes em uma imagem que não existe.) Além disso, a decodificação de arquivos requer 4 GB de pesos de propagação estáveis e tempo de decodificação adicional.
Embora esse uso do Stable Diffusion não seja convencional e seja mais um truque divertido do que uma solução prática, pode indicar um novo uso futuro de modelos de montagem de fotos. Pode ser um símbolo Pullman encontrado no Google Colab, Você encontrará mais detalhes técnicos sobre sua experiência em Postado como IA.
More Stories
Harry Potter: o nível de pomo dos campeões de quadribol foi significativamente reduzido no PS5 e PS4
Vazamentos sobre planos de anúncio do PS5 Pro e design de dispositivos
Lançamento físico da Castlevania Dominus Collection confirmado, pré-encomendas abertas no próximo mês