Stability anuncia Stable Diffusion 3, um construtor de imagens de IA de próxima geração

Mais Zoom / Difusão Estável 3ª Geração com Vetor: Retrato de estúdio close-up de um camaleão sobre fundo preto.

Stability AI anunciou na quinta-feira Stable Diffusion 3, um modelo de síntese de imagem de próxima geração com pesos abertos. Ele segue seus antecessores criando imagens detalhadas de vários assuntos com qualidade e precisão aprimoradas na criação de texto. O breve anúncio não foi acompanhado de uma manifestação pública, mas a estabilidade foi Abrir lista de espera Hoje é para quem quiser experimentar.

Stable diz que sua família de modelos Stable Diffusion 3 (que pega descrições de texto chamadas “prompts” e as transforma em imagens correspondentes) varia em tamanho de 800 milhões a 8 bilhões de parâmetros. A escala permite que diferentes versões do modelo sejam executadas localmente em uma variedade de dispositivos – de smartphones a servidores. O tamanho do parâmetro corresponde aproximadamente à capacidade do modelo em termos da quantidade de detalhes que ele pode gerar. Modelos maiores também requerem mais VRAM nos aceleradores de GPU para funcionar.

Desde 2022, vimos Stable lançar sua evolução de modelos de geração de imagens de IA: Stable Diffusion 1.4, 1.5, 2,0, 2.1, XL, XL Turbo e agora 3. A estabilidade se tornou conhecida por fornecer uma alternativa mais aberta aos modelos proprietários de síntese de imagem, como o DALL-E 3 da OpenAI, embora não seja isento de controvérsia devido ao uso de treinamento protegido por direitos autorais. dados. Preconceito e potencial para abuso. (Isto levou a processos judiciais não resolvidos.) Os modelos de difusão em estado estacionário eram ponderados e de código aberto, o que significa que os modelos podiam ser executados localmente e ajustados para alterar os seus resultados.

Geração de Difusão Estável 3 com Reivindicação: Arte épica de um mago no topo de uma montanha à noite lançando um feitiço cósmico no céu escuro dizendo “Difusão Estável 3” feito de energia colorida.
Imagem gerada por IA de uma avó vestindo um moletom “Vá grande ou vá para casa” criado por Stable Diffusion 3.
Difusão estável de terceira geração com aviso: Três garrafas de vidro transparente sobre uma mesa de madeira. O da esquerda tem um líquido vermelho e o número 1. O do meio tem um líquido azul e o número 2. O da direita tem um líquido verde e o número 3.
Imagem gerada por IA com Stable Diffusion 3.
Difusão Estável de terceira geração com prompt: Um cavalo se equilibra em cima de uma bola colorida em um campo com grama verde e uma montanha ao fundo.
Propagação de natureza morta de terceira geração com aviso: natureza morta temperamental de abóboras variadas.
Difusão Estável de 3ª geração com aviso: Uma pintura de um astronauta montando um porco usando um tutu segurando um guarda-chuva rosa, no chão ao lado do porco está um tordo usando uma cartola e no canto estão as palavras “Difusão Estável”.
Difusão Estável de 3ª Geração com a Reivindicação: Sobre a mesa da cozinha está um pano bordado que diz “Boa Noite” e um bebê tigre bordado. Ao lado do pano há uma vela acesa. A iluminação é fraca e dramática.
Difusão Estável de 3ª Geração com prompt: Imagem de um computador desktop dos anos 90 em uma mesa de trabalho, com “Olá” escrito na tela do computador. Na parede ao fundo vemos lindos grafites com o texto “SD3” bem grande na parede.

Em relação às melhorias técnicas, o CEO da Stability, Imad Mushtaq, disse livros No

Como disse Mostaque, a família Stable usa Diffusion 3 Estrutura dos transformadores de difusãoum novo método de criação de imagens usando inteligência artificial que substitui os habituais blocos de construção de imagens (por exemplo, Arquitetura UNET) para um sistema que funciona em pequenos pedaços da imagem. Este método é inspirado em transformadores, que são bons para lidar com padrões e sequências. Essa abordagem não apenas aumenta a eficiência, mas também produz imagens de maior qualidade.

Difusão Estável 3 também é usada”Correspondência de fluxo“, uma técnica para criar modelos de inteligência artificial que podem criar imagens aprendendo como passar de um ruído aleatório para uma imagem suavemente estruturada. Ele faz isso sem ter que simular cada etapa do processo e, em vez disso, concentra-se na direção ou fluxo geral que deve a criação da imagem segue.

Comparando a saída entre DALL-E 3 e Stable Diffusion 3 da OpenAI com o roteador, "Imagem noturna de carro esportivo com texto "SD3" Ao lado, o carro circula em uma pista de corrida em alta velocidade, com uma enorme placa de trânsito escrita nele — Mais Zoom / Comparação da produção entre o DALL-E 3 da OpenAI e o Stable Diffusion 3 com a afirmação “Imagem noturna de um carro esportivo com o texto 'SD3' na lateral, carro em uma pista de corrida em alta velocidade, enorme placa de trânsito com o texto 'Mais rápido '.”

Não temos acesso ao Stable Diffusion 3 (SD3), mas pelas amostras que encontramos postadas no site Stable e nas contas de mídia social associadas, as Gerações parecem aproximadamente comparáveis a outros modelos modernos de fotomontagem no momento. Incluindo o já mencionado DALL-E 3, Adobe Firefly, Imagine com Meta AI, Midjourney e Google Imagen.

O SD3 parece lidar muito bem com a geração de texto em exemplos fornecidos por outros, que provavelmente foram escolhidos a dedo. A geração de texto tem sido um ponto fraco específico nas montagens de imagens anteriores, portanto, melhorar essa capacidade em formato livre é um grande negócio. Além disso, a precisão da velocidade (quão fielmente segue as descrições nas instruções) parece semelhante ao DALL-E 3, mas ainda não testamos isso.

Embora o Stable Diffusion 3 não esteja amplamente disponível, o Stability afirma que, assim que o teste for concluído, seus pesos poderão ser baixados gratuitamente e executados localmente. “Esta fase de visualização, como acontece com os modelos anteriores, é crítica para reunir ideias para melhorar seu desempenho e segurança antes do lançamento aberto”, escreveu Stability.

A estabilidade foi experimentada recentemente com uma variedade de arquiteturas de montagem de imagens. Além do SDXL e SDXL Turbo, a empresa anunciou na semana passada Cascata estávelque usa um processo de três estágios para sobrepor texto a uma imagem.

Listando imagem por Imad Mushtaq (IA para Estabilidade)

Harry Potter: o nível de pomo dos campeões de quadribol foi significativamente reduzido no PS5 e PS4

Vazamentos sobre planos de anúncio do PS5 Pro e design de dispositivos

Lançamento físico da Castlevania Dominus Collection confirmado, pré-encomendas abertas no próximo mês

Um terremoto de magnitude 5,3 atingiu a costa de Portugal

O chefe da Agência Internacional de Energia Atômica rejeita os apelos de objetividade de Moscou após visitar a estação de Kursk

Air Canada lança novas rotas de Montreal para Itália e Portugal – AviationLine

O JPMorgan espera que o Fed reduza sua taxa básica de juros em 100 pontos base este ano

Deixe um comentário Cancelar resposta

More Stories