Vídeos em tempo real podem ser o próximo salto na tecnologia de IA

Ian Sansavera, engenheiro de software de uma startup de Nova York chamada Runway AI, escreveu uma breve descrição do que queria ver em um vídeo. Livros “Rio tranquilo na floresta”.

Menos de dois minutos depois, um serviço de internet de teste produziu um pequeno videoclipe de um rio calmo em uma floresta. A água corrente do rio brilhava ao sol enquanto cortava as árvores e samambaias, virava uma esquina e batia suavemente contra as rochas.

A Runway, que planeja abrir seu serviço para um pequeno grupo de testadores esta semana, é uma das várias empresas que estão desenvolvendo tecnologia de inteligência artificial que em breve permitirá que as pessoas criem vídeos simplesmente digitando várias palavras em uma caixa na tela do computador.

Eles representam o próximo estágio na corrida do setor – uma corrida que inclui gigantes como Microsoft e Google, bem como startups muito menores – para criar novos tipos de sistemas de IA que alguns acreditam que podem ser a próxima grande novidade em tecnologia, tão importante quanto os navegadores da web. ou iPhone.

Novos sistemas de criação de vídeo podem acelerar o trabalho de cineastas e outros artistas digitais, tornando-se uma maneira nova e rápida de criar desinformação on-line difícil de detectar, tornando difícil dizer o que é real on-line.

Os sistemas são exemplos do que é conhecido como inteligência artificial generativa, que pode gerar instantaneamente texto, imagens e sons. Outro exemplo é o ChatGPT, o chatbot online criado pela startup OpenAI de São Francisco, que surpreendeu a indústria de tecnologia com seus recursos no final do ano passado.

Google e Meta, empresa controladora do Facebook, Ela revelou seus primeiros sistemas de geração de vídeo no ano passadomas eles não o compartilharam com o público porque temiam que os sistemas pudessem eventualmente ser usados para espalhar desinformação com sua nova velocidade e eficiência.

Mas o CEO da Runway, Cristobal Valenzuela, disse acreditar que a tecnologia é muito importante para ser mantida em um laboratório de pesquisa, apesar de seus riscos. “Esta é uma das tecnologias mais impressionantes que construímos nos últimos 100 anos”, disse ele. “Você precisa que as pessoas realmente o usem.”

A capacidade de editar e manipular filmes e vídeos não é novidade, é claro. Os cineastas fazem isso há mais de um século. Nos últimos anos, pesquisadores e artistas digitais usaram várias tecnologias e programas de IA para criar e editar vídeos que costumam ser chamados de vídeos falsos.

READ Google atualiza mensagem da guia anônima do Chrome após processo

Mas sistemas como o que a Runway criou poderiam, com o tempo, substituir as habilidades de edição com o apertar de um botão.

A tecnologia Runway produz vídeos de qualquer descrição curta. Para começar, basta escrever uma descrição da mesma forma que faria uma nota rápida.

Isso funciona melhor se a cena contiver alguma ação – mas não muita ação – algo como “Dia chuvoso em uma cidade grande” ou “Um cachorro com um telefone celular no parque”. Pressione Enter e o sistema criará um vídeo em um ou dois minutos.

Essa tecnologia pode reproduzir imagens comuns, como um gato dormindo em um tapete. Ou ele pode combinar conceitos díspares para criar vídeos estranhamente divertidos, como uma vaca em uma festa de aniversário.

Os vídeos têm apenas quatro segundos de duração e o vídeo é instável e embaçado se você olhar de perto. Às vezes, as imagens são estranhas, distorcidas e perturbadoras. O sistema tem uma maneira de fundir animais como cães e gatos com objetos inanimados como bolas e telefones celulares. Mas, dada a direção certa, ele está produzindo vídeos mostrando para onde a tecnologia está indo.

READ Maquetes do iPhone 15 mostram o novo design e opções de cores

“Neste ponto, se eu vir um vídeo HD, provavelmente vou confiar nele. Mas isso vai mudar muito rapidamente”, disse Philip Isola, professor do MIT especializado em inteligência artificial.

Como outras tecnologias generativas de IA, o sistema da Runway aprende analisando dados numéricos – neste caso, fotos, vídeos e anotações que descrevem o que essas imagens contêm. Ao treinar esse tipo de tecnologia em quantidades cada vez maiores de dados, os pesquisadores estão confiantes de que podem melhorar e expandir rapidamente suas habilidades. Muito em breve, acreditam os especialistas, eles criarão minifilmes com aparência profissional, completos com música e diálogos.

É difícil dizer o que o sistema está criando atualmente. Não é uma foto. Não é um desenho animado. É uma coleção de muitos pixels misturados para criar um vídeo realista. A empresa pretende introduzir sua tecnologia com outras ferramentas que acredita agilizar o trabalho de artistas profissionais.

No mês passado, a mídia social esteve repleta de fotos do Papa Francisco em um casaco branco Balenciaga – uma roupa surpreendentemente moderna para o papa de 86 anos. Mas as fotos não eram reais. Um trabalhador da construção civil de 31 anos de Chicago causou um grande rebuliço Usando uma ferramenta de IA popular chamada Midjourney.

O Dr. Isola passou anos construindo e testando esse tipo de tecnologia, primeiro como pesquisador na Universidade da Califórnia, em Berkeley, e na OpenAI, e depois como professor no MIT. Fotos totalmente falsas do Papa Francisco.

“Houve um tempo em que as pessoas postavam deep fakes e não me enganavam, porque era muito estranho ou muito irreal”, disse ele. “Agora, não podemos pegar nenhuma das imagens que vemos online pelo valor de face.”

Midjourney é um dos muitos serviços que podem criar imagens estáticas realistas a partir de um curto prompt. Outras aplicações incluem Stable Diffusion e DALL-E, a tecnologia OpenAI que iniciou essa onda de geradores de imagem quando foi lançada há um ano.

Midjourney depende de uma rede neural que aprende suas habilidades analisando grandes quantidades de dados. Ele procura padrões enquanto vasculha milhões de imagens digitais, bem como legendas de texto que descrevem as imagens que estão sendo fotografadas.

READ A barra de endereços do Chrome se parece com a pesquisa do Pixel Launcher com um novo design

Quando alguém descreve uma imagem de um sistema, está criando uma lista de recursos que a imagem pode ter. Uma característica pode ser a curva no topo da orelha de um cachorro. Outra pode ser a borda do celular. Em seguida, uma segunda rede neural, chamada de modelo de difusão, gera a imagem e gera os pixels necessários para os atributos. Finalmente, ele converte os pixels em uma imagem coerente.

Empresas como a Runway, que tem cerca de 40 funcionários e arrecadou US$ 95,5 milhões, estão usando essa tecnologia para criar imagens em movimento. Ao analisar milhares de videoclipes, sua tecnologia pode aprender a unir muitas imagens estáticas de maneira coerente semelhante.

“O vídeo é apenas uma série de quadros – imagens estáticas – que são combinadas de forma a dar a ilusão de movimento”, disse Valenzuela. “O truque é treinar um modelo que entenda o relacionamento e a consistência entre cada framework”.

Como as primeiras versões de instrumentos como DALL-E e Midjourney, a técnica às vezes combina conceitos e imagens de maneiras estranhas. Se você encomendar um urso que joga basquete, ele pode dar uma espécie de bichinho de pelúcia transformador com basquete conduzido. Se você perguntar a um cachorro com um telefone celular no parque, ele pode lhe dar um cachorrinho carregando um telefone celular com um corpo humano alienígena.

Mas os especialistas acreditam que podem corrigir as falhas à medida que treinam seus sistemas com mais e mais dados. Eles acreditam que a tecnologia acabará tornando a criação de um vídeo tão fácil quanto escrever uma frase.

“Antigamente, para fazer algo assim remotamente, você tinha que ter uma câmera. Você tinha que ter adereços. Você tinha que ter um local. Você tinha que ter permissão”, disse Susan Bonser, autora e editora em Penn. State, que foi as primeiras encarnações da tecnologia de vídeo generativo exclamam: “Você deveria ter o dinheiro.” “Você não precisa ter nada disso agora. Você pode simplesmente sentar e imaginar.”

Ruben Abreu

“Empreendedor autônomo. Comunicador. Jogador. Explorador. Praticante de cultura pop.”

Uma nova geração de chatbots

Harry Potter: o nível de pomo dos campeões de quadribol foi significativamente reduzido no PS5 e PS4

Vazamentos sobre planos de anúncio do PS5 Pro e design de dispositivos

Lançamento físico da Castlevania Dominus Collection confirmado, pré-encomendas abertas no próximo mês

Um terremoto de magnitude 5,3 atingiu a costa de Portugal

O chefe da Agência Internacional de Energia Atômica rejeita os apelos de objetividade de Moscou após visitar a estação de Kursk

Air Canada lança novas rotas de Montreal para Itália e Portugal – AviationLine

O JPMorgan espera que o Fed reduza sua taxa básica de juros em 100 pontos base este ano