Os geradores de vídeo de IA sonham com San Pedro? Madonna entre os primeiros a adotar a próxima onda de IA

Sempre que Madonna canta o hit dos anos 1980, “La Isla Bonita”, em sua turnê, imagens em movimento de nuvens rodopiantes com a cor do pôr do sol aparecem nas telas gigantes da arena atrás dela.

Para obter aquela aparência etérea, a lenda pop abraçou um ramo ainda desconhecido da inteligência artificial generativa – a ferramenta de texto para vídeo. Digite algumas palavras – digamos, “pôr do sol surreal na nuvem” ou “cachoeira na selva ao amanhecer” – e um vídeo instantâneo é feito.

Seguindo os passos dos chatbots de IA e dos geradores de imagens estáticas, alguns entusiastas de vídeo de IA dizem que a tecnologia emergente poderá um dia derrubar o entretenimento, permitindo que você escolha seu próprio filme com enredos e finais personalizáveis. Mas há um longo caminho a percorrer antes que possam fazer isso, e muitas armadilhas éticas no caminho.

Para os primeiros adeptos, como Madonna, que há muito ultrapassa os limites da arte, foi mais uma experiência. Ela rejeitou uma versão anterior dos visuais do show “La Isla Bonita” que usava computação gráfica mais convencional para evocar um clima tropical.

“Tentamos CGI. Parecia muito insípido e cafona e ela não gostou”, disse Sasha Kasiuha, diretora de conteúdo da Celebration Tour de Madonna, que continua até o final de abril. “E então decidimos experimentar a IA.”

OpenAI, fabricante do ChatGPT, deu uma ideia de como seria a sofisticada tecnologia de texto para vídeo quando a empresa recentemente exibiu Sora, uma nova ferramenta que ainda não está disponível publicamente. A equipe de Madonna experimentou um produto diferente da startup Runway, com sede em Nova York, que ajudou a ser pioneira na tecnologia ao lançar seu primeiro modelo público de texto para vídeo em março passado. A empresa lançou uma versão mais avançada “Gen-2” em junho.

O CEO da Runway, Cristóbal Valenzuela, disse que embora alguns vejam essas ferramentas como um “dispositivo mágico em que você digita uma palavra e de alguma forma ela evoca exatamente o que você tinha na cabeça”, as abordagens mais eficazes são feitas por profissionais criativos que buscam uma atualização para as décadas de idade. software de edição digital que eles já usam.

Ele disse que a Runway ainda não pode fazer um documentário completo. Mas poderia ajudar a preencher algum vídeo de fundo, ou b-roll – as tomadas e cenas de apoio que ajudam a contar a história.

“Isso talvez economize uma semana de trabalho”, disse Valenzuela. “O traço comum de muitos casos de uso é que as pessoas usam isso como uma forma de aumentar ou acelerar algo que poderiam ter feito antes.”

Os clientes-alvo da Runway são “grandes empresas de streaming, produtoras, empresas de pós-produção, empresas de efeitos visuais, equipes de marketing, empresas de publicidade. Muita gente que ganha a vida fazendo conteúdo”, disse Valenzuela.

Perigos aguardam. Sem salvaguardas eficazes, os geradores de vídeo de IA poderiam ameaçar as democracias com vídeos “deepfake” convincentes de coisas que nunca aconteceram, ou – como já é o caso com os geradores de imagens de IA – inundar a Internet com cenas pornográficas falsas que retratam o que parecem ser pessoas reais com rostos reconhecíveis. Sob pressão dos reguladores, grandes empresas de tecnologia prometeram para marcar resultados gerados por IA para ajudar a identificar o que é real.

Também existem disputas de direitos autorais sobre as coleções de vídeos e imagens nas quais os sistemas de IA estão sendo treinados (nem a Runway nem a OpenAI divulgam suas fontes de dados) e até que ponto estão replicando injustamente obras registradas. E há temores de que, em algum momento, as máquinas de fazer vídeos possam substituir os empregos humanos e a arte.

Por enquanto, os videoclipes mais longos gerados por IA ainda são medidos em segundos e podem apresentar movimentos bruscos e falhas reveladoras, como mãos e dedos distorcidos. Resolver isso é “apenas uma questão de mais dados e mais treinamento”, e do poder computacional do qual esse treinamento depende, disse Alexander Waibel, professor de ciência da computação na Universidade Carnegie Mellon que pesquisa IA desde a década de 1970.

“Agora posso dizer: ‘Faça-me um vídeo de um coelho vestido de Napoleão andando pela cidade de Nova York’”, disse Waibel. “Ele sabe como é a cidade de Nova York, como é um coelho, como é Napoleão.”

O que é impressionante, disse ele, mas ainda está longe de criar um enredo convincente.

Antes de lançar seu modelo de primeira geração no ano passado, a reivindicação da Runway à fama em IA era como co-desenvolvedora do gerador de imagens Stable Diffusion. Outra empresa, a Stability AI, com sede em Londres, assumiu desde então o desenvolvimento do Stable Diffusion.

A tecnologia subjacente de “modelo de difusão” por trás da maioria dos principais geradores de imagens e vídeos de IA funciona mapeando ruído, ou dados aleatórios, em imagens, destruindo efetivamente uma imagem original e, em seguida, prevendo como deveria ser a nova. Ele toma emprestada uma ideia da física que pode ser usada para descrever, por exemplo, como o gás se difunde para fora.

“O que os modelos de difusão fazem é reverter esse processo”, disse Phillip Isola, professor associado de ciência da computação no Instituto de Tecnologia de Massachusetts. “Eles meio que pegam a aleatoriedade e a congelam de volta no volume. Essa é a maneira de passar da aleatoriedade ao conteúdo. E é assim que você pode fazer vídeos aleatórios.”

Gerar vídeo é mais complicado do que imagens estáticas porque precisa levar em conta a dinâmica temporal, ou como os elementos do vídeo mudam ao longo do tempo e através de sequências de quadros, disse Daniela Rus, outra professora do MIT que dirige seu Laboratório de Ciência da Computação e Inteligência Artificial.

Rus disse que os recursos computacionais necessários são “significativamente maiores do que para a geração de imagens estáticas” porque “envolve processamento e geração de vários quadros para cada segundo de vídeo”.

Isso não impede que algumas empresas de tecnologia abastadas tentem se superar na exibição de geração de vídeo de IA de alta qualidade em durações mais longas. Exigir descrições escritas para criar uma imagem foi apenas o começo. O Google demonstrou recentemente um novo projeto chamado Genie que pode transformar uma fotografia ou até mesmo um esboço em “uma variedade infinita” de mundos de videogame exploráveis.

No curto prazo, os vídeos gerados por IA provavelmente aparecerão em conteúdo educacional e de marketing, fornecendo uma alternativa mais barata à produção de filmagens originais ou à obtenção de vídeos de banco de imagens, disse Aditi Singh, pesquisadora da Universidade Estadual de Cleveland que pesquisou a conversão de texto em texto. mercado de vídeo.

Quando Madonna conversou pela primeira vez com sua equipe sobre IA, a “intenção principal não era: ‘Oh, olhe, é um vídeo de IA’”, disse Kasiuha, o diretor criativo.

“Ela me perguntou: ‘Você pode simplesmente usar uma dessas ferramentas de IA para tornar a imagem mais nítida, para garantir que pareça atual e de alta resolução?’” Disse Kasiuha. “Ela adora quando você traz novas tecnologias e novos tipos de elementos visuais.”

Filmes mais longos gerados por IA já estão sendo feitos. A Runway hospeda um festival anual de filmes de IA para apresentar esses trabalhos. Mas ainda não se sabe se é isso que o público humano escolherá assistir.

“Ainda acredito nos humanos”, disse Waibel, professor da CMU. “Ainda acredito que acabará sendo uma simbiose em que você tem alguma IA propondo algo e um humano o melhora ou orienta. A IA vai consertar isso.”

O jornalista da Associated Press Joseph B. Frederick contribuiu para este relatório.

Além disso, leia outras notícias importantes de hoje:

A Nothing liderada por Carl Pei está pronta para lançar seu smartphone de gama média, o Nothing Phone 2a, na Índia em 5 de março! Alguns detalhes interessantes neste artigo. Confira aqui

Moto provoca seu design e recursos de IA e diz que o lançamento do Motorola X50 Ultra acontecerá em breve. É apontado como rival do Samsung Galaxy S24. Alguns detalhes interessantes neste artigo. Confira aqui.

EUA vs China! Os EUA estão a reavaliar as políticas de proteção de dados face às preocupações com a tecnologia chinesa, com foco nos riscos da IA. As ações recentes do Presidente Biden visam limitar o fluxo de dados sensíveis no exterior para evitar espionagem e chantagem. Li tudo sobre isso aqui.

Mais uma coisa! Agora estamos nos canais do WhatsApp! Siga-nos lá para nunca perder nenhuma atualização do mundo da tecnologia. ?Para acompanhar o canal HT Tech no WhatsApp, clique aqui para aderir agora!

Patrocinado por Google

Deixe uma resposta

Área Militar
Área Militarhttp://areamilitarof.com
Análises, documentários e geopolíticas destinados à educação e proliferação de informações de alta qualidade.
ARTIGOS RELACIONADOS

Descubra mais sobre Área Militar

Assine agora mesmo para continuar lendo e ter acesso ao arquivo completo.

Continue reading