Table of Contents
Modelos de Vídeo Gerados por Inteligência Artificial: Uma Perspectiva sobre o Movie Gen da Meta
No campo da tecnologia atual, os modelos de vídeo generativos estão se destacando, embora ainda não tenhamos clareza sobre suas aplicações mais eficazes. Empresas como Runway, OpenAI e Meta têm investido milhões no desenvolvimento desses modelos. O mais recente da Meta, chamado Movie Gen, traduz sugestões de texto em vídeos relativamente realistas com som, embora ainda seja uma bênção que não contenha voz.
Definição e Funcionamento do Movie Gen
O Movie Gen não é apenas um único modelo, mas uma coleção de modelos fundamentais, sendo o text-to-video o mais proeminente. A Meta afirma que essa ferramenta superou sistemas como o Gen3 da Runway e o mais recente da LumaLabs, embora essas comparações sejam muitas vezes mais retóricas do que indicativas de uma verdadeira vantagem técnica. Para maiores detalhes sobre a implementação técnica, consulte o artigo de pesquisa publicado pela Meta.
“O Movie Gen é puramente um conceito de pesquisa em IA neste momento, e mesmo em seu estágio inicial, a segurança é uma prioridade máxima.” – Representante da Meta.
Geração de Áudio e Contexto
O Movie Gen não se limita apenas à geração de vídeo; o áudio criado corresponde ao conteúdo visual. Exemplos incluem ruídos de motores que acompanham movimentos de carros, o som de uma cachoeira ao fundo, ou até mesmo o trovão, quando contextualizado. Em alguns casos, a ferramenta também adiciona música, caso seja pertinente à cena.
Educação no Uso do Movie Gen
Um ponto que tem sido desafiador para os geradores de vídeo é a edição. Ao solicitar um vídeo de alguém atravessando a rua e depois decidir que quer que a pessoa ande de direita para esquerda em vez de esquerda para direita, há uma chance considerável de que toda a cena mude. A Meta introduz um método de edição simples baseado em texto, onde o usuário pode solicitar mudanças específicas, como “mudar o fundo para uma interseção movimentada” ou “trocar a roupa dela por um vestido vermelho”, e essa alteração será feita sem influenciar outros elementos.
Movimentos de Câmera e Limitacoes
Os movimentos de câmera também são considerados na geração do vídeo, incluindo técnicas como “plano de rastreamento” e “pan para a esquerda”. Apesar de isso ainda ser relativamente rudimentar em comparação com o controle real de câmeras, representa um avanço em relação ao que existia anteriormente.
- Resolução e Qualidade: O Movie Gen gera vídeos com 768 pixels de largura e os upscale para 1080p, o que é uma afirmação ambígua, mas importante.
- Duração e Taxa de Frames: O sistema produz vídeos de até 16 segundos a 16 quadros por segundo, uma taxa que não é comum, mas também pode gerar 10 segundos a 24 FPS.
Razões para a Ausência de Geração de Voz
A necessidade de não incluir vozes é, possivelmente, uma medida cautelar. A criação de fala que corresponda a movimentos labiais e faciais é uma tarefa complexa e um possível ponto de falha em um sistema ainda em desenvolvimento. Além disso, a liberação de um gerador de deepfake próximo a eleições poderia gerar repercussões indesejadas.
Conclusão
Em resumo, o Movie Gen da Meta representa um passo significativo na pesquisa de IA generativa. Embora ainda não esteja disponível ao público, as técnicas descritas em sua pesquisa podem ser replicadas, o que pode impulsionar avidamente a exploração de usos futuros desta tecnologia fascinante e potencialmente disruptiva.
#InteligenciaArtificial #MovieGen #Tecnologia #VideoGerativo #Meta #Inovação #Ciência #FuturoDoCinema
autor ref: Devin Coldewey
ref:https://techcrunch.com/2024/10/04/metas-movie-gen-model-puts-out-realistic-video-with-sound-so-we-can-finally-have-infinite-moo-deng/