Table of Contents
Modelos de mundo, também conhecidos como simuladores de mundo, estão sendo considerados por alguns como a próxima grande novidade em IA.
O World Labs, do pioneiro em IA Fei-Fei Li, levantou $230 milhões para construir “grandes modelos de mundo”, e a DeepMind contratou um dos criadores do gerador de vídeo da OpenAI, Sora, para trabalhar em “simuladores de mundo”.
Mas o que exatamente são essas coisas?
Modelos de mundo se inspiram nos modelos mentais do mundo que os humanos desenvolvem naturalmente. Nossos cérebros pegam as representações abstratas de nossos sentidos e as transformam em uma compreensão mais concreta do mundo ao nosso redor, produzindo o que chamamos de “modelos” muito antes que a IA adotasse a frase. As previsões que nossos cérebros fazem com base nesses modelos influenciam como percebemos o mundo.
Um artigo dos pesquisadores de IA David Ha e Jürgen Schmidhuber dá o exemplo de um jogador de beisebol. Os jogadores têm milissegundos para decidir como balançar seu bastão — um tempo menor do que o necessário para que os sinais visuais cheguem ao cérebro. A razão pela qual conseguem acertar uma bola rápida a 100 milhas por hora é porque podem prever instintivamente para onde a bola irá, dizem Ha e Schmidhuber.
“Para jogadores profissionais, tudo isso acontece subconscientemente”, escrevem os pesquisadores. “Os músculos deles balançam o bastão reflexivamente no momento e no local certos, de acordo com as previsões de seus modelos internos. Eles podem agir rapidamente com base em suas previsões do futuro, sem precisar pensar conscientemente sobre possíveis cenários futuros para formar um plano.”
São esses aspectos de raciocínio subconsciente dos modelos de mundo que alguns acreditam serem pré-requisitos para uma inteligência em nível humano.
Modelando o mundo
Embora o conceito exista há décadas, os modelos de mundo ganharam popularidade recentemente, em parte devido a suas aplicações promissoras no campo do vídeo generativo.
A maioria, se não todos, os vídeos gerados por IA tendem a cair na área do vale inquietante. Assista-os por tempo suficiente e algo bizarro acontecerá, como membros se entrelaçando e se fundindo.
Embora um modelo generativo treinado em anos de vídeo possa prever com precisão que uma bola de basquete quica, ele não tem ideia do porquê — assim como os modelos de linguagem não entendem realmente os conceitos por trás de palavras e frases. Mas um modelo de mundo que tenha até mesmo uma compreensão básica de por que a bola de basquete quica como faz será melhor em mostrar isso.
Para possibilitar esse tipo de insight, os modelos de mundo são treinados em uma variedade de dados, incluindo fotos, áudio, vídeos e texto, com a intenção de criar representações internas de como o mundo funciona e a capacidade de raciocinar sobre as consequências das ações.
“Um espectador espera que o mundo que está assistindo se comporte de maneira semelhante à sua realidade”, disse Mashrabov. “Se uma pena cai com o peso de um bigorna ou uma bola de boliche dispara centenas de pés para cima, é chocante e tira o espectador do momento. Com um forte modelo de mundo, em vez de um criador definir como cada objeto deve se mover — o que é tedioso, complicado e um mau uso do tempo — o modelo entenderá isso.”
Mas uma melhor geração de vídeo é apenas a ponta do iceberg para os modelos de mundo. Pesquisadores, incluindo o cientista-chefe de IA da Meta, Yann LeCun, dizem que os modelos poderiam um dia ser usados para previsões e planejamentos sofisticados tanto no mundo digital quanto no físico.
Em uma palestra no início deste ano, LeCun descreveu como um modelo de mundo poderia ajudar a atingir um objetivo desejado por meio do raciocínio. Um modelo com uma representação básica de um “mundo” (por exemplo, um vídeo de um quarto sujo), dado um objetivo (um quarto limpo), poderia elaborar uma sequência de ações para alcançar esse objetivo (usar aspiradores para varrer, lavar a louça, esvaziar o lixo) não porque esse é um padrão que observou, mas porque sabe, em um nível mais profundo, como passar de sujo para limpo.
“Precisamos de máquinas que entendam o mundo; [máquinas] que podem lembrar de coisas, que têm intuição, têm bom senso — coisas que podem raciocinar e planejar no mesmo nível que os humanos”, disse LeCun. “Apesar do que você pode ter ouvido de algumas das pessoas mais entusiásticas, os sistemas de IA atuais não são capazes de nada disso.”
Embora LeCun estime que estamos pelo menos uma década longe dos modelos de mundo que ele imagina, os modelos de mundo de hoje estão mostrando promessa como simuladores elementares de física.
A OpenAI observa em um blog que Sora, que considera ser um modelo de mundo, pode simular ações como um pintor deixando pinceladas em uma tela. Modelos como Sora — e Sora ele mesmo — também podem efetivamente simular vídeos de jogos. Por exemplo, Sora pode renderizar uma interface de usuário e um mundo de jogo semelhantes ao Minecraft.
Modelos de mundo futuros podem ser capazes de gerar mundos 3D sob demanda para jogos, fotografia virtual e mais, disse o co-fundador do World Labs, Justin Johnson, em um episódio do podcast a16z.
“Já temos a capacidade de criar mundos interativos virtuais, mas isso custa centenas de milhões de dólares e muito tempo de desenvolvimento”, disse Johnson. “[Modelos de mundo] permitirão que você não apenas obtenha uma imagem ou um clipe, mas um mundo 3D totalmente simulado, vibrante e interativo.”
Altos obstáculos
Embora o conceito seja atraente, muitos desafios técnicos se colocam à frente.
Treinar e executar modelos de mundo requer um poder computacional massivo, mesmo em comparação com a quantidade atualmente usada pelos modelos generativos. Embora alguns dos modelos de linguagem mais recentes possam rodar em um smartphone moderno, Sora (considerado um modelo de mundo inicial) exigiria milhares de GPUs para treinar e executar, especialmente se seu uso se tornar comum.
Os modelos de mundo, como todos os modelos de IA, também alucinam — e internalizam preconceitos em seus dados de treinamento. Um modelo de mundo treinado principalmente com vídeos de clima ensolarado em cidades europeias pode ter dificuldade para entender ou retratar cidades coreanas em condições de neve, por exemplo, ou simplesmente fazer isso incorretamente.
Uma falta geral de dados de treinamento ameaça exacerbar esses problemas, diz Mashrabov.
“Observamos que os modelos são realmente limitados com gerações de pessoas de um certo tipo ou raça”, disse ele. “Os dados de treinamento para um modelo de mundo devem ser amplos o suficiente para cobrir um conjunto diversificado de cenários, mas também altamente específicos para que a IA possa entender profundamente as nuances desses cenários.”
Em um post recente, o CEO da startup de IA Runway, Cristóbal Valenzuela, diz que questões de dados e engenharia impedem que os modelos de hoje capturem com precisão o comportamento dos habitantes de um mundo (por exemplo, humanos e animais). “Os modelos precisarão gerar mapas consistentes do ambiente”, disse ele, “e a capacidade de navegar e interagir nesses ambientes.”
Se todos os principais obstáculos forem superados, entretanto, Mashrabov acredita que os modelos de mundo poderiam “ligar de forma mais robusta” a IA ao mundo real — levando a avanços não apenas na geração de mundos virtuais, mas em robótica e na tomada de decisões em IA.
Eles também poderiam gerar robôs mais capazes.
Os robôs de hoje são limitados no que podem fazer porque não têm consciência do mundo ao seu redor (ou de seus próprios corpos). Modelos de mundo poderiam dar a eles essa consciência, disse Mashrabov — pelo menos até certo ponto.
“Com um modelo de mundo avançado, uma IA poderia desenvolver uma compreensão pessoal de qualquer cenário em que fosse colocada”, disse ele, “e começar a raciocinar possíveis soluções.”
Quais os desafios técnicos para treinar um modelo de mundo?
Treinar um modelo de mundo envolve vários desafios técnicos significativos, que podem ser resumidos da seguinte maneira:
Poder Computacional Massivo
Treinar e executar modelos de mundo requer um poder computacional extremamente alto, mesmo em comparação com os modelos generativos atuais. Por exemplo, o modelo Sora, considerado um modelo de mundo inicial, exigiria milhares de GPUs para treinar e executar, especialmente se seu uso se tornar comum.
Alucinações e Preconceitos
Modelos de mundo, como todos os modelos de IA, podem alucinar e internalizar preconceitos presentes nos dados de treinamento. Isso significa que um modelo treinado com um conjunto limitado de dados pode ter dificuldade em entender ou retratar cenários diferentes daqueles nos quais foi treinado, ou fazer isso de maneira incorreta. Por exemplo, um modelo treinado principalmente com vídeos de clima ensolarado em cidades europeias pode ter dificuldade em entender ou retratar cidades coreanas em condições de neve.
Dados de Treinamento Diversificados e Específicos
Há uma falta geral de dados de treinamento que cubram um conjunto diversificado de cenários. Os dados de treinamento para um modelo de mundo devem ser amplos o suficiente para cobrir vários cenários, mas também altamente específicos para que a IA possa entender profundamente as nuances desses cenários. Isso inclui a necessidade de gerar mapas consistentes do ambiente e a capacidade de navegar e interagir nesses ambientes.
Engenharia e Comportamento dos Habitantes do Mundo
Os modelos atuais enfrentam desafios em capturar com precisão o comportamento dos habitantes de um mundo, como humanos e animais. Isso requer a capacidade de gerar mapas consistentes do ambiente e de navegar e interagir nesses ambientes de maneira realista.
Conclusão
Em resumo, os desafios técnicos para treinar um modelo de mundo incluem a necessidade de poder computacional massivo, a mitigação de alucinações e preconceitos, a disponibilidade de dados de treinamento diversificados e específicos, e a capacidade de capturar o comportamento dos habitantes do mundo de forma realista. À medida que a tecnologia avança, a superação desses desafios se torna essencial para a evolução dos simuladores e da inteligência artificial, permitindo a geração de mundos virtuais mais complexos e interativos.
Fontes de Pesquisa:
#modelo, #inteligencia, #simuladores, #previsão, #dados, #robôs, #cryptoalch