Table of Contents
Introdução
É possível que uma inteligência artificial (IA) seja treinada apenas com dados gerados por outra IA? Embora essa pergunta possa parecer descabida à primeira vista, ela emergiu como uma questão relevante e é cada vez mais discutida à medida que os dados reais se tornam mais escassos. Empresas como a Anthropic e a Meta já utilizam dados sintéticos em seus modelos, levantando o debate sobre a necessidade e a eficácia dos dados gerados artificialmente.
A Importância das Anotações
Os sistemas de IA funcionam como máquinas estatísticas, aprendendo a partir de exemplos para realizar previsões. As anotações, que são as rotulações textuais que definem o significado ou as partes dos dados processados, são fundamentais nesse aprendizado. Elas orientam o modelo a diferenciar coisas, lugares e ideias.
Por exemplo, em um modelo de classificação de fotos que recebe muitas imagens de cozinhas rotuladas com a palavra “cozinha”, o modelo começará a associar características gerais, como a presença de geladeiras e balcões. Caso as imagens fossem rotuladas incorretamente, como “vaca”, o modelo também assimilaria o erro, destacando a importância das anotações corretas.
A demanda por serviços de anotação de dados tem crescido significativamente, o que levou a Dimension Market Research a estimar que esse mercado vale atualmente 838,2 milhões de dólares e que poderá atingir 10,34 bilhões de dólares na próxima década.
- A criação de rótulos é feita por trabalhadores de empresas de anotação de dados.
- Profissionais oferecem salários variados, com algumas posições exigindo conhecimento especializado.
- Em países em desenvolvimento, os anotadores são frequentemente mal remunerados.
Um Poço de Dados Secando
Existem razões humanísticas e práticas para a necessidade de alternativas aos rótulos gerados por humanos. Por exemplo:
- A velocidade de rotulagem por humanos é limitada.
- Anotadores podem apresentar viés, que se reflete nas anotações.
- Os custos de contratação de humanos permanecem altos.
Além disso, os dados, em geral, se tornaram caros. Empresas como a Shutterstock estão cobrando milhões de dólares para acessar seus arquivos, enquanto plataformas como Reddit têm gerado grandes quantias com a licitação de seus dados.
A situação está se tornando ainda mais crítica, pois muitos proprietários de dados estão restringindo o acesso às suas informações em um esforço para proteger seus ativos de problemas relacionados à plagiarismo e falta de atribuição. Como resultado, a Epoch AI prevê que os desenvolvedores poderão esgotar seus dados para treinar modelos generativos de IA entre 2026 e 2032.
Alternativas Sintéticas
A princípio, os dados sintéticos parecem ser a solução ideal para esses desafios. Se forem necessárias anotações, elas podem ser geradas artificialmente; mais dados de exemplo podem ser criados a partir de uma pequena amostra inicial.
O setor de IA já abraçou essa ideia com vigor. Por exemplo, o modelo Palmyra X 004 da Writer foi treinado quase completamente com dados sintéticos, custando apenas 700 mil dólares, em contraste com os 4,6 milhões de dólares estimados para um modelo comparável da OpenAI.
- Modelos abertos como o Phi da Microsoft foram parcialmente treinados com dados sintéticos.
- A Meta usou o Llama 3 para gerar legendas para vídeos como parte da sua estratégia de treinamento.
- O mercado de geração de dados sintéticos é esperado para valer 2,34 bilhões de dólares até 2030.
Riscos Sintéticos
Contudo, os dados sintéticos não são uma solução mágica. Eles também enfrentam o problema conhecido como “garbage in, garbage out”. Se os dados utilizados para treinar os modelos que geram dados sintéticos contêm viés, suas saídas também serão afetadas. Um estudo realizado em 2023 pelos pesquisadores da Rice University e Stanford descobriu que a confiança excessiva em dados sintéticos pode levar a modelos cuja “qualidade ou diversidade progressivamente diminui”.
A complexidade dos modelos pode aumentar o risco de alucinações em dados sintéticos, comprometendo a precisão dos modelos. Soldaini, do Allen Institute for AI, destaca que os dados sintéticos devem ser revisados, filtrados e, idealmente, combinados com dados reais para garantir a qualidade do treinamento.
Se não cuidarmos dessa questão, poderemos enfrentar o que é conhecido como colapso do modelo, onde um modelo se torna menos “criativo” e mais tendencioso em suas saídas. Portanto, mesmo que a IA possa eventualmente produzir dados sintéticos suficientemente bons para treinar-se sozinha, essa tecnologia ainda não existe.
Conclusão
Por ora, parece claro que precisamos de humanos em algum ponto do processo de treinamento da IA para evitar que as deficiências se proliferem. A integração de dados sintéticos, quando utilizada com cautela e supervisão, pode proporcionar novas oportunidades, mas nunca deve substituir completamente a interação humana essencial no desenvolvimento de modelos de IA eficazes e éticos.
#InteligenciaArtificial, #DadosSintéticos, #Tecnologia, #IA, #AnotaçãoDeDados, #ModelosDeIA, #Inovação
autor ref: Kyle Wiggers
ref:https://techcrunch.com/2024/10/13/the-promise-and-perils-of-synthetic-data/