spot_img
10.9 C
São Paulo
spot_img
HomeTop Global NewsAIAdvex AI: Revolucionando o Treinamento de IA com Dados Sintéticos

Advex AI: Revolucionando o Treinamento de IA com Dados Sintéticos

Dados são praticamente tudo quando se trata de treinar sistemas de IA, mas acessar dados suficientes para produzir produtos de qualidade que correspondam à sua promessa é um grande desafio, mesmo para empresas com os bolsos mais fundos.

Esse é um problema que a Advex AI está se propondo a resolver, utilizando IA generativa e dados sintéticos para “resolver o problema dos dados”. Mais especificamente, a Advex permite que os clientes treinem seus sistemas de visão computacional usando uma pequena amostra de imagens, com a Advex gerando milhares de imagens “falsas” a partir dessa amostra.

Hoje marca o lançamento formal da Advex na TechCrunch Disrupt 2024 no palco Startup Battlefield, embora já tenha garantido alguns clientes durante sua fase de sigilo. Isso inclui o que a empresa descreve como “sete grandes” clientes corporativos, que ela afirma não poder divulgar. Também podemos revelar que a startup baseada em San Francisco levantou $3,6 milhões em financiamento, a maior parte, $3,1 milhões, veio de uma rodada de sementes em dezembro passado, com investidores notáveis incluindo Construct Capital, Pear VC, e Emerson Collective.

A Advex conta com uma equipe de seis pessoas. O fato de que uma startup tão enxuta já tenha conseguido entrar na indústria com clientes pagantes reais é notável, com seu CEO atribuindo pelo menos parte disso ao seu histórico e um bom networking. Anteriormente, Pachuca foi pesquisador em aprendizado de máquina em Berkeley, e depois se juntou à equipe de pesquisa do Google Brain antes de se fundir ao DeepMind.

“Se o ROI [retorno sobre investimento] faz sentido, eles [os clientes] vão confiar um pouco em nós,” disse Pachuca. “Fiz muitas pesquisas nesse espaço — estar no Google Brain antes me dá credibilidade. Mas no começo foram e-mails frios, e isso nos rendeu nossos dois primeiros grandes clientes. Depois foram conferências — é por isso que vou a tantas delas!”

Pachuca estava prestes a ir para a Europa logo após concluir sua entrevista, onde planejava participar de várias reuniões e conferências, incluindo a Conferência Europeia sobre Visão Computacional (ECCV) em Milão e Vision em Estugarda.

Clientes potenciais incluem desenvolvedores tradicionais de sistemas de visão computacional, como Cognex ou Keyence, que estão buscando fortalecer seus produtos com uma melhor IA. Mas, por outro lado, a Advex pode vender diretamente para empresas de usuários finais, como fabricantes de automóveis ou empresas de logística que estão construindo suas próprias ferramentas internas.

Por exemplo, um fabricante de automóveis pode precisar ensinar seu sistema de visão computacional a reconhecer defeitos no material dos assentos dos carros. No entanto, mesmo que a empresa possa acessar centenas de imagens distintas, o fato é que nenhum dos defeitos é igual ao outro. Então, em vez disso, o fabricante pode enviar uma dúzia de fotos de assentos com rasgos, com a Advex extrapolando para gerar milhares de imagens de assentos “defeituosos” e criar um conjunto de dados de treinamento muito mais extenso.

O mesmo pode ser aplicado a praticamente qualquer setor de manufatura, desde petróleo e gás até móveis de madeira — tudo se trata de reduzir o tempo e os custos de coleta de dados criando artificialmente imagens de treinamento.

Geração de imagem sintética de defeitos de resina na madeira
Geração de imagem sintética de defeitos de resina na madeira.Créditos da Imagem:Advex

Dados sintéticos não são um conceito novo, mas com a revolução da IA em pleno andamento, as empresas estão buscando preencher as lacunas de dados — isso inclui áreas como pesquisa de mercado, onde as amostras de pesquisa podem ser muito pequenas.

De maneira geral, existem dois tipos de modelos que a Advex lida. O modelo que é implantado no site do cliente, aquele que as próprias imagens do cliente treinam, é apenas “coisas de código aberto padrão”. “Isso porque eles precisam ser pequenos, e também não acreditamos que os ganhos vêm da arquitetura do modelo — vêm do treinamento nos dados certos,” disse Pachuca.

Mas o verdadeiro diferencial é o modelo de difusão proprietário da empresa, semelhante a algo como Midjourney ou Dall-E, e é o que é usado para criar os dados sintéticos. “Esse modelo é personalizado e é altamente complicado — é onde colocamos todo o nosso esforço,” acrescentou Pachuca.

Embora o foco da Advex na manufatura seja uma forma de se diferenciar, é realmente a abordagem do modelo de difusão onde a empresa se vê se destacando.

Em comparação com outras técnicas de simulação e modelagem, como aquelas alinhadas com motores de jogo/física, Pachuca diz que usar difusão significa que não há necessidade de configuração, e a geração leva apenas segundos por par de imagem/etiqueta — além de ser muito mais próxima dos dados da vida real.

“Não estamos apenas criando qualquer imagem, estamos criando as imagens que você não tem — especificamente tentando entender o que está faltando e criando isso,” disse Pachuca. “E essa parte ‘o que está faltando’ é realmente difícil, e é muito invisível, mas é uma das maiores inovações que fizemos.”

Quais são os benefícios do uso de modelos de difusão na geração de dados sintéticos para visão computacional?

Os benefícios do uso de modelos de difusão na geração de dados sintéticos para visão computacional são vários e significativos. Neste artigo, exploraremos como esses modelos impactam a IA e a criação de imagens que podem ser utilizadas em diversas aplicações.

1. Velocidade e Eficiência na Geração de Dados Sintéticos

Os modelos de difusão permitem a geração de dados sintéticos em um tempo muito curto. A geração leva apenas segundos por par de imagem/etiqueta, o que é substancialmente mais rápido do que outras técnicas de simulação e modelagem. Essa velocidade é crucial para empresas que necessitam de um fluxo contínuo de dados para treinar seus modelos de IA.

2. Proximidade com Dados da Vida Real

Esses modelos são capazes de gerar imagens que são muito próximas dos dados da vida real, o que é crucial para a precisão e a eficácia dos modelos de IA. Isso ajuda a preencher as lacunas de dados reais e a criar conjuntos de dados de treinamento mais robustos e representativos, melhorando assim o desempenho dos algoritmos.

3. Personalização e Completação de Dados Faltantes

Os modelos de difusão são particularmente úteis para entender e criar o que está faltando nos conjuntos de dados existentes. Eles podem gerar imagens específicas que correspondam a cenários ou condições que são difíceis de capturar com dados reais, como defeitos únicos em materiais ou condições raras. Essa capacidade de personalização é um grande trunfo para empresas que buscam soluções específicas.

4. Ausência de Necessidade de Configuração Complexa

Ao contrário de outras técnicas, como motores de jogo ou simulações físicas, os modelos de difusão não requerem configuração complexa. Isso simplifica o processo de geração de dados sintéticos e torna mais acessível para uma variedade de aplicações, permitindo que mais empresas adotem essa tecnologia sem a necessidade de uma equipe técnica especializada.

5. Escalabilidade e Custo-Benefício

A capacidade de gerar grandes volumes de dados sintéticos rapidamente e com baixo custo é uma grande vantagem. Isso reduz significativamente os custos associados à coleta e anotação de dados reais, tornando o processo mais econômico e escalável. Para empresas que precisam de dados em larga escala para treinamento de modelos de IA, essa é uma solução extremamente vantajosa.

Conclusão

Em resumo, os modelos de difusão oferecem uma série de benefícios significativos na geração de dados sintéticos para visão computacional. Desde a velocidade e eficiência até a personalização e escalabilidade, essas ferramentas estão se tornando cada vez mais essenciais para empresas que desejam melhorar seus modelos de IA e otimizar seus processos de treinamento. A adoção de dados sintéticos não apenas reduz custos, mas também aumenta a qualidade e a representatividade dos conjuntos de dados utilizados, resultando em soluções mais eficazes e inovadoras.

Fontes de Pesquisa

Fonte

#dados, #IA, #imagem, #sintético, #modelo, #treinamento, #empresa, #cryptoalch

latest articles

explore more