Table of Contents
Resumo da Semana em Inteligência Artificial
Olá, pessoal, bem-vindos ao boletim regular de IA da TechCrunch. Se você deseja recebê-lo em sua caixa de entrada todas as quartas-feiras, inscreva-se aqui.
Nesta semana, os dados sintéticos surgiram como um tópico de destaque.
Canvas da OpenAI
Na última quinta-feira, a OpenAI apresentou o Canvas, uma nova maneira de interagir com ChatGPT, sua plataforma de chatbot impulsionada por IA. O Canvas abre uma janela com um espaço de trabalho para projetos de escrita e codificação. Os usuários podem gerar texto ou código no Canvas e, se necessário, destacar seções para edição usando o ChatGPT.
Do ponto de vista do usuário, o Canvas representa uma grande melhoria na qualidade de vida. No entanto, o que é mais interessante sobre o recurso, para nós, é o modelo ajustado que o alimenta. A OpenAI afirma que ajustou seu modelo GPT-4o utilizando dados sintéticos para “possibilitar novas interações dos usuários” no Canvas.
“Utilizamos técnicas inovadoras de geração de dados sintéticos, como a destilação de saídas do o1-preview, para ajustar o GPT-4o para abrir o Canvas, fazer edições pontuais e deixar comentários de alta qualidade em linha”, escreveu Nick Turley, chefe de produto da ChatGPT, em um post no X. “Essa abordagem nos permitiu melhorar rapidamente o modelo e possibilitar novas interações com o usuário, tudo isso sem depender de dados gerados por humanos.”
A OpenAI não é a única grande empresa de tecnologia a depender cada vez mais de dados sintéticos para treinar seus modelos.
Dados Sintéticos e a Meta
No desenvolvimento do Movie Gen, um conjunto de ferramentas impulsionadas por IA para criar e editar clipes de vídeo, a Meta recorreu parcialmente a legendas sintéticas geradas por um desdobramento de seus modelos Llama 3. A empresa recrutou uma equipe de anotadores humanos para corrigir erros e adicionar mais detalhes a essas legendas, mas a maior parte do trabalho preliminar foi amplamente automatizada.
O CEO da OpenAI, Sam Altman, argumentou que a IA irá um dia produzir dados sintéticos suficientemente bons para treinar a si mesma, efetivamente. Isso seria vantajoso para empresas como a OpenAI, que gasta uma fortuna com anotadores humanos e licenças de dados.
A Meta também aperfeiçoou os modelos Llama 3 usando dados sintéticos. A OpenAI está supostamente adquirindo dados de treinamento sintético do o1 para seu modelo de próxima geração, codinome Orion.
Riscos da Abordagem com Dados Sintéticos
Entretanto, adotar uma abordagem priorizando dados sintéticos vem com riscos. Como um pesquisador recentemente destacou, os modelos usados para gerar dados sintéticos inevitavelmente alucinam (ou seja, inventam coisas) e contêm preconceitos e limitações. Esses erros se manifestam nos dados gerados pelos modelos.
Usar dados sintéticos com segurança, portanto, requer uma curadoria e filtragem minuciosas — assim como é a prática padrão com dados gerados por humanos. Falhar em fazer isso poderia levar ao colapso do modelo, no qual um modelo se torna menos “criativo” — e mais tendencioso — em suas saídas, comprometendo seriamente sua funcionalidade.
Esta não é uma tarefa fácil em escala. No entanto, com os dados de treinamento do mundo real se tornando mais caros (sem mencionar difícil de obter), os fornecedores de IA podem ver os dados sintéticos como o único caminho viável a seguir. Esperamos que eles exerçam cautela ao adotá-los.
Notícias Recentes
- Anúncios nas Visões Gerais de IA: O Google anunciou que em breve começará a exibir anúncios nas Visões Gerais de IA, os resumos gerados por IA que fornece para certas consultas de busca do Google.
- Google Lens, agora com vídeos: O Lens, aplicativo de busca visual do Google, foi atualizado com a capacidade de responder perguntas em quase tempo real sobre o que há ao seu redor. Você pode capturar um vídeo via Lens e fazer perguntas sobre objetos de interesse no vídeo. (Anúncios provavelmente também virão para isso.)
- De Sora para DeepMind: Tim Brooks, um dos líderes do gerador de vídeo da OpenAI, Sora, deixou a OpenAI para a rival Google DeepMind. Brooks anunciou em um post no X que irá trabalhar em tecnologias de geração de vídeo e “simuladores de mundo”.
- Fluxando tudo: A Black Forest Labs, a startup apoiada pela Andreessen Horowitz por trás do componente de geração de imagem do assistente Grok da xAI, lançou uma API em beta — e lançou um novo modelo.
- Nem tão transparente: O recém-aprovado projeto de lei AB-2013 da Califórnia exige que as empresas que desenvolvem sistemas de IA generativa publiquem um resumo de alto nível dos dados que usaram para treinar seus sistemas. Até agora, poucas empresas estão dispostas a afirmar se irão cumprir. A lei dá a elas até janeiro de 2026.
Artigo de Pesquisa da Semana

Pesquisadores da Apple têm trabalhado arduamente com fotografia computacional durante anos, e um aspecto importante desse processo é o mapeamento de profundidade. Originalmente, isso era feito com estereoscopia ou um sensor de profundidade dedicado, como uma unidade lidar, mas esses tendem a ser caros, complexos e ocupam um valioso espaço interno. Realizá-lo estritamente em software é preferível de muitas maneiras. É sobre isso que este artigo, Depth Pro, trata.
Alexei Bochkovskii et al. compartilham um método para estimativa de profundidade monocular em zero-shot com alta definição, o que significa que utiliza uma única câmera, não precisa ser treinado em coisas específicas (como funciona em um camelo apesar de nunca ter visto um) e captura até aspectos difíceis, como tufos de cabelo. É quase certo que isso está em uso em iPhones atualmente (embora provavelmente uma versão personalizada e melhorada), mas você pode experimentar um pouco de estimativa de profundidade usando o código nesta página do GitHub.
Modelo da Semana
O Google lançou um novo modelo em sua família Gemini, o Gemini 1.5 Flash-8B, que afirma ser um dos mais performáticos.
Uma versão “destilada” do Gemini 1.5 Flash, que já foi otimizada para velocidade e eficiência, o Gemini 1.5 Flash-8B custa 50% menos para usar, tem latência mais baixa e oferece limites de taxa 2x maiores no AI Studio, o ambiente de desenvolvedor focado em IA do Google.
“Flash-8B quase iguala o desempenho do modelo 1.5 Flash lançado em maio em muitos benchmarks”, escreve o Google em um post no blog. “Nossos modelos [continuam] sendo informados pelo feedback dos desenvolvedores e nossos próprios testes do que é possível.”
O Gemini 1.5 Flash-8B é bem adequado para chat, transcrição e tradução, segundo o Google, ou qualquer outra tarefa que seja “simples” e “de alto volume”. Além do AI Studio, o modelo também está disponível gratuitamente através da API do Gemini, com limite de taxa de 4.000 solicitações por minuto.
Miscellaneous
Falando de IA barata, a Anthropic lançou um novo recurso, a API de Lotes de Mensagens, que permite aos desenvolvedores processar grandes quantidades de consultas de modelos de IA de forma assíncrona por menos dinheiro.
Semelhante ao agrupamento de solicitações da API do Gemini, os desenvolvedores que usam a API de Lotes de Mensagens da Anthropic podem enviar lotes de até um determinado tamanho — 10.000 consultas — por lote. Cada lote é processado em um período de 24 horas e custa 50% menos que chamadas de API padrão.
A Anthropic afirma que a API de Lotes de Mensagens é ideal para “tarefas em grande escala”, como análise de conjuntos de dados, classificação de grandes conjuntos de dados e avaliações de modelos. “Por exemplo”, escreve a empresa em um post, “analisar repositórios de documentos corporativos inteiros — que podem envolver milhões de arquivos — se torna mais economicamente viável ao aproveitar [este] desconto de agrupamento.”
A API de Lotes de Mensagens está disponível em beta pública com suporte para os modelos Claude 3.5 Sonnet, Claude 3 Opus e Claude 3 Haiku.
#InteligenciaArtificial, #DadosSinteticos, #OpenAI, #Meta, #Tecnologia, #Inovacao
autor ref: Kyle Wiggers, Devin Coldewey
ref:https://techcrunch.com/2024/10/09/this-week-in-ai-tech-giants-embrace-synthetic-data/