Table of Contents
Disponibilidade do SynthID Text
O SynthID Text, tecnologia desenvolvida pelo Google que permite a marcas d’água e detecção de textos gerados por modelos de IA, está agora disponível para o público geral. Essa ferramenta pode ser baixada na plataforma de IA Hugging Face e no Responsible GenAI Toolkit atualizado do Google.
Detalhes da Implementação do SynthID Text
Em uma publicação no X, o Google declarou: “Estamos disponibilizando nossa ferramenta de marca d’água SynthID Text como código aberto. Disponível gratuitamente para desenvolvedores e empresas, ajudará na identificação de conteúdo gerado por IA.” Assim, surge a questão: como o SynthID Text funciona exatamente?
Funcionamento do SynthID Text
Quando apresentado a um prompt como “Qual é sua fruta favorita?”, os modelos de geração de texto prevêem qual “token” é mais provável de seguir outro — um token de cada vez. Os tokens, que podem ser um único caractere ou palavra, são os blocos de construção que um modelo gerador usa para processar informações. Um modelo atribui uma pontuação a cada token possível, que representa a porcentagem de chance de este ser incluído no texto de saída. O SynthID Text insere informações adicionais nessa distribuição de tokens ao “modular a probabilidade de tokens serem gerados”, segundo o Google.
“O padrão final de pontuações, tanto para as escolhas de palavras do modelo quanto para as pontuações de probabilidade ajustadas, é considerado a marca d’água,” afirmou o Google em um post no blog. “Esse padrão de pontuações é comparado com o padrão esperado de pontuações para textos com e sem marca d’água, ajudando o SynthID a detectar se um texto foi gerado por uma ferramenta de IA ou se pode vir de outras fontes.”
O Google alega que o SynthID Text, que tem sido integrado aos modelos Gemini desde a primavera, não compromete a qualidade, precisão ou velocidade da geração de texto, funcionando mesmo em textos que foram cortados, parafraseados ou modificados.
Limitações do SynthID Text
No entanto, a empresa reconhece que sua abordagem de marca d’água possui limitações. Por exemplo:
- Desempenho inferior com textos curtos;
- Dificuldades com textos que foram reescritos ou traduzidos de outra língua;
- Poucas oportunidades para ajustar a distribuição de tokens em respostas a perguntas factuais.
“Em respostas a prompts factuais, existem menos oportunidades de ajustar a distribuição de tokens sem afetar a precisão factual,” explicou a empresa. “Isso inclui prompts como ‘Qual é a capital da França?’, ou consultas onde pouca ou nenhuma variação é esperada, como ‘recitar um poema de William Wordsworth.’”
Desenvolvimentos no Campo da Marca D’água em Texto
O Google não é a única empresa trabalhando na tecnologia de marca d’água para textos. A OpenAI tem pesquisado métodos de marca d’água há anos, mas atrasou seu lançamento por considerações técnicas e comerciais.
Técnicas de marca d’água para textos, se amplamente adotadas, poderiam ajudar a combater detetores de IA que frequentemente marcam de forma equivocada ensaios e documentos escritos em uma voz mais genérica. Contudo, surge a questão: será que essas tecnologias serão amplamente adotadas, e um padrão ou tecnologia proposta por uma organização prevalecerá sobre as demais?
Aspectos Legais e Considerações Finais
A situação é urgente, visto que o governo da China introduziu a marcação obrigatória de conteúdo gerado por IA, enquanto o estado da Califórnia busca implementar a mesma exigência.
Segundo um relatório da Agência de Execução da Lei da União Europeia, estima-se que 90% do conteúdo online possa ser gerado sinteticamente até 2026, levantando novos desafios de aplicação da lei em torno da desinformação, propaganda, fraude e engano.
Atualmente, já quase 60% de todas as sentenças na web podem ser geradas por IA, conforme um estudo da AWS, impulsionado pelo uso generalizado de tradutores de IA.
A TechCrunch possui um boletim informativo focado em IA! Inscreva-se aqui para recebê-lo na sua caixa de entrada toda quarta-feira.
#SynthID, #Google, #IA, #MarcaçãoDeTexto, #Tecnologia, #HuggingFace, #Desinformação, #AI, #ResponsabilidadeDigital, #Tokens