Table of Contents
Inovações em Transcrição de Áudio: O Caso da Gladia
A startup francesa Gladia recentemente levantou $16 milhões em uma rodada de financiamento Série A, destacando-se no campo de APIs (Interface de Programação de Aplicativos) de reconhecimento de fala. A API da Gladia permite transformar qualquer arquivo de áudio em texto com um elevado nível de precisão e tempo de resposta reduzido.
Comparação com Gigantes da Tecnologia
Embora empresas como Amazon, Microsoft e Google também ofereçam APIs de conversão de fala para texto como parte de suas suítes de produtos de hospedagem em nuvem, a performance dessas ferramentas não se compara às disponíveis em startups especializadas, como a Gladia.
Avanços Recentes no Campo da Bilíngue
A evolução significativa nesta área nos últimos anos, especialmente após o lançamento do Whisper pela OpenAI, colocou a Gladia em competição com outras empresas bem financiadas, como:
Características da Gladia
A Gladia, inicialmente, ofereceu uma versão aprimorada do modelo de transcrição de fala do Whisper, incorporando melhorias significativas. Entre suas funcionalidades, destaca-se a **diarização**, que permite identificar múltiplos falantes em uma conversa e separar a gravação e o texto transcrito de acordo com quem está falando. Além disso, a Gladia suporta 100 idiomas e uma ampla variedade de sotaques, o que foi testado e confirmado pela equipe que utilizou a API para transcrever entrevistas.
Uso Corporativo e Integração de Modelos
A startup oferece seu modelo de transcrição como uma API hospedada, amplamente utilizada por mais de 600 empresas, incluindo assistentes de reuniões e gravação de notas, como:
- Attention
- Circleback
- Method Financial
- Recall
- Sana
- Veed.io
Um caso de uso interessante envolve a necessidade de encadear chamadas de API para transcrever o discurso e, em seguida, inserir esse texto em um modelo de linguagem extensivo (LLM), como GPT-4 ou Claude 3.5 Sonnet, para extrair conhecimentos de grandes quantidades de texto.
Desafios da Transcrição em Tempo Real
Com o novo financiamento, a Gladia visa simplificar esse processo ao integrar inteligência de áudio e tarefas baseadas em LLM em uma única chamada de API. Isso permitirá que clientes obtenham um resumo de conversas gerado a partir de alguns pontos-chave, sem depender de uma API LLM de terceiros. Contudo, um grande desafio na área é a latência. Alguns sistemas precisam transcrever conversas em tempo real para que pareçam o mais humanas possíveis.
“Realizamos que a qualidade da transcrição em tempo real não era boa no mercado em geral. E as pessoas tinham um uso estranho. Elas realizavam o processamento em tempo real e depois utilizavam o áudio para uma transcrição em lote. Perguntamos: ‘Por que vocês fazem isso?’ Eles responderam: ‘A qualidade não é boa na transcrição em tempo real, então fazemos em lote depois’,” afirma Jean-Louis Quéguiner, cofundador e CEO da Gladia.
Atualmente, a Gladia consegue transcrever uma conversa ao vivo com uma latência inferior a 300 milissegundos, posicionando-se como uma opção competitiva no mercado. A empresa afirma que a transcrição em tempo real agora é comparável à qualidade padrão obtida através de suas APIs de transcrição em lote.
Aplicações em Atendimento ao Cliente
Além de agentes de chamadas baseados em IA, empresas de call centers podem utilizar essas capacidades em tempo real para auxiliar agentes de atendimento a encontrarem informações relevantes durante as chamadas. Segundo Jonathan Soto, cofundador e CTO da Gladia, “nossa API única é compatível com todas as pilhas tecnológicas e protocolos existentes, incluindo SIP, VoIP, FreeSwitch e Asterisk.”
Investimento e Futuro das Aplicações de Áudio
A rodada de financiamento Série A foi liderada pela XAnge, com a participação de Illuminate Financial, XTX Ventures, Athletico Ventures, Gaingels, Mana Ventures, Motier Ventures, Roosh Ventures e Soma Capital. A Gladia acredita que estamos à beira de um “momento ChatGPT” para aplicações de áudio, uma vez que tecnologias semelhantes têm estado disponíveis por anos, mas a popularização dos modelos de linguagem com interfaces amigáveis, como o ChatGPT, impulsionou um interesse renovado.
Conforme empresas como Apple e Google começam a integrar modelos de transcrição dentro de sistemas operacionais móveis, a compreensão do valor da transcrição automatizada deve se tornar mais evidente entre os consumidores. Espera-se que desenvolvedores integrem funcionalidades de áudio em seus produtos, preparando o terreno para provedores de API como a Gladia.
#Transcrição, #Gladia, #Inovação, #Tecnologia, #ReconhecimentoDeFala, #Startups, #APIs, #InteligênciaArtificial
Fonte:https://techcrunch.com/2024/10/15/gladia-believes-real-time-processing-is-the-next-frontier-of-audio-transcription-apis/