O peso da qualidade de dados na estratégia de IA

Outubro 15, 2024 Jérémy El Aissaoui

A inteligência artificial (IA) não pode existir sem dados - e tampouco pode entregar o que as empresas precisam se a qualidade dos dados for ruim. Portanto, abordar esse aspecto deve ser uma prioridade ao desenvolver estratégias baseadas na tecnologia.

A IA consome dados para operar de forma eficaz, e os dados precisam da IA para desbloquear todo o seu potencial. Sem uma conexão sólida entre ambos, até mesmo ferramentas avançadas, como o ChatGPT, Bard ou Copilot, falharão em transformar sua empresa de forma significativa.

Essa relação simbiótica não é nova. O que mudou foi a velocidade e a escala de adoção da IA, juntamente com sua capacidade sem precedentes de interpretar e gerar dados não estruturados, como texto simples, áudio, imagens e vídeos.

O cenário promove um desafio duplo para as organizações: mitigar os riscos associados à adoção rápida e ampla da IA ao mesmo tempo em que implementam estratégias robustas para gerenciar dados estruturados e não estruturados de maneira eficaz.

Barreiras mais baixas exigem governança mais forte

A inteligência artificial agora fala nossa língua, e algoritmos extremamente poderosos estão amplamente acessíveis a qualquer pessoa. Essa combinação reduziu significativamente as barreiras para que se experimente a solução, realizem-se testes e provem-se conceitos. No entanto, o que não mudou é a complexidade de escalar tais testes para sistemas em nível de produção, o que ainda exige um esforço e investimento substanciais. A transição de uma prova de conceito para um produto mínimo viável exige foco em privacidade, segurança, justiça, conformidade regulatória e, muito crucialmente, na precisão dos dados utilizados — tudo isso apoiado por uma governança forte.

Sem uma governança adequada, corre-se o risco de colaboradores vazarem informações sensíveis ao interagir com um modelo de IA público ou, até mesmo, que dados confidenciais sejam compartilhados com um funcionário não autorizado que estiver usando o modelo de linguagem interno da empresa. Isso pode ocorrer devido à má segregação de documentos não estruturados subjacentes. Sem governança adequada, você corre o risco de não conseguir distinguir entre fontes de informação precisas e dados falhos que podem comprometer seu modelo de IA.

A IA tem um potencial enorme para todas as empresas, mas à medida que os modelos avançados se tornam uma commodity, o campo de batalha está mudando da supremacia algorítmica para a excelência dos dados. A excelência dos dados será o fator-chave que determinará quais organizações vencerão a corrida no longo prazo.

A má qualidade dos dados se propaga

A avaliação do impacto da qualidade dos dados no desempenho e na segurança da IA pode ser tecnicamente complexa, mas se resume a um princípio simples: “se entra lixo, sai lixo”.

Se os dados usados para treinar seus LLMs (ou outros modelos) estiverem repletos de erros, incluírem informações sensíveis ou confidenciais ou, ainda, forem factualmente incorretos, a saída gerada herdará essas falhas.

Além disso, surgiu um novo desafio com a capacidade da IA de processar e gerar dados não estruturados. A saída de um modelo de IA agora pode alimentar outro modelo de IA, criando uma reação em cadeia onde a má qualidade dos dados se propaga e se amplifica a cada iteração, produzindo resultados enganosos e potencialmente prejudiciais.

Corrigindo a qualidade dos dados em três etapas

A qualidade dos dados nunca foi tão importante. Mas como corrigi-la? Fundamentalmente, há três áreas principais para focar:

1. Primeiro, dados de alto valor

As empresas estão inundadas de todos os tipos de dados. Tentar melhorar a qualidade de todos de uma só vez é uma tarefa esmagadora e muitas vezes inútil. O segredo é identificar onde a melhoria da qualidade dos dados trará o maior valor imediato. As empresas que têm sucesso com a IA são aquelas que se concentram em casos de uso específicos e de alto impacto que impulsionam o ROI. Ao abordar a correção da qualidade dos dados, comece com os dados de alto valor que são necessários para apoiar esses casos de uso.

É claro que identificar dados de alto valor implica em ter uma visão geral dos dados disponíveis. Inúmeras oportunidades são perdidas simplesmente porque as partes interessadas do negócio desconhecem os dados aos quais têm acesso.

As fundações de governança de dados que você construir para apoiar casos de uso de alto valor podem, então, ser ampliadas em toda a organização para dar suporte a mais fontes e aplicações.

2. Escalando passo a passo

Essa abordagem orientada por valor também significa que você constrói de forma incremental à medida que cresce. Com cada etapa, revise seus dados, identifique os problemas e corrija-os antes de avançar. Isso não apenas garante que os dados atendam aos seus novos padrões de qualidade definidos, mas também ajuda a manter a conformidade com os requisitos regulatórios.

Diferentes regiões estão introduzindo regulamentações em velocidades variadas, criando um desafio legal e de governança para as empresas que tentam navegar no que é necessário para suas operações e no que não é. Ao estabelecer uma estrutura de governança à medida que avança de um caso de uso para o próximo, você pode identificar mais facilmente onde a conformidade é necessária e onde ela pode não se aplicar.

3. Aprender, corrigir, aprender novamente

Haverá erros; a explosão da IA generativa ainda não trouxe um boom correspondente em talentos experientes. Todos estão aprendendo. A maneira como você incorpora essas lições em sua abordagem definirá seu sucesso a longo prazo e determinará se você será capaz de acompanhar os avanços contínuos da IA.

Uma parte crucial do processo de aprendizagem é avaliar continuamente a qualidade das entradas e saídas da IA. Resultados incorretos relatados pelos usuários podem sinalizar a necessidade de correção da qualidade dos dados. Instâncias repetidas de dados não autorizados sendo submetidos à IA podem indicar uma classificação inadequada dos dados. Use esses ciclos de feedback constantes para refinar e melhorar seu sistema à medida que avança.

Transforme um passo de cada vez

No geral, a tarefa de incorporar a IA com sucesso em sua organização não pode ser subestimada. Embora essas ferramentas tenham um potencial imenso, aproveitá-las de forma eficaz exige uma abordagem madura de governança. Todas as empresas têm acesso a grandes quantidades de dados, mas as realmente bem-sucedidas serão aquelas que se concentram em identificar os casos de uso mais valiosos, melhorar a qualidade dos dados e construir as estruturas e salvaguardas necessárias, um passo de cada vez.

A inteligência artificial está mudando o mundo. Além da qualidade dos dados, você deve considerar o que isso significa para sua rede e segurança e como você usará LLMs. Conheça nosso guia (em inglês) sobre todas essas áreas para saber mais.

Qualidade de dados – o componente crítico na sua estratégia de IA

Barreiras mais baixas exigem governança mais forte

A má qualidade dos dados se propaga

Corrigindo a qualidade dos dados em três etapas

Transforme um passo de cada vez

Recomendado para você