A inteligência artificial avançou a uma velocidade notável, mas o seu progresso foi moldado por uma base estreita de dados. Maioria grandes modelos de linguagem são treinados em textos da Internet, livros e fóruns on-line. Esta escala é impressionante, mas não é representativa. As vozes que dominam estas fontes são muitas vezes urbanas, ricas, instruídas, falantes de inglês e outras línguas dominantes no mundo. Quando os modelos aprendem apenas com eles, o risco é óbvio: enviesamento para dentro, enviesamento para fora. O resultado é uma IA que funciona bem para alguns e mal para muitos.
A IA representativa requer algo diferente. Exige que os modelos ouçam a amplitude da experiência humana e da variação linguística, e não apenas os grupos mais barulhentos ou mais conectados. Isso começa com dados representativos. Durante décadas, a ciência das pesquisas desenvolveu ferramentas para medir as populações com precisão por meio de amostragem, estratificação e ponderação. Ao contrário dos dados extraídos da web, que refletem quem escolhe publicar, a pesquisa de opinião garante a inclusão daqueles que de outra forma poderiam ser invisíveis.
É aqui que o trabalho da GeoPoll é único. Operamos principalmente em países de baixa renda em África, América Latina e Ásia. Estas regiões estão sistematicamente sub-representadas nos conjuntos de dados globais. Nossas pesquisas alcançam comunidades que muitas vezes são excluídas dos rastros digitais dos quais a IA depende. Para além da geografia, o nosso desenho amostral incorpora o rendimento e a educação como critérios fundamentais, garantindo que as perspectivas das populações de baixos rendimentos e menos escolarizadas são captadas juntamente com as dos grupos mais ricos. Esta inclusão intencional é crítica porque estas vozes estão muitas vezes ausentes dos dados que alimentam os sistemas de IA.
Dados representativos de pesquisa de pesquisa para IA
Nossa abordagem é baseada em escala e profundidade. Todos os anos, realizamos centenas de milhares de entrevistas telefónicas que se estendem a aldeias rurais, áreas de baixa conectividade e locais onde as taxas de alfabetização são baixas e o acesso à Internet é escasso. Essas conversas são ao vivo e improvisadas, capturando como as pessoas realmente se comunicam com gírias, cadência, sotaques e linguagem em evolução que os conjuntos de dados baseados na Web ignoram. O resultado é um corpus de áudio representativo que reflete as realidades diárias das populações carentes.
Esses dados têm um valor único para o treinamento de IA. Ao contrário de frases escritas ou sintético amostras, o áudio representativo do GeoPoll captura a variação natural entre culturas e regiões. Quando usado para treinar ou ajustar modelos, ele supera consistentemente conjuntos de dados de voz selecionados porque é extraído do mundo real, em vez de produzido em estúdio. Dá aos modelos a capacidade de reconhecer padrões de fala tal como existem na vida diária, e não como aparecem em formas filtradas ou idealizadas.
Compare isso com os riscos nos pipelines de IA atuais. Os dados extraídos da Web carregam preconceito de seleção, preconceito temporal e preconceito cultural. Reflete o que é publicado, não como as pessoas vivem e falam. Os modelos amplificam então essas distorções, produzindo resultados que interpretam mal as gírias, reconhecem mal os dialetos ou estereotipam grupos inteiros. Se não forem controladas, estas lacunas agravam e corroem a confiança nos sistemas de IA, impedindo a adoção pelos mercados emergentes, aumentando a divisão.
A ciência da amostragem fornece o corretivo. Ao incorporar dados representativos em pipelines de IA, os pesquisadores podem preencher pontos cegos e construir sistemas que funcionem de forma consistente em diversas populações. Esta abordagem também fornece uma referência: os dados da pesquisa podem testar os resultados do modelo, revelar onde ocorrem as falhas e orientar o ajuste fino direcionado. Cria um ciclo de feedback onde a IA evolui juntamente com as sociedades que pretende servir.
Para que a IA seja verdadeiramente global, deve ser treinada em conjuntos de dados que reflitam a população global. Isso requer mais do que volume. Requer representatividade. A ciência da pesquisa aperfeiçoou os métodos para ouvir todos, não apenas alguns. Agora oferece à IA o que sempre faltou: equilíbrio, diversidade e autenticidade. As empresas que focarem na qualidade e representatividade dos seus dados de treinamento serão as que atenderão os usuários onde eles estiverem. Tal como o WhatsApp se tornou omnipresente ao trabalhar para pessoas em todo o mundo, as empresas que criam IA representativa ganharão o maior número de utilizadores e emergirão como líderes globais claros.
Nick Becker é o CEO da GeoPoll.