Ray Poynter, 22 de setembro de 2025
Editado em 26 de setembro de 2025, novas seções em azul.
Aqui está minha tentativa de um Léxico e Taxonomia atualizados para dados sintéticos. Eu adoraria ouvir seus pensamentos e sugestões.
Dados sintéticos, de acordo com o Código ICC/ESOMAR, são “Dados sintéticos significam informações que foram geradas para replicar as características dos dados do mundo real”.
Às vezes, as pessoas explicam a razão para definir nomes e termos como o efeito Rumpelstiltskin. Este efeito, derivado do conto de fadas infantil, afirma que ganhamos poder sobre uma coisa quando lhe damos um nome. Se quisermos investigar o processo de criação de dados (em vez de, ou também, coletá-los) e se quisermos diferenciar entre processos úteis e óleo de cobra, então precisamos da clareza e precisão que a nomenclatura traz.
Até certo ponto, não importa o que qualquer pessoa ou organização pensa, o mercado e a comunidade determinam o significado e o uso das palavras. Atualmente, Dados Sintéticos é o termo mais utilizado em Pesquisa e Insights, e o mais utilizado em outros domínios.
Aqui estão minhas sugestões de termos-chave para dados sintéticos, no contexto de pesquisas e insights de mercado.
Conjuntos de dados sintéticos
Conjuntos de dados sintéticos são conjuntos de dados que foram criados parcialmente (consulte Dados Aumentados) ou totalmente. Os dados sintéticos podem ser gerados através de uma ampla variedade de meios, incluindo, entre outros, IA. Dois métodos comuns para gerar conjuntos de dados sintéticos são por meio de plataformas que criam conjuntos de dados aumentados e por meio de agentes sintéticos. Esses conjuntos de dados podem então ser usados como entradas no processo de análise.
Dados Aumentados Sintéticos
Dados utilizados em combinação com um conjunto de dados específico, como os resultados dos participantes que responderam a um questionário. A principal característica destas abordagens é que os dados sintéticos são relevantes no contexto dos dados reais, como um acréscimo a eles.
Esta categoria pode ser dividida de duas maneiras:
Escopo:
Ele adiciona linhas (criando entrevistados novos/adicionais), colunas (novas perguntas para pessoas existentes) ou preenche dados faltantes (imputando valores deixados em branco pelas pessoas que completaram o questionário)? Um projeto pode ser qualquer combinação de um, dois ou todos os três.
Método:
Como os dados sintéticos foram criados? Por exemplo, abordagens puramente estatísticas (como SMOTE), IA tradicional (como aprendizado de máquina) e IA generativa. Os projetos podem combinar essas abordagens.
Agentes Sintéticos
Agentes é um termo amplamente utilizado fora do mundo das pesquisas e insights de mercado e nos alinha com o uso mais amplo de dados sintéticos. Agentes sintéticos são entidades que podem ser usadas para responder novas questões. Os agentes podem ser usados para interagir com o usuário ou para gerar conjuntos de dados sintéticos.
Alguns agentes sintéticos podem ser subdivididos em variantes específicas.
Gêmeos Digitais:
Um gêmeo digital é um agente sintético construído usando dados e informações de um indivíduo específico. Esta informação pode ter sido recolhida especificamente com o propósito de criar o gémeo (como nos estudos de Stanford, por exemplo, seu estudo de 2023) ou de informações coletadas anteriormente (por exemplo, utilizando estudos anteriores realizados com membros de comunidades online).
Personagens:
Uma persona é um agente sintético destinado a representar um grupo ou categoria, e não qualquer indivíduo específico. Algumas personas são construídas para serem arquétipos, por exemplo, um conjunto de personas para representar tipos típicos da Geração Z. Outras personas são criadas para refletir uma gama mais ampla de tipos, para que possam imitar coletivamente uma população.
Além de estabelecer os termos-chave que definem os Dados Sintéticos, também é útil destacar os conceitos-chave no teste e validação de Dados Sintéticos.
Ele pode replicar dados conhecidos?
Para dados aumentados, podemos testar isso removendo alguns dados de um estudo real, gerando uma amostra aumentada e verificando se a amostra aumentada corresponde à amostra removida e se a amostra total com os dados aumentados corresponde à amostra total com os dados originais.
Para agentes sintéticos, um processo semelhante pode ser realizado. Pegue um estudo real que não foi utilizado na criação dos agentes e peça aos agentes sintéticos que criem respostas para as questões utilizadas no estudo real.
Esses exemplos são testes necessários, mas não suficientes. Se for provável que os dados sintéticos sejam eficazes em sua área, dados os tipos de respostas com os quais você normalmente trabalha, eles deverão ser capazes de passar neste teste; no entanto, não garante sucesso em projetos futuros.
Quando esperamos que funcione e quando não esperamos que funcione?
Parece improvável que os dados sintéticos funcionem com todos os tipos de dados, em todos os contextos e para todos os fins. Os fornecedores precisam ser capazes de demonstrar quando funcionará e quando não, e explicar por que funciona quando funciona e por que falha quando não funciona.
Além do campo, esta questão de quando funciona (e quando não funciona) também se aplica a países, línguas e culturas.
O que significa ‘semelhante’?
Ao comparar dados sintéticos com dados reais, muitas vezes precisamos olhar além das médias e dos totais. Precisamos verificar se os padrões subjacentes são semelhantes, por exemplo, as distribuições e correlações.
Como testamos a significância estatística?
Os testes convencionais de significância estatística não são apropriados para dados sintéticos, pelo que é necessário estabelecer e partilhar novas formas de testes.
Como o modelo será atualizado?
Para dados aumentados, a questão da atualização costuma ser mais simples. Utilizamos dados atuais para gerar modelos de dados sintéticos.
Para os agentes sintéticos, a necessidade de atualizá-los é crítica. De onde virão os dados novos e reais e como serão atualizados?
Esta seção é uma compilação de termos frequentemente relevantes para o debate sobre Dados Sintéticos e Inteligência Artificial Gerativa.
Ética
Os fornecedores e utilizadores de dados sintéticos devem garantir que a sua utilização é sempre ética. Isto inclui, por exemplo, fornecedores que garantam que compradores e utilizadores possam avaliar a validade, fiabilidade e limitações dos dados sintéticos que estão a ser criados.
Privacidade e Segurança
Os clientes desejam saber que seus dados permanecerão seguros e que não serão usados para treinar sistemas que outros usarão. Os participantes precisam de saber que os seus direitos serão respeitados e que os seus dados serão mantidos seguros.
Guarda-corpos
Regras explícitas são codificadas no processo de criação do modelo que limitam o que pode ser criado e como o modelo responderá. Por exemplo, a maioria dos sistemas de IA tenta impedir a criação de pornografia infantil e outros conteúdos nocivos. Os guard rails podem ter consequências indesejadas e geralmente podem ser contornados por meio de jailbreak.
Viés
Os modelos de IA refletem o preconceito inerente a quaisquer dados de treinamento, e a presença de proteções pode agravar isso. Os fornecedores devem explicar os preconceitos nos seus sistemas, procurar mitigá-los e garantir que os compradores e utilizadores estão conscientes dos preconceitos conhecidos e potenciais.
Jailbreak:
Jailbreaking é a prática de tentar fazer com que um sistema de IA revele informações que foi instruído a não divulgar. Por exemplo, se um sistema tiver uma barreira de proteção que o impeça de encorajar as pessoas a se machucarem. Um jailbreaker pode pedir exemplos de coisas que não deveriam perguntar para ajudá-los a evitar fazer tais perguntas.
Canibalismo:
Alimentando informações criadas por IA no processo de criação. Por exemplo, treinar ferramentas de criação de imagens em imagens geradas por IA ou inserir respondentes sintéticos no processo para criar outros respondentes sintéticos. Isso é amplamente considerado uma má prática. Isso pode levar ao desvio do modelo e até mesmo ao colapso do modelo.
Deriva do modelo:
O desvio do modelo ocorre quando os dados modelados se tornam cada vez mais diferentes do mundo real. As causas podem ser sistemáticas, resultantes de mudanças nos insumos disponíveis, ou de efeitos aleatórios que ocorrem ao longo do tempo.
Colapso do modelo:
Quando há muitas informações conflitantes em um modelo, por exemplo, devido a desvios, ingestão de dados sintéticos ou barreiras de proteção conflitantes, o modelo pode começar a produzir respostas erradas e inadequadas. Esse resultado é conhecido como colapso do modelo.
Alucinações:
As alucinações ocorrem quando um modelo fornece uma resposta incorreta, muitas vezes plausível. A causa mais comum de alucinações é que o sistema de IA não sabe a resposta correta, por isso faz uma suposição. Por tentar estar certo, o palpite geralmente está errado, mas é verossímil.