Ray Poynter16 de outubro de 2025
Na maioria das conferências e eventos, vemos um número crescente de exemplos de Dados Sintéticos, em suas diversas formas e versões, sendo usados em projetos reais. No entanto, ainda parece haver um corpo de pensamento que promove críticas não científicas a esta abordagem. Este tipo de crítica provavelmente impedirá algumas pessoas de perceberem os benefícios potenciais e poderá causar danos comerciais reais àqueles que a seguem cegamente.
Talvez eu deva explicar o que quero dizer com não científico? Aqui estão os pontos-chave aos quais estou me opondo:
- Ignorando experimentos. Existem agora muitos estudos publicados que mostram os pontos fortes e fracos dos dados sintéticos. Qualquer crítica sobre se os dados sintéticos funcionam ou não e que não faça referência às evidências não é científica.
- Não reconhecer a fraqueza das abordagens existentes. Muitas vezes, vemos críticos queixarem-se dos dados sintéticos porque não são perfeitos, sem reconhecer que também há problemas em perguntar aos humanos. Estes problemas incluem a fraude do painel, as perguntas inadequadas, a incapacidade dos seres humanos de serem testemunhas fiáveis das suas próprias motivações e uma série de preconceitos, incluindo o preconceito de desejabilidade social, o preconceito na ordem das perguntas e o preconceito de aquiescência. O teste para dados sintéticos não deve ser se são melhores que os dados humanos, mas sim se são tão úteis quanto os dados humanos.
- Expressar crenças espirituais como fatos. Quando as pessoas dizem que a IA nunca será capaz de fazer X, Y e Z, muitas vezes dizem isso como se fosse um fato. Por exemplo, a IA nunca será capaz de replicar as nuances que um ser humano pode detectar numa conversa. Dizem isto a) sem provas, e b) em contradição com a visão dos especialistas sobre o rumo que a IA está a tomar (por exemplo, AGI – Inteligência Artificial Geral). Em geral, frases como “precisaremos sempre de X” ou “Y nunca fará Z” não são científicas e enquadram-se nesta crença e não numa forma racional de pensar.
- Apoiar visualizações com dados inadequados. Vemos pessoas citando exemplos do passado (IA pré-geração), citando estudos deficientes (por exemplo, não conduzidos por um especialista na área de IA/sintética) ou retirando um estudo do contexto.
Abaixo está uma amostra dos muitos artigos e estudos publicados em Synthetic Data.
Pesquisas aumentadas por IA: aproveitando linguagem ampla. Modelos e pesquisas para previsão de opinião: 2024, Junsol Kim e Byungkyu Lee, https://arxiv.org/pdf/2305.09620
Simulando o comportamento humano com agentes de IA: 2025, Joon Sung Park e outros, https://hai.stanford.edu/assets/files/hai-policy-brief-simulating-human-behavior-with-ai-agents.pdf
Grandes modelos de linguagem atuam como fortes colaboradores e geradores de insights em estudo de pesquisa de marketing híbrido humano-IA: 2024, Escola de Negócios de Wisconsin, https://business.wisc.edu/news/large-language-models-perform-as-strong-collaborators-insight-generators-in-ai-human-hybrid-marketing-research-study/
LLMs reproduzem a intenção de compra humana por meio de similaridade semântica Elicitação de classificações Likert: 2025, Benjamin F. Maier et al, https://arxiv.org/pdf/2510.08338
Como a amostra sintética na pesquisa B2B melhora a qualidade dos dados: 2024, Newton X, https://www.newtonx.com/article/synthetic-sample-b2b-research-data-quality/#:~:text=Nossos%20testes%20compared%20três%20independente,para%20the%20same%20audience%20specs
Relatório de banco de dados: Twin-2K-500: um conjunto de dados para construir gêmeos digitais de mais de 2.000 pessoas com base em suas respostas a mais de 500 perguntas: 2025, Olivier Toubia et al, https://pubsonline.informs.org/doi/10.1287/mksc.2025.0262
Se você tiver links para artigos que analisam dados sintéticos, sejam eles positivos, negativos ou mistos, envie-me um link para eles por e-mail. Quero criar uma lista mais longa e completa.
Existem muitas preocupações válidas sobre dados sintéticos. As principais preocupações, IMHO, são:
- Como podem os compradores avaliar o que estão a comprar e como podem comparar os riscos com outras soluções?
- Como avaliamos os resultados dos dados sintéticos? Demasiada atenção neste momento é colocada nos meios. Eu gostaria de ver algo mais profundo.
- Como podemos garantir que dados novos e de qualidade sejam adicionados e como podemos garantir que os dados sintéticos não se tornem um contributo para futuros dados sintéticos? A alimentação de dados sintéticos na criação de dados sintéticos pode causar desvios e colapso e deve ser evitada.
- Dado que os testes padrão de significância estatística não funcionam com dados sintéticos, o que deveríamos usar?
A Esomar reconhece que estão sendo utilizados dados sintéticos; na verdade, muitos artigos foram apresentados nas Conferências Esomar sobre seu uso. A Esomar emitiu orientações sobre certos tipos de dados sintéticos e publicará mais em breve. Você pode verificar o que Esomar diz clicando aqui.
Dados sintéticos em todas as suas formas (boosts, personas, gêmeos digitais, etc.) estão sendo usados por uma ampla gama de clientes inteligentes. Esses clientes descobriram onde as opções atuais podem ser usadas e onde devem ser evitadas.
Os principais benefícios que esses clientes estão obtendo são a velocidade e a capacidade de conduzir pesquisas que de outra forma não teriam sido feitas.
Tenho a sensação de que os dados sintéticos já são maiores que o CATI como meio. Suspeito que dentro de alguns anos poderemos ver 10% a 20% dos projetos utilizando algum nível de dados sintéticos.
É evidente que há coisas que os actuais dados sintéticos não conseguem fazer. Vemos repetidos ensaios que fazem comentários sobre a fraqueza dos dados sintéticos na captura e reprodução da empatia. Os compradores precisam ter cuidado: eles precisam verificar se o que estão comprando é adequado à finalidade e avaliar os sistemas.