Os dados sintéticos podem substituir os métodos tradicionais de pesquisa? É tudo uma questão de dados iniciais. Cint ™

Inaugurando a era dos dados sintéticos e da modelagem sintética

À medida que cresce a procura por insights mais rápidos, a indústria de investigação de mercado recorre cada vez mais a modelos de dados sintéticos para obter apoio. Esses modelos geram novos dados que refletem as propriedades estatísticas e os comportamentos dos entrevistados humanos do mundo real.

Embora haja muito entusiasmo em torno do uso de dados sintéticos, deve-se ter em mente que o sucesso de modelos desse tipo depende quase inteiramente da qualidade dos dados de treinamento que foram alimentados. Sem treinamento robusto e de alta qualidade conjuntos de dadosessas ferramentas correm o risco de produzir insights tendenciosos ou imprecisos.

Conversamos com Imran Anjam, cientista de dados sênior da Cint, para descobrir a importância fundamental de insights humanos de alta qualidade na construção de dados sintéticos.

O que são dados iniciais no contexto de modelos de dados sintéticos?

Colocado em termos mais simples possíveis, os dados iniciais são essencialmente aquilo com que você começa como pesquisador. Anjam compara isso a uma semente que, quando nutrida com cuidado, eventualmente se transforma em uma árvore.

“Dados iniciais pode ser literalmente qualquer coisa – qualquer dado que você coletou de qualquer lugar. Poderia ser uma pesquisa realizada no Cint Exchangepor exemplo, ou os padrões de uso de um usuário em uma plataforma específica”, diz Anjam. “O principal é que é algo que precisa ser real.”

“Dados iniciais pode ser literalmente qualquer coisa – qualquer dado que você coletou de qualquer lugar. Pode ser uma pesquisa realizada no Cint Exchange, por exemplo, ou os padrões de uso de um usuário em uma plataforma específica, O principal é que é algo que precisa ser real.“

Imran Anjam
Cientista de dados sênior, Cint

O modelo é treinado nesses dados, permitindo insights derivados sinteticamente que os pesquisadores podem utilizar como parte de seus estudos.

Os dados sintéticos algum dia substituirão verdadeiramente os entrevistados humanos?

Um dos grandes pontos de discussão na pesquisa de mercado contemporânea é a probabilidade de os dados sintéticos suplantarem totalmente a necessidade de qualquer tipo de resposta humana.

Nesta frente, Anjam é saudávelmente cético. “Acho que sempre terá que haver algum tipo de dados iniciais entrando em qualquer modelo sintético para dar-lhe fundamento.” Os dados iniciais fornecem aos modelos sintéticos o contexto de que os usuários precisam para revalidar sua precisão ou determinar se eles precisam de ajuste fino.

Como os dados sintéticos basicamente extraem padrões de existente dados, a qualidade desses dados de sementes agora se torna exponencialmente muito mais importante.

Como os dados sintéticos basicamente extraem padrões de existente dados, a qualidade desses dados de sementes agora se torna exponencialmente muito mais importante.

“Se você tiver uma amostra de baixa qualidade, você desenhará seus padrões a partir de que amostra”, diz Anjam. “Efetivamente, você obterá padrões sintéticos de qualidade inferior. Com dados de alta qualidade, você obtém padrões de alta qualidade e insights mais verdadeiros.”

Como os dados iniciais impedem que os modelos sintéticos tenham alucinações?

Qualquer pessoa que já tenha passado algum tempo usando uma ferramenta generativa de IA — e nosso relatório recente sobre o uso de IA em casa e no escritório sugere que muitos de vocês que estão lendo isto provavelmente já o fizeram – terão experimentado sua ferramenta preferida ocasionalmente entrando no reino da alucinação.

“O problema com os grandes modelos de linguagem (LLMs) é o fato de que eles estão sempre dispostos a fornecer uma resposta ao usuário. Pense nisso como ter um funcionário que é incrivelmente versado em um nicho muito específico”, diz Anjam. “Faça-lhes perguntas sobre esse nicho e eles serão capazes de responder com profundidade e precisão. No entanto, se você perguntar a eles sobre algo sobre o qual eles não sabem muito, você receberá uma de duas respostas: eles admitirão que não sabem o suficiente para responder ou farão algumas suposições imediatas.”

No contexto dos LLMs, é este último que pode induzir alucinações.

Anjam continua: “Quando os LLMs carecem de dados iniciais e contexto suficientes, a sua natureza orientada para a probabilidade torna-se um risco. Nos bastidores, eles geram uma série de respostas potenciais e selecionam aquela com a maior probabilidade”.

Se um modelo gerar três respostas avaliadas como 70%, 80% e 90% precisas, ele fornecerá com segurança a resposta de 90%. Por outro lado, se o LLM só puder gerar respostas com precisão de 10%, 20% e 30%, ele ainda produzirá a “melhor” opção, mesmo que possa ter apenas 30% de precisão.

Trazendo de volta ao domínio dos modelos de dados sintéticos, a chave para reduzir a quantidade de potenciais alucinações que um pesquisador pode experimentar reside em fornecer ao modelo o conjunto mais amplo possível de dados iniciais.

“Ao fornecer mais dados em diferentes cenários, somos capazes de fornecer o contexto necessário que fornece respostas mais precisas e menos propensas a alucinações.”

O que é a verdade básica e por que ela é importante para modelos de dados sintéticos?

Quando você está construindo qualquer tipo de modelo – sintético ou não – é fundamental que você tenha uma medida real de quão preciso ele é. Por exemplo, se você estiver construindo um modelo tradicional de aprendizado de máquina para prever vendas futuras, sua verdade seria suas vendas nos próximos dias. Você faz uma previsão hoje e depois vê como será a próxima semana. A próxima semana de dados de vendas coletados é a sua verdade. É exatamente o que você está tentando replicar da melhor maneira possível.

Visualização em mosaico de um retrato humano contra um fundo roxo, ilustrando a simulação de pontos de dados humanos detalhados e o mascaramento de identidade por meio de modelagem estruturada de dados.

Quais são as maiores oportunidades para modelos de dados sintéticos?

“A maior oportunidade imediata no espaço de dados sintético é velocidade e escala. Hoje, as marcas querem insights muito mais rápidos, muitas vezes em tempo real”, afirma Anjam.

Qualquer pessoa envolvida — mesmo que tangencialmente — no processo de pesquisa sabe que os métodos tradicionais de pesquisa podem consumir muito tempo. As pesquisas vão para o campo, os pesquisadores têm que esperar pelas respostas e pelo tráfego dos fornecedores, e os dados resultantes devem então ser limpos. “Os modelos sintéticos proporcionam um valor extraordinário ao fornecer esses insights quase imediatamente, ou pelo menos em uma fração do tempo”, afirma Anjam.

Para o nosso cientista de dados, outra grande oportunidade é o potencial dos dados sintéticos para superar os desafios e limitações inerentes ao trabalho de campo de inquérito tradicional, incluindo a mitigação de preconceitos resultantes da concepção do inquérito ou de erros na segmentação.

Quais são os maiores desafios quando se trata de dimensionar modelos de dados sintéticos?

Tal como acontece com qualquer tecnologia emergente, a concretização de todo o potencial dos dados sintéticos exige a eliminação de alguns obstáculos. Na opinião de Anjam, há uma área fundamental que precisa ser abordada.

“O maior desafio que a indústria enfrenta quando se trata de ampliar modelos de dados sintéticos é a validação da verdade básica”, diz Anjam. “Tentar entender exatamente o que as pessoas pensam em grande escala nem sempre é a tarefa mais fácil.”

Em teoria, o sentido mais enraizado da verdade básica é um censo, que amostra toda a população. No entanto, um censo faz um número limitado de perguntas e só é realizado a cada poucos anos; as pesquisas tentam efetivamente replicar isso em menor escala. Vista através desta lente, a questão da ampliação bem-sucedida de modelos sintéticos está relacionada com a prova de que esses modelos superaram as limitações do desenho da pesquisa, a fim de estabelecer formas precisas, confiáveis e representativas de verdade básica.

“Na corrida para construir o melhor modelo sintético, todos tentam cruzar a linha de chegada primeiro. O vencedor será quem conseguir provar definitivamente que superou o desafio. viés amostral e desvios observados em pesquisas tradicionais”, diz Anjam. “Em última análise, esse continua sendo o desafio mais significativo para os dados sintéticos no momento.”

Conecte-se com Cint

Quer saber mais sobre como você pode obter valor adicional com seus dados de pesquisa?