Yegor Kraev e Alexandre Poliakov
Suponha que você queira enviar um e-mail para seus clientes ou fazer uma modificação na interface de usuário voltada para o cliente e tenha diversas variantes para escolher. Porquê escolher a melhor opção?
A maneira ingênua seria executar uma Teste A/B/Nmostrando cada versão para uma subamostra aleatória de seus clientes e escolhendo aquela que obtém a melhor resposta média. No entanto, isso trata todos os seus clientes uma vez que tendo as mesmas preferências e implicitamente considera as diferenças entre os clientes uma vez que mero soído a ser calculado. Podemos fazer melhor do que isso e escolher a melhor versão para mostrar a cada cliente, uma vez que uma função de suas características observáveis?
Quando se trata de estimar os resultados de um experimento, o verdadeiro repto está em medir o impacto comparativo de cada versão com base em características observáveis do cliente. Isso não é tão simples quanto parece. Não estamos interessados exclusivamente no resultado de um cliente com características específicas recebendo uma versão específica, mas no impacto dessa versão, que é a diferença no resultado em confrontação a outra versão.
Ao contrário do resultado em si, o impacto não é diretamente observável. Por exemplo, não podemos enviar e não enviar exatamente o mesmo e-mail para o mesmo cliente. Isso representa um repto significativo. Porquê podemos resolver isso?
Sua visita nos ajuda a continuar oferecendo o melhor para você! nz oa ob oc od gn bk">A resposta vem em dois níveis: primeiro, uma vez que podemos atribuir variantes para impacto sumo? E segundo, uma vez que escolhemos uma atribuição, uma vez que podemos medir melhor seu desempenho em confrontação com a atribuição puramente aleatória?
A resposta para a segunda pergunta acaba sendo mais fácil do que a primeira. A maneira ingênua de fazer isso seria dividir seu grupo de clientes em dois, um com atribuição de variantes puramente aleatórias e outro com sua melhor chance de atribuição para impacto sumo — e confrontar os resultados. No entanto, isso é um desperdício: cada um dos grupos é exclusivamente metade do tamanho totalidade da modelo, portanto seus resultados médios são mais barulhentos; e os benefícios de uma atribuição mais direcionada são aproveitados por exclusivamente metade dos clientes na modelo.
Felizmente, existe uma maneira melhor: primeiro, você deve fazer sua tarefa direcionada um tanto aleatória também, exclusivamente tendenciosa em relação ao que você acha que é a melhor opção em cada caso. Isso é razoável, pois você nunca pode ter certeza do que é melhor para cada cliente em privado; e permite que você continue aprendendo enquanto colhe os benefícios do que você já sabe.
Em segundo lugar, ao reunir os resultados desse experimento, que utilizou uma política de atribuição de variantes específica, você pode usar uma técnica estatística chamada Entrar em erupção ou valor de política para obter uma estimativa recto do resultado médio de qualquer outra política de atribuição, em privado de variantes de atribuição aleatória. Parece mágica? Não, exclusivamente matemática. Confira o caderno em Noções básicas sobre ERUPT para um exemplo simples.
Ser capaz de confrontar o impacto de diferentes atribuições com base em dados de um único experimento é ótimo, mas uma vez que descobrimos qual política de atribuição é a melhor? Cá novamente, Sintonia Causal vem ao resgate.
Porquê resolvemos o repto que mencionamos supra, de prezar a diferença no resultado de mostrar diferentes variantes para o mesmo cliente — que nunca podemos observar diretamente? Tais estimativas são chamadas modelagem de elevaçãoa propósito, que é um tipo privado de modelagem causal.
A maneira ingênua seria tratar a versão mostrada a cada cliente uma vez que exclusivamente mais uma particularidade do cliente e ajustar seu padrão de retorno predilecto, uma vez que XGBoostno conjunto resultante de recursos e resultados. Logo você pode observar o quanto a previsão do padrão ajustado para um determinado cliente muda se mudarmos exclusivamente o valor do “recurso” versão, e usar isso uma vez que estimativa de impacto. Essa abordagem é conhecida uma vez que Novel S. É simples, intuitivo e, em nossa experiência, tem um desempenho sempre horroroso.
Você pode se perguntar, uma vez que sabemos que ele tem um desempenho horroroso se não podemos observar o impacto diretamente? Uma maneira é olhar para dados sintéticos, onde sabemos a resposta certa.
Mas há uma maneira de estimar a qualidade de uma estimativa de impacto em dados do mundo real, onde o valor verdadeiro não é sabido em nenhum caso oferecido? Acontece que há, e acreditamos que nossa abordagem seja uma tributo original nessa dimensão. Vamos considerar um caso simples quando há exclusivamente duas variantes — controle (sem tratamento) e tratamento. Logo, para um determinado conjunto de estimativas de impacto de tratamento (vindo de um padrão específico que desejamos estimar), se subtrairmos essa estimativa dos resultados reais da modelo tratada, esperaríamos ter exatamente a mesma distribuição de combinações (características, resultados) para as amostras tratadas e não tratadas. Enfim, elas foram amostradas aleatoriamente da mesma população! Agora, tudo o que precisamos fazer é quantificar a similaridade das duas distribuições, e temos uma pontuação para nossa estimativa de impacto.
Agora que você pode pontuar diferentes modelos de elevação, você pode fazer uma pesquisa sobre seus tipos e hiperparâmetros (que é exatamente o que Sintonia Causal é para) e selecione o melhor estimador de impacto.
Sintonia Causal suporta duas dessas pontuações no momento, Entrar em erupção e intervalo de vigor. Para mais detalhes, consulte o original Item CausalTune.
Porquê você usa isso na prática para maximizar o resultado desejado, uma vez que taxas de cliques?
Primeiro, você seleciona sua população totalidade de clientes endereçáveis e a divide em duas partes. Você começa executando um experimento com uma atribuição de versão totalmente aleatória ou alguma heurística baseada em suas crenças anteriores. Cá é crucial que, não importa quão fortes sejam essas crenças, você sempre deixe alguma aleatoriedade em cada atribuição dada — você deve exclusivamente ajustar as probabilidades de atribuição uma vez que uma função das características do cliente, mas nunca deixá-las colapsar em atribuições determinísticas — caso contrário, você não conseguirá aprender tanto com o experimento!
Uma vez que os resultados desses primeiros experimentos estejam disponíveis, você pode, primeiramente, usar Entrar em erupção conforme descrito supra, para prezar a melhoria no resultado médio que sua atribuição heurística produziu em confrontação com totalmente aleatória. Mas, mais importante, agora você pode ajustar Sintonia Causal nos resultados do experimento, para produzir estimativas de impacto reais em função das características do cliente!
Você portanto usa essas estimativas para gerar uma novidade e melhor política de atribuição (escolhendo para cada cliente a versão com a estimativa de maior impacto ou, melhor ainda, usando Amostragem de Thompson para continuar aprendendo ao mesmo tempo em que usa o que você já sabe) e usar isso para um segundo experimento, no restante da sua população endereçável.
Finalmente, você pode usar Entrar em erupção com base nos resultados desse segundo experimento para mandar o desempenho superior da sua novidade política em relação ao aleatório, muito uma vez que em relação à sua política heurística anterior.
Trabalhamos na equipe de ciência de dados da Wise e temos muitos exemplos práticos de uso de inferência causal e modelos de elevação. Cá está uma história de uma emprego inicial na Wise, onde fizemos praticamente isso. O objetivo da campanha de e-mail era recomendar aos clientes existentes da Wise o próximo resultado nosso que eles deveriam testar. A primeira vaga de e-mails usou um padrão simples, onde para clientes existentes nós olhamos para a sequência dos primeiros usos de cada resultado que eles usam, e treinamos um padrão de aumento de gradiente para prever o último elemento naquela sequência, dados os elementos anteriores, e nenhum outro oferecido.
Na campanha de e-mail subsequente, usamos a previsão desse padrão para enviesar as atribuições e obtivemos uma taxa de cliques de 1,90% — em confrontação com 1,74% que uma atribuição aleatória nos teria oferecido, de consonância com o Entrar em erupção estimativa dos resultados do mesmo experimento.
Nós portanto treinamos Sintonia Causal nesses dados e o resultado fora da modelo Entrar em erupção a previsão era 2,18%, 2,22% usando o Amostragem de Thompson — um algoritmo usado para problemas de tomada de decisão, onde as ações são tomadas em uma sequência. O algoritmo deve encontrar um estabilidade entre alavancar o conhecimento existente para otimizar o desempenho súbito e explorar novas possibilidades para reunir informações que podem levar a Sua visita nos ajuda a continuar oferecendo o melhor para você! resultados futuros. Uma melhoria de 25% comparado à atribuição aleatória!
Estamos agora a preparar a segunda vaga dessa experiência para ver se os ganhos previstos por Entrar em erupção se materializará nas taxas de cliques reais.
Sintonia Causal oferece a você um kit de ferramentas individual e inovador para segmentação ideal de clientes individuais para maximizar o resultado desejado, uma vez que taxas de cliques. Nosso AutoML para estimadores causais permite prezar de forma confiável o impacto de diferentes variantes no comportamento dos clientes e o Entrar em erupção O estimador permite que você compare o resultado médio do experimento real com o de outras opções de atribuição, fornecendo a você uma mensuração de desempenho sem qualquer perda no tamanho da modelo.
Tags:
Crédito: Manadeira Original