Blog de Marketing Digital de Resultados

Como saber a hora de parar um Teste A/B

Testes A/B são muito úteis para identificar se variações em uma página podem trazer melhores resultados. Sejam essas variações o texto, as imagens, o layout ou mesmo campos de um formulário, o resultado final é muitas vezes surpreendente.

Embora durante o teste já seja possível mensurar resultados parciais e perceber que há uma diferença de resultados entre as variações, é um erro já tomar essas informações como verdadeiras. Muitas vezes os resultados parciais podem não representar o comportamento real de toda a população e o teste não é confiável estatisticamente.

Se você ainda não está familiarizado com os testes A/B, sugerimos ler nosso post introdutório sobre o assunto: O que são A/B Tests e como escolhê-los.

Neste post, iremos ensinar a medir de forma prática a relevância estatística de um teste A/B e explicar a importância de se tomar uma decisão apenas quando há boa confiabilidade no teste que está sendo realizado.

O que é Intervalo de Confiança?

Imagine que você queira testar se uma moeda é ou não tendenciosa para jogar cara ou coroa. Teoricamente, se você jogar essa moeda 200 vezes, metade das vezes deverá ser cara, e metade coroa, certo?

Você então resolve fazer o teste e observa que tirou cara 116 vezes, ou 58% das vezes. Com esse resultado, você pode dizer, com confiança, que a moeda é tendenciosa?

Para responder a esta pergunta, a estatística nos dá uma maneira de quantificar a confiança que podemos ter nesse teste. O chamado intervalo de confiança indica a probabilidade que a variação entre o controle (50% cara) e o experimento (58% cara) de fato representarem toda a população, ao invés de um segmento tendencioso (e portanto irreal) escolhido por mera casualidade .

No exemplo que demos, o resultado de 58% cara possui um intervalo de confiança de aproximadamente 90%, índice considerado baixo estatisticamente. Significa dizer que existe 90% de chance de os resultados representarem de fato a realidade e não a influência de algum acaso.

Apesar de parecer alto, esse índice não é considerado estatisticamente confiável, ou seja, pode dar uma falsa impressão de diferença. Recomenda-se para dar um experimento como válido um intervalo de confiança de 95% ou mais, sendo 99% um ótimo índice.

Como funciona o intervalo de confiança na prática e por que você deve tomar decisões apenas quando tiver dados relevantes

Nos testes A/B, acontece o mesmo cenário que vimos acima: há uma página com uma determinada taxa conhecida de conversão (controle), e outra página com algum elemento que foi substituído ou alterado (experimento), que queremos testar e descobrir se a taxa de conversão é ou não maior.

Quando você conduz um teste em uma Landing Page, por exemplo, e conclui que a experiência foi positiva mesmo com um baixo intervalo de confiança, deixa margem para que a alteração vá ao ar sem que os resultados se mantenham no patamar esperado. Pior ainda, pode ter informações menos completas ou em volume menor a troco de nada.

Por exemplo, considere que resolvemos testar uma Landing Page com um formulário sem o campo de telefone e obtivemos o seguinte resultado:

Teste A/B

Neste cenário, o intervalo de confiança é de aproximadamente 90%. Como já dissemos, esse valor não oferece relevância estatística.

Se considerarmos o teste como completo, é possível que nas novas Landing Pages, sem o campo de telefone no formulário, a taxa de conversão seja mais próxima do que era observada anteriormente e sua empresa perde uma informação interessante sem ganhar um volume maior de conversões em troca.

Já se a diferença entre as taxas de conversão for maior, também será o intervalo de confiança, o que dá mais relevância estatística ao teste:

Teste A/B

Neste caso, a Landing Page sem o campo de telefone no formulário possui praticamente 100% de chance de superar a página com o campo.

Para calcular o intervalo de confiança de maneira simples, recomendamos calculadora de A/B Tests do UserEffects.

Marcadores:

Deixe seu comentário