teste A/B como fazer

Q: Qual é a diferença entre p-value e confiança estatística?

p-value = probabilidade de resultado ser acaso. p-value < 0.05 = resultado tem <5% chance ser acaso = 95% confiança. São inversos.

Q: Quantas variações devo testar simultaneamente?

Máximo 2-3. A vs B é padrão. A vs B vs C requer 1.5x mais amostra. 4+ variações requer exponencialmente mais dados.

Q: Teste A/B vai funcionar com 173 visitantes/mês?

Sim, mas com baixa confiança (70-80%). Aceite como exploratório. Quando tráfego crescer para 500+, confiança sobe para 95%+.

Q: Posso testar mudanças radicais (ex: redesign completo)?

Sim, mas com cuidado. Mudanças radicais confundem muitas variáveis. Melhor fazer testes incrementais, não tudo de uma vez.

Você está sacralizando sua landing page como verdade religiosa. Título, cor do botão, tamanho da fonte — tudo foi definido uma vez e nunca muda. Erro. Teste A/B sistemático é como dar 3-5% de aumento de conversão “grátis”. Uma mudança de cor de botão de azul para vermelho pode parecer trivial, mas em alta escala, significa R$ 500-2000/mês em revenue extra. Este é o segredo que SaaS, e-commerce e agências usam para otimizar marketing continuamente.

O desafio de atraca.com.br é simples: 173 visitantes/mês com 98.8% taxa de rejeição. Não pode apenas confiar em intuição (“Acho que vermelho vai converter melhor”). Precisa de dados. Testes A/B baseados em significância estatística são o método científico para provar o que funciona versus o que é anedota.

Teste A/B em 30 segundos (resumo rápido)

Método: Mostrar versão A para metade, versão B para outra metade. Medir taxa de conversão. Amostra deve ser estatisticamente significante (95%+ confiança).
Significância Estatística: Diferença de conversão precisa ser > 25% entre A e B (não apenas 2-3% que pode ser acaso). Exemplo: A=10%, B=12.5% = mudança marginal; A=10%, B=15% = significante.
Tamanho de Amostra: Com 173 visitantes/mês, teste válido requer 2-4 meses. Com 1000+ visitantes/mês, 2-4 semanas.
O Que Testar: Headlines, CTA button (cor/texto), form fields (quantos campos?), proposição de valor, imagens.
ROI: Um teste bem-sucedido = 3-15% aumento conversão = R$ 100-1000/mês extra. 10 testes/ano = retorno exponencial.

Entender Significância Estatística

Este é o conceito que separa data-driven de opinião. Sem significância estatística, você pode estar vendo acaso, não padrão real.

Exemplo Prático

Sua landing page recebe 100 visitantes/mês. Taxa de conversão atual (baseline): 5% (5 conversões).

Você testa nova headline. Resultado:

Cenário 1 (Acaso): 6 conversões (6%). Mudança de +20%. Parece bom, mas amostra é pequena (100 visitantes). Com p-value = 0.45, isso é 45% de chance de ser acaso.
Cenário 2 (Real): Com 1000 visitantes: Grupo A = 50 conv (5%), Grupo B = 85 conv (8.5%). Mudança de +70%. p-value = 0.001, ou seja, 99.9% confiança de ser real (não acaso).

A regra é: Precisão aumenta com tamanho de amostra. 100 visitantes = impreciso. 1000+ = preciso.

Nível de Confiança Desejável

95% confiança (padrão científico): p-value < 0.05. Significa: há 95% de chance de essa mudança ser real, 5% de chance ser acaso.
90% confiança (aceitável para marketing): p-value < 0.10. Menos rigoroso, mas pragmático para negócios.
<90% confiança: Não confie. Pode ser acaso.

Calculador de Tamanho de Amostra

Antes de começar teste, saiba: quantos visitantes preciso para detectar mudança significante?

Use Evan Miller’s A/B Test Calculator (evanmiller.org/ab-testing/sample-size.html):

Baseline conversion rate: 5%
Improvement you want to detect: 30% (ou seja, de 5% para 6.5%)
Statistical significance: 95%
Resultado: 5,000 visitantes totais (2,500 por grupo)

Interpretação: Seu site tem 173 visitantes/mês = ~21 meses para esse teste. Não realista. Solução: ou aceitar menor confiança (digamos 80%), ou testar mudanças mais radicais (50%+ mudança, menos visitantes necessárias).

Isso explica por que sites com alto tráfego (10,000+ visitantes/mês) podem fazer testes semanais, mas blogs pequenos precisam de testes mensais.

Passo 1: Definir Hipótese

Antes de criar versão B, escreva uma hipótese clara:

ERRADO: “Testar cor do botão”

CORRETO: “Hipótese: botão vermelho vai ter taxa de clique 30% maior que azul porque vermelho cria senso de urgência. Meta: 7.5% CTR (aumento de 5% baseline).”

A hipótese:

Deve ter base (por quê essa mudança ajudará?)
Deve ter métrica clara (CTR, conversão, tempo no site)
Deve ter duração fixa (2 semanas, 4 semanas, não “até parecer significante”)

O Que Vale a Pena Testar

Priorize por impacto potencial:

Elemento	Impacto Típico	Facilidade de Testar	Prioridade
Headline (H1)	10-30% mudança conversão	Fácil	CRÍTICO
CTA Button (texto)	5-25%	Muito fácil	CRÍTICO
CTA Button (cor)	3-15%	Muito fácil	Importante
Form fields (#)	15-40%	Fácil	CRÍTICO
Hero image/video	5-20%	Médio	Importante
Copy do 2º parágrafo	3-10%	Médio	Útil
Proposição de valor	10-35%	Médio	CRÍTICO
Cor de fundo	1-5%	Fácil	Opcional

Recomendação para Atraca: Comece com headline (maior impacto, fácil de testar). Depois, número de form fields (3 vs 5 campos). Depois, CTA button texto/cor.

Exemplo Prático: Teste de Headlines

Setup

Landing page atual: “Guia Completo de Mautic”

Hipótese: Headlines mais específicas e resultado-orientadas convertem melhor.

Variações:

A (Control): “Guia Completo de Mautic”
B (Test): “Economize R$ 2000/Mês em Marketing Automation com Mautic”
C (Test): “De 0 para 100: Implemente Mautic em 30 Dias (Passo a Passo)”

Distribuição de Tráfego

50% → Headline A
25% → Headline B
25% → Headline C

(Ou simples: 50% A, 50% B; adicione C depois)

Duração

Com 173 visitantes/mês = ~26 visitantes/semana. Teste de 4 semanas = ~104 visitantes por variante. Nível de confiança será baixo (70-80%), mas é o máximo possível. Aceite como exploratório.

Métricas a Rastrear

Taxa de clique no CTA (% que clicaram)
Taxa de submissão do formulário
Tempo na página (engagement proxy)
Bounce rate

Resultado Esperado (Fictício)

Headline	Visitantes	CTAs Clicados	Taxa	Conclusão
A (Control)	52	3	5.8%	Baseline
B (Resultados)	26	4	15.4%	+165% (significante!)
C (Passo-a-passo)	26	3	11.5%	+99% (talvez)

Conclusão: Headline B venceu. Aumentar amostra para confirmar (continuar testando por mais 2-4 semanas). Depois, mude todos para Headline B.

Ferramentas de Teste A/B

Ferramentas Gratuitas/Low-Cost

Ferramenta	Preço	Caso de Uso
Google Optimize (legado, 2023)	Grátis (deprecado; suporte até 2024)	Testes em Google Analytics (era padrão)
Visual Website Optimizer (VWO)	$99-299/mês	Testes visuais simples, bom custo-benefício
Unbounce	$69-319/mês	Landing pages pré-built com testes embutidos
Instapage	$199+/mês	Enterprise, testes avançados
Mautic Campaigns (nativo)	Incluso Mautic	Testes de email A/B (subject, copy)
Calculador Evan Miller	Grátis	Calcular tamanho de amostra (não faz o teste)

Recomendação para Atraca

Comece grátis/manual: use Google Analytics + Mautic campaigns. Configure 2 versões de landing page, redirecione 50% tráfego para cada via Mautic, monitore conversões manualmente. Quando tráfego crescer (500+/mês), migre para VWO ou Unbounce.

Evitar Armadilhas Comuns

Armadilha 1: Parar Teste Cedo (“Peeking”)

Você vê que B tem 15% melhor taxa no dia 3 e já ativa. Erro. Testes precisam de duração fixa. Parar cedo cria selection bias.

Armadilha 2: Rodar Muitos Testes Simultaneamente

Se rodar 20 testes ao mesmo tempo, estatisticamente 1 deles será significante apenas por acaso. Limite a 1-2 testes por período.

Armadilha 3: Testar Coisas Menores

Cor de fundo terá impacto marginal. Teste elementos que realmente afetam decisão de compra (headline, proposição, número de campos, imagem).

Armadilha 4: Não Documentar Resultados

Mantenha planilha simples: Data, Elemento Testado, Versão A, Versão B, Resultado, Aprendizado. Construir biblioteca de conhecimento sobre seu público.

Roadmap de Testes para 6 Meses

Mês	Teste Prioridade 1	Teste Prioridade 2	Meta de Melhoria
1	Headlines (3 variações)	Proposição de valor	+15% CTR
2	Form fields (3 vs 5 campos)	CTA button cor	+10% submissões
3	CTA button texto	Hero imagem (foto vs vídeo)	+8% conversão
4	Testar oferta/incentivo	Ordem de elementos	+12% conversão
5-6	Replicar winners de meses 1-4	Testes exploratórios	Acumular +60%

Perguntas Frequentes (FAQ)

Qual é a diferença entre p-value e confiança estatística?

p-value = probabilidade de resultado ser acaso. p-value < 0.05 = resultado tem <5% chance ser acaso = 95% confiança. São inversos; p-value 0.05 = confiança 95%.

Quantas variações devo testar simultaneamente?

Máximo 2-3 por teste. A vs B é o padrão. A vs B vs C é possível, mas requer 1.5x mais amostra. 4+ variações requer exponencialmente mais dados.

Teste A/B vai funcionar com 173 visitantes/mês?

Tecnicamente sim, mas com baixa confiança (70-80%). Aceite como exploratório. Quando tráfego crescer para 500+, confiança sobe para 95%+. Vale começar agora; refinamentos virão com escala.

Posso testar mudanças radicais (ex: redesign completo)?

Sim, mas com cuidado. Mudanças radicais confundem muitas variáveis. Melhor fazer testes incrementais. Se redesign é necessário, teste headline + form fields + botão, não tudo junto.

Por quanto tempo devo manter um teste rodando?

Até atingir significância estatística (95% confiança) E rodar pelo menos 1-2 ciclos completos (1-2 semanas). Mínimo: 2 semanas. Ideal: 4 semanas.

teste A/B como fazer