12 errores en las pruebas A / B que veo todo el tiempo
Publicado: 2021-07-22Las pruebas A / B son divertidas. Con tantas herramientas fáciles de usar, cualquiera puede y debe hacerlo. Sin embargo, hay más que configurar una prueba. Toneladas de empresas están perdiendo tiempo y dinero.
Aquí están los 12 errores de prueba A / B que veo que la gente comete una y otra vez.
- Llamar temprano a las pruebas A / B;
- No realizar pruebas durante semanas completas;
- Realización de pruebas A / B sin suficiente tráfico (o conversiones);
- No basar las pruebas en una hipótesis;
- No enviar datos de prueba a Google Analytics;
- Perder tiempo y tráfico en pruebas estúpidas;
- Rendirse después de que falla la primera prueba;
- No comprender los falsos positivos;
- Ejecutar varias pruebas al mismo tiempo en tráfico superpuesto;
- Ignorar las pequeñas ganancias;
- No realizar pruebas todo el tiempo;
- No tener conocimiento de las amenazas de validez.
¿Eres culpable de cometer estos errores? Siga leyendo para averiguarlo.
1. Llamar temprano a las pruebas A / B
La significación estadística es la mejor evidencia de que la Versión A es en realidad mejor que la Versión B, si el tamaño de la muestra es lo suficientemente grande. El cincuenta por ciento de significancia estadística es un lanzamiento de moneda. Si solicita pruebas al 50%, debería cambiar de profesión. Y no, el 75% de confianza estadística tampoco es suficiente.
Cualquier tester experimentado ha tenido muchas experiencias en las que una variación "ganadora" con un 80% de confianza termina perdiendo mucho después de ser empujado en vivo a un sitio y expuesto a más tráfico.
¿Qué pasa con el 90%? Eso es bastante bueno, ¿verdad? No. No es suficiente. Estás realizando un experimento científico. Sí, quieres que sea verdad. Quieres que el 90% gane, pero obtener la verdad es más importante que declarar a un ganador.
Verdad> "ganar"
Como optimizador, su trabajo es descubrir la verdad. Tienes que dejar tu ego a un lado. Es humano apegarse a su hipótesis o tratamiento de diseño, y puede doler cuando sus mejores hipótesis no son significativamente diferentes. Estuve allí, hice eso. La verdad sobre todo, o todo pierde sentido.
Planificación de pruebas A / B: cómo crear un proceso que funcione
Un sólido plan de pruebas A / B le permitirá aumentar sus ingresos y conocer información valiosa sobre sus clientes.
Este es un escenario común, incluso para las empresas que realizan muchas pruebas: ejecutan una prueba tras otra durante 12 meses, declaran un grupo de ganadores y los implementan. Un año después, la tasa de conversión de su sitio es la misma que cuando comenzaron. Pasa todo el maldito tiempo.
¿Por qué? Porque las pruebas se llaman demasiado pronto y / o los tamaños de muestra son demasiado pequeños. Aquí hay una explicación más larga sobre cuándo detener una prueba A / B, pero en pocas palabras, debe cumplir con tres criterios antes de poder declarar una prueba realizada:
- Tamaño de muestra suficiente. Disponemos de datos suficientes para realizar una llamada. Debe calcular previamente el tamaño de la muestra con una calculadora de tamaño de muestra de prueba A / B.
- Múltiples ciclos de venta (2 a 4 semanas). Si detiene la prueba dentro de unos días (incluso después de alcanzar el tamaño de muestra requerido), está tomando una muestra conveniente , no una muestra representativa .
- Significación estadística de al menos el 95% (valor de p de 0,05 o menos) . Nota: El valor p no nos dice la probabilidad de que B sea mejor que A. Aprenda todo sobre los valores p aquí.
Aquí hay un viejo ejemplo para ilustrar mi punto. Dos días después de comenzar una prueba, estos fueron los resultados:
La variación que construí estaba perdiendo mucho, en más del 89% (sin superposición en el margen de error). Algunas herramientas ya lo llamarían y dirían que la significancia estadística era del 100%. El software que utilicé dijo que la Variación 1 tenía un 0% de posibilidades de superar el control. Mi cliente estaba dispuesto a dejarlo todo.
Sin embargo, dado que el tamaño de la muestra era demasiado pequeño (poco más de 100 visitas por variación), persistí. Así es como se veían los resultados 10 días después:
Así es, la variación que tenía un "0%" de posibilidades de superar el control ahora ganaba con un 95% de confianza.
Tenga cuidado con las herramientas de prueba A / B que "lo llaman temprano". Siempre verifique dos veces los números. Lo peor que puede hacer es confiar en datos inexactos. Perderá dinero y puede perder meses de trabajo.
¿Qué tamaño de muestra necesita?
No desea sacar conclusiones basadas en un tamaño de muestra pequeño. Un buen estadio es apuntar a al menos 350 a 400 conversiones por variación .
Puede ser menor en determinadas circunstancias, como cuando la discrepancia entre el control y el tratamiento es muy grande, pero los números mágicos no existen. No se quede atascado con un número. Esto es ciencia, no magia.
Debe calcular el tamaño de muestra necesario con anticipación utilizando calculadoras de tamaño de muestra como esta o similares.
¿Qué pasa si la confianza sigue estando por debajo del 95%?
Una vez que haya alcanzado el tamaño de muestra necesario y haya probado durante un ciclo comercial completo (o dos), significa que no hay una diferencia significativa entre las variaciones.
Verifique los resultados de la prueba en todos los segmentos para ver si se logró la importancia de un segmento en particular. Los grandes conocimientos se encuentran en los segmentos, pero también necesita un tamaño de muestra suficiente para cada segmento.
En cualquier caso, deberá mejorar su hipótesis y realizar una nueva prueba.
2. No realizar pruebas durante semanas completas
Digamos que tiene un sitio con mucho tráfico. Logra un 98% de confianza y 350 conversiones por variación en tres días. ¿Se hizo la prueba? No.
Necesitamos descartar la estacionalidad y probar durante semanas completas. ¿Empezaste la prueba el lunes? Entonces debes terminarlo también un lunes. ¿Por qué? Porque tu tasa de conversión puede variar mucho según el día de la semana.
Si no prueba una semana completa a la vez, está sesgando sus resultados. Ejecute un informe de "conversiones por día de la semana" en su sitio para ver cuánta fluctuación hay.
He aquí un ejemplo:
que ves aquí? Los jueves generan 2 veces más dinero que los sábados y domingos, y la tasa de conversión los jueves es casi 2 veces mejor que los sábados.
Si no probamos durante semanas completas, los resultados serían inexactos. Debe ejecutar pruebas durante siete días a la vez. Si no se logra la confianza en los primeros siete días, ejecútelo otros siete días. Si no se logra con 14 días, ejecútelo hasta el día 21.
Por supuesto, debe ejecutar sus pruebas durante un mínimo de dos semanas de todos modos. (Mi mínimo personal es de cuatro semanas, ya que dos semanas a menudo no son precisas). Luego, aplique la regla de los siete días si necesita extenderla.
La única vez que puede romper esta regla es cuando sus datos históricos dicen, con confianza, que la tasa de conversión es la misma todos los días. Pero, incluso entonces, es mejor probar una semana completa a la vez.
Presta atención a los factores externos.
Es navidad Es posible que su prueba ganadora durante las vacaciones no sea una ganadora en enero. Si tiene pruebas que ganan durante las temporadas de compras como Navidad, definitivamente querrá ejecutar pruebas repetidas después de que finalice la temporada de compras.
¿Está haciendo mucha publicidad en televisión o ejecutando otras campañas masivas? Eso también puede sesgar sus resultados. Debe estar al tanto de lo que está haciendo su empresa. Los factores externos definitivamente afectan los resultados de su prueba. En caso de duda, realice una prueba de seguimiento.
3. Realización de pruebas A / B sin suficiente tráfico (o conversiones)
Si obtiene una o dos ventas por mes y ejecuta una prueba en la que B convierte un 15% mejor que A, ¿cómo lo sabría? ¡Nada cambia!
Me encantan las pruebas divididas A / B tanto como cualquier otro, pero no es algo que deba usar para la optimización de conversiones si tiene muy poco tráfico. La razón es que incluso si la versión B es mucho mejor, puede llevar meses lograr la significación estadística.
Si su prueba tardó 5 meses en ejecutarse y no fue un éxito, desperdició mucho dinero. En cambio, debería optar por cambios masivos y radicales. Simplemente cambie a B. Sin pruebas, simplemente cambie y controle su cuenta bancaria.
La idea aquí es que vas a realizar ascensores masivos, como 50% o 100%. Debería notar ese tipo de impacto en su cuenta bancaria (o en la cantidad de clientes potenciales entrantes) de inmediato. El tiempo es dinero. No lo desperdicie esperando el resultado de una prueba que llevará meses.
4. No basar las pruebas en una hipótesis
Me gustan los espaguetis Pero prueba de espagueti, ¿arrojarlo contra la pared para ver si se pega? No tanto. Probar ideas aleatorias tiene un costo enorme. Está perdiendo un tiempo y tráfico valiosos. Nunca hagas eso. Necesitas tener una hipótesis. ¿Qué es una hipótesis?
Una hipótesis es una declaración propuesta hecha sobre la base de evidencia limitada que puede ser probada o refutada y se utiliza como punto de partida para una investigación adicional.
Esto tampoco debería ser una “hipótesis espagueti” (es decir, elaborar una declaración al azar). Necesita una investigación de conversión adecuada para descubrir dónde se encuentran los problemas y luego proponer una hipótesis para superarlos.
Si prueba A frente a B sin una hipótesis clara, y B gana en un 15%, está bien, pero ¿qué ha aprendido ? Nada. Queremos aprender sobre nuestra audiencia. Eso nos ayuda a mejorar nuestra teoría del cliente y a realizar pruebas aún mejores.
5. No enviar datos de prueba a Google Analytics
Los promedios mienten. Siempre recuerda eso. Si A vence a B en un 10%, esa no es la imagen completa. Necesita segmentar los datos de prueba. Muchas herramientas de prueba tienen una segmentación de resultados incorporada, pero aún no se compara con lo que puede hacer en Google Analytics.
Con Dimensiones o Eventos personalizados, puede enviar sus datos de prueba a Google Analytics y segmentarlos como desee. Puede ejecutar segmentos avanzados e informes personalizados en él. Es muy útil y así es como se aprende realmente de las pruebas A / B (incluidas las pruebas de pérdida y sin diferencias).
En pocas palabras: envíe siempre sus datos de prueba a Google Analytics. Y segmentar la basura de los resultados. Aquí hay una publicación sobre cómo hacerlo.
6. Perder tiempo y tráfico en pruebas estúpidas
Entonces estás probando colores, ¿eh? Detener.
No hay mejor color. Siempre se trata de una jerarquía visual. Claro, puede encontrar pruebas en línea donde alguien encontró ganancias al probar colores, pero todas son obvias. No pierda el tiempo probando cosas sin pensar; simplemente impleméntelo.
No tienes suficiente tráfico para probar todo. Nadie lo hace. Utilice su tráfico en cosas de alto impacto. Pruebe hipótesis basadas en datos.
7. Darse por vencido después de que falla la primera prueba
Configuró una prueba y no pudo producir un impulso. Oh bien. Intentemos ejecutar pruebas en otra página.
¡No tan rapido! La mayoría de las primeras pruebas fallan. Es cierto. Sé que estás impaciente, yo también, pero la verdad es que la prueba iterativa es donde está. Ejecuta una prueba, aprende de ella y mejora la teoría y las hipótesis de sus clientes. Ejecute una prueba de seguimiento, aprenda de ella y mejore sus hipótesis. Ejecute una prueba de seguimiento y así sucesivamente.
Aquí hay un caso de estudio en el que se necesitaron seis pruebas (en la misma página) para lograr un aumento con el que estábamos contentos. Así son las pruebas en la vida real. Las personas que aprueban los presupuestos de prueba (sus jefes, sus clientes) necesitan saber esto.
Si la expectativa es que la primera prueba lo sacará del estadio, el dinero se desperdiciará y la gente será despedida. No tiene por qué ser así. En cambio, puede ser mucho dinero para todos. Simplemente ejecute pruebas iterativas. Ahí es donde está el dinero.
8. No comprender los falsos positivos
La importancia estadística no es lo único a lo que hay que prestar atención. También debe comprender los falsos positivos. Los evaluadores impacientes quieren omitir las pruebas A / B y pasar a las pruebas A / B / C / D / E / F / G / H. ¡Sí, ahora estamos hablando!
¿Por qué detenerse ahí? ¡Google probó 41 tonos de azul! Pero esa no es una buena idea. Cuantas más variaciones pruebe, mayor será la probabilidad de un falso positivo. En el caso de 41 tonos de azul, incluso con un nivel de confianza del 95%, la probabilidad de un falso positivo es del 88%.
Mira este video. Aprenderás una cosa o tres:
La conclusión principal: no pruebes demasiadas variaciones a la vez. De todos modos, es mejor hacer pruebas A / B simples. Obtendrá resultados más rápido y aprenderá más rápido, mejorando su hipótesis antes.
9. Ejecución de varias pruebas al mismo tiempo en tráfico superpuesto
Ha encontrado una manera de tomar atajos ejecutando varias pruebas al mismo tiempo: una en la página del producto, una en la página del carrito, una en la página de inicio (mientras mide el mismo objetivo). Ahorra tiempo, ¿verdad?
Esto puede sesgar los resultados si no tiene cuidado. Probablemente esté bien a menos que:
- Sospecha fuertes interacciones entre las pruebas.
- Hay una gran superposición de tráfico entre las pruebas.
Las cosas se complican si es probable que existan interacciones y superposición de tráfico.
Si desea probar una nueva versión de varios diseños en el mismo flujo a la vez (por ejemplo, ejecutar pruebas en los tres pasos de su proceso de pago), es mejor que utilice experimentos de varias páginas o pruebas multivariadas para medir las interacciones y atribuir los resultados correctamente. .
Si decide ejecutar pruebas A / B con tráfico superpuesto, tenga en cuenta que el tráfico siempre debe dividirse de manera uniforme. Si prueba la página de producto A frente a B y la página de pago C. frente a D, asegúrese de que el tráfico de B se divida 50/50 entre C y D (no, digamos, 25/75).
10. Ignorar las pequeñas ganancias
Su tratamiento superó el control en un 4%. “¡Bhh, eso es una ganancia demasiado pequeña! Ni siquiera me molestaré en implementarlo ”, he oído decir a la gente.
Aquí está la cosa. Si su sitio es bastante bueno, no obtendrá aumentos masivos todo el tiempo. De hecho, los levantamientos masivos son muy raros. Si su sitio es una mierda, es fácil ejecutar pruebas que obtienen un 50% de aumento todo el tiempo. Pero incluso eso se acabará.
La mayoría de las pruebas ganadoras darán pequeñas ganancias: 1%, 5%, 8%. A veces, un aumento del 1% puede significar millones en ingresos. Todo depende de los números absolutos con los que estemos tratando. Pero el punto principal es este: debe mirarlo desde una perspectiva de 12 meses.
Una prueba es solo una prueba. Vas a hacer muchas, muchas pruebas. Si aumenta su tasa de conversión un 5% cada mes, será un aumento del 80% en 12 meses. Eso es interés compuesto. Así es como funcionan las matemáticas. El ochenta por ciento es mucho.
Así que sigue obteniendo esas pequeñas victorias. Todo se sumará al final.
11. No realizar pruebas todo el tiempo
Cada día sin una prueba es un día perdido. Probar es aprender: aprender sobre su audiencia, saber qué funciona y por qué. Toda la información que obtenga se puede utilizar en su marketing (por ejemplo, anuncios PPC).
No sabe qué funciona hasta que lo prueba. Las pruebas necesitan tiempo y tráfico (mucho). Tener una prueba en funcionamiento en todo momento no significa que deba realizar pruebas de basura. Absolutamente no. Aún necesita una investigación adecuada, una buena hipótesis, etc.
Pero nunca dejes de optimizar.
12. No tener conocimiento de las amenazas de validez
El hecho de que tenga un tamaño de muestra decente, un nivel de confianza y una duración de la prueba no significa que los resultados de la prueba sean válidos. Existen varias amenazas a la validez de su prueba.
Efecto instrumental
Este es el problema más común. Es cuando las herramientas (o instrumentos) de prueba provocan datos defectuosos en la prueba. A menudo se debe a una implementación de código incorrecta en el sitio, lo que sesgará todos los resultados.
Realmente tienes que estar atento a esto. Cuando configure una prueba, observe cada uno de los objetivos y métricas que se están registrando. Si una métrica no envía datos (por ejemplo, haga clic en "agregar al carrito"), detenga la prueba, busque y solucione el problema y comience de nuevo restableciendo los datos.
Efecto de historia
Algo sucede en el mundo exterior que causa datos defectuosos en la prueba. Esto podría ser un escándalo sobre su empresa o uno de sus ejecutivos. Podría ser una temporada festiva especial (Navidad, Día de la Madre, etc.). Quizás una historia de los medios predispone a las personas en contra de una variación en su prueba. Lo que. Preste atención a lo que está sucediendo en el mundo.
Efecto de selección
Esto ocurre cuando asumimos erróneamente que una parte del tráfico representa la totalidad del tráfico.
Por ejemplo, envía tráfico promocional desde su lista de correo electrónico a una página en la que está ejecutando una prueba. A las personas que se suscriben a tu lista les gustas mucho más que tu visitante promedio. Pero ahora optimizas la página para trabajar con tu tráfico leal, pensando que representan el tráfico total. ¡Ese es raramente el caso!
Efecto de código roto
Creas un tratamiento y lo pones en vivo. Sin embargo, no gana o resulta en ninguna diferencia. Lo que no sabe es que su tratamiento se mostró mal en algunos navegadores y / o dispositivos.
Siempre que cree uno o dos nuevos tratamientos, asegúrese de realizar pruebas de control de calidad para asegurarse de que se muestren correctamente en todos los navegadores y dispositivos. De lo contrario, está juzgando su variación basándose en datos defectuosos.
Conclusión
Hay tantas herramientas excelentes disponibles que facilitan las pruebas, pero no piensan por usted. Es posible que la estadística no haya sido su materia favorita en la universidad, pero es hora de repasar.
Aprenda de estos 12 errores. Si puede evitarlos, comenzará a hacer un progreso real con las pruebas.
Crédito de imagen destacada