INICIO

El p-valor

El p-valor es la probabilidad de observar datos al menos tan extremos como los obtenidos, asumiendo que la hipótesis nula es verdadera. Es la cantidad más reportada en estadística y la más malinterpretada.

Definición

Dado un estadístico del contraste calculado a partir de los datos, el p-valor es:

\[p = P(\text{estadístico tan extremo o más que el observado} \mid H_0 \text{ verdadera})\]

“Más extremo” significa más alejado de lo que predice \(H_0\):

Unilateral derecho (\(H_1: \theta > \theta_0\)): más extremo = valores mayores. \(p = P(T \geq t_\text{obs})\).
Unilateral izquierdo (\(H_1: \theta < \theta_0\)): más extremo = valores menores. \(p = P(T \leq t_\text{obs})\).
Bilateral (\(H_1: \theta \neq \theta_0\)): más extremo en cualquier dirección. \(p = 2 \times P(T \geq |t_\text{obs}|)\).

Distribución normal mostrando el p-valor como el área sombreada más allá del estadístico del contraste observado

P-valor en contrastes unilaterales vs bilaterales

El mismo estadístico del contraste produce p-valores distintos según la dirección de \(H_1\). Para una normal estándar con \(z_\text{obs} = 1{,}88\):

Unilateral derecho: \(p = P(Z \geq 1{,}88) \approx 0{,}030\).
Bilateral: \(p = 2 \times P(Z \geq 1{,}88) \approx 0{,}060\).

El p-valor bilateral es exactamente el doble del unilateral. Por eso un resultado significativo al 5% unilateral puede no serlo al 5% bilateral.

Comparación de las áreas del p-valor para contrastes unilateral y bilateral con el mismo estadístico

Cómo interpretar el p-valor

La regla de decisión es sencilla: si \(p \leq \alpha\), rechaza \(H_0\). Si \(p > \alpha\), no rechaza \(H_0\).

Pero interpretar lo que significa el p-valor requiere más cuidado:

P-valor pequeño: los datos observados serían improbables si \(H_0\) fuera verdadera. Esto es evidencia contra \(H_0\).
P-valor grande: los datos observados son compatibles con \(H_0\). Esto no es evidencia a favor de \(H_0\).

Un modelo mental útil: el p-valor es un índice de sorpresa. Un p-valor muy pequeño significa “este resultado sería muy sorprendente si \(H_0\) fuera verdadera”. No mide cuán sorprendente es dado ninguna alternativa.

Errores de interpretación frecuentes

“El p-valor es la probabilidad de que \(H_0\) sea verdadera”

Este es el error de interpretación más peligroso. El p-valor se calcula bajo el supuesto de que \(H_0\) es verdadera. No puede decir nada sobre la probabilidad de que \(H_0\) sea verdadera, porque eso requeriría una probabilidad a priori para \(H_0\) (un concepto bayesiano, no frecuentista).

Ilustración numérica

Un contraste da \(p = 0{,}03\). Esto no significa que haya un 3% de probabilidad de que \(H_0\) sea verdadera. Significa: si \(H_0\) fuera verdadera, habría un 3% de probabilidad de obtener datos tan extremos. Estas dos afirmaciones son completamente distintas.

Para calcular la probabilidad de que \(H_0\) sea verdadera dados los datos, se necesita el teorema de Bayes y una probabilidad a priori para \(H_0\), algo que los contrastes de hipótesis frecuentistas evitan deliberadamente.

“\(p < 0{,}05\) prueba que \(H_1\) es verdadera”

Un p-valor bajo significa que los datos son incompatibles con \(H_0\), no que \(H_1\) quede probada. Múltiples hipótesis alternativas distintas podrían ser compatibles con los mismos datos. La significación estadística no equivale a prueba.

“\(p > 0{,}05\) significa que \(H_0\) es verdadera”

No rechazar \(H_0\) significa que los datos son compatibles con \(H_0\), no que \(H_0\) quede confirmada. Es posible que los datos sean simplemente insuficientes para detectar un efecto real. La ausencia de evidencia no es evidencia de ausencia.

“La significación estadística implica importancia práctica”

Con muestras suficientemente grandes, incluso efectos trivialmente pequeños producen p-valores muy pequeños. Un fármaco que reduce la presión arterial en 0,1 mmHg puede ser muy significativo estadísticamente en un ensayo con 100.000 pacientes, pero completamente irrelevante clínicamente. Acompaña siempre los p-valores con tamaños del efecto e intervalos de confianza.

⚠️ El umbral de 0,05 es arbitrario

El umbral de 0,05 fue propuesto por R.A. Fisher en 1925 como una regla práctica conveniente, no como una ley fundamental. No tiene ningún significado científico especial. Un resultado con \(p = 0{,}049\) no es sustancialmente diferente de uno con \(p = 0{,}051\): ambos aportan evidencia similar contra \(H_0\).

Muchas revistas científicas y la American Statistical Association recomiendan ahora reportar el p-valor exacto y el tamaño del efecto, en lugar de tomar decisiones binarias de significativo/no significativo. Trata el p-valor como una medida continua de evidencia, no como una línea de corte absoluta.

Ejemplo resuelto

Un minorista en línea realiza un test A/B sobre dos colores de botón. Versión A (azul): 1.240 clics de 8.000 impresiones. Versión B (verde): 1.380 clics de 8.000 impresiones.

\[\hat{p}_A = 0{,}155, \quad \hat{p}_B = 0{,}1725, \quad \hat{p}_A - \hat{p}_B = -0{,}0175\]

\[\text{EE} = \sqrt{\frac{0{,}155 \times 0{,}845}{8000} + \frac{0{,}1725 \times 0{,}8275}{8000}} \approx 0{,}00573\]

\[z = \frac{-0{,}0175}{0{,}00573} \approx -3{,}05\]

\[p = 2 \times P(Z \leq -3{,}05) \approx 2 \times 0{,}00114 = 0{,}0023\]

El p-valor es 0,0023, muy por debajo de \(\alpha = 0{,}05\). Es evidencia sólida de que las dos tasas de conversión difieren. La versión B convierte a una tasa notablemente mayor.

El tamaño del efecto: la versión B convierte 1,75 puntos porcentuales más que la versión A, una mejora relativa de aproximadamente el 11%. Tanto el p-valor (significativo) como el tamaño del efecto (relevante para el negocio) apoyan el cambio a la versión B.

💡 Cómo reportar p-valores correctamente

Informa el p-valor exacto, no solo “\(p < 0{,}05\)”: escribe “\(p = 0{,}023\)”, no “\(p < 0{,}05\)”.
Informa siempre el tamaño del efecto junto con el p-valor.
Si el p-valor es muy pequeño, escribe “\(p < 0{,}001\)” en lugar de “\(p = 0{,}0000023\)”.
No ajustes \(\alpha\) después de calcular el p-valor para lograr la significación.
Para resultados en el límite (\(p\) próximo a \(\alpha\)), señala que la evidencia no es concluyente y sugiere muestras más grandes.