Intervalo de confianza para la diferencia entre dos medias

El intervalo de confianza para \(\mu_1 - \mu_2\) estima el rango de valores plausibles para la verdadera diferencia entre dos medias poblacionales. Si usar el enfoque de varianzas combinadas o el de Welch depende de si se puede asumir que las varianzas poblacionales son iguales.

Planteamiento

Se tienen dos muestras aleatorias independientes:

  • Grupo 1: \(n_1\) observaciones, media muestral \(\bar{X}_1\), varianza muestral \(S_1^2\).
  • Grupo 2: \(n_2\) observaciones, media muestral \(\bar{X}_2\), varianza muestral \(S_2^2\).

La estimación puntual de \(\mu_1 - \mu_2\) es \(\bar{X}_1 - \bar{X}_2\). El IC tiene la forma:

\[(\bar{X}_1 - \bar{X}_2) \pm t^* \cdot \text{EE}(\bar{X}_1 - \bar{X}_2)\]

Los dos enfoques difieren en cómo calculan el EE y los grados de libertad para \(t^*\).

Intervalo de Welch (varianzas desiguales)

Cuando las varianzas poblacionales pueden diferir, usa el intervalo \(t\) de Welch:

\[\text{EE} = \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}\]

Los grados de libertad se obtienen mediante la aproximación de Satterthwaite:

\[gl = \frac{\left(\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}\right)^2}{\frac{(S_1^2/n_1)^2}{n_1-1} + \frac{(S_2^2/n_2)^2}{n_2-1}}\]

Este valor es siempre no entero y debe redondearse hacia abajo. El intervalo de Welch es el predeterminado en R (t.test()) y en la mayoría del software estadístico.

Intervalo combinado (varianzas iguales)

Cuando se puede asumir que las varianzas poblacionales son iguales (\(\sigma_1^2 = \sigma_2^2 = \sigma^2\)), se combinan las dos varianzas muestrales en una única estimación:

\[S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}\]

\[\text{EE} = S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}, \qquad gl = n_1 + n_2 - 2\]

El intervalo combinado es ligeramente más estrecho que el de Welch cuando las varianzas son realmente iguales, pero puede ser engañoso cuando difieren.

⚠️ Usa Welch por defecto: el supuesto de varianzas iguales rara vez está justificado

Usar el intervalo combinado cuando las varianzas son desiguales da una cobertura incorrecta: el IC real puede ser más estrecho de lo declarado y no capturar la verdadera diferencia con más frecuencia de la que implica el nivel \(\alpha\).

La regla “usa el combinado cuando \(n < 30\), Welch cuando \(n \geq 30\)” está obsoleta y es incorrecta. La regla correcta: usa siempre Welch salvo que haya una razón sólida para asumir varianzas iguales (mismo instrumento, mismo proceso, experimento aleatorizado con asignación igualada). En R, t.test(..., var.equal = FALSE) es el valor predeterminado y la opción correcta en la mayoría de las situaciones.

Visualización de los dos grupos

Dos distribuciones muestrales con las medias señaladas y un panel con el intervalo de confianza para su diferencia

El panel derecho muestra la distribución muestral de la diferencia \(\bar{X}_1 - \bar{X}_2\). La línea roja discontinua en 0 representa “ninguna diferencia”. Como 0 cae fuera del IC al 95%, la diferencia es estadísticamente significativa al nivel del 5%.

Ejemplo paso a paso

Un ensayo clínico compara dos dietas durante 6 meses:

  • Dieta A: \(n_1 = 30\), \(\bar{x}_1 = 8{,}0\) kg, \(S_1 = 2{,}0\) kg.
  • Dieta B: \(n_2 = 25\), \(\bar{x}_2 = 6{,}0\) kg, \(S_2 = 1{,}73\) kg.

Construye un IC al 95% para \(\mu_A - \mu_B\).

Paso 1: calcula la estimación puntual.

\[\bar{x}_1 - \bar{x}_2 = 8{,}0 - 6{,}0 = 2{,}0 \text{ kg}\]

Paso 2: calcula el EE de Welch.

\[\text{EE} = \sqrt{\frac{4{,}0}{30} + \frac{3{,}0}{25}} = \sqrt{0{,}1333 + 0{,}1200} = \sqrt{0{,}2533} \approx 0{,}503 \text{ kg}\]

Paso 3: grados de libertad de Satterthwaite.

\[gl = \frac{0{,}2533^2}{\frac{(0{,}1333)^2}{29} + \frac{(0{,}1200)^2}{24}} \approx \frac{0{,}0641}{0{,}000613 + 0{,}000600} \approx 52{,}8 \to 52\]

Paso 4: valor crítico.

\[t_{0{,}025,\; 52} \approx 2{,}007\]

Paso 5: construye el IC.

\[\text{IC} = 2{,}0 \pm 2{,}007 \times 0{,}503 = 2{,}0 \pm 1{,}01 = (0{,}99;\; 3{,}01) \text{ kg}\]

El IC no incluye el 0, por lo que existe una diferencia estadísticamente significativa. La dieta A produce entre 0,99 y 3,01 kg más de pérdida de peso que la dieta B, en promedio, con un 95% de confianza.

Varianzas combinadas vs Welch: cuándo difieren

Los mismos datos de antes pero asumiendo varianzas iguales para el enfoque combinado:

\[S_p^2 = \frac{29 \times 4{,}0 + 24 \times 3{,}0}{53} = \frac{116 + 72}{53} = \frac{188}{53} \approx 3{,}547\]

\[\text{EE}_p = \sqrt{3{,}547 \times (1/30 + 1/25)} = \sqrt{3{,}547 \times 0{,}0733} \approx 0{,}510 \text{ kg}\]

\[gl_p = 53, \quad t_{0{,}025,\; 53} \approx 2{,}006\]

\[\text{IC}_{\text{combinado}} = 2{,}0 \pm 2{,}006 \times 0{,}510 = (0{,}978;\; 3{,}022)\]

En este caso los dos intervalos son prácticamente idénticos porque \(S_1^2 \approx S_2^2\). Cuando las varianzas difieren notablemente, la diferencia entre los intervalos de Welch y el combinado puede ser grande.

Example icon

💡 Interpretación del IC para una diferencia

Tres casos explican todo:

  • IC completamente por encima de 0: se confirma \(\mu_1 > \mu_2\) (el grupo 1 tiene mayor media).
  • IC completamente por debajo de 0: se confirma \(\mu_1 < \mu_2\) (el grupo 2 tiene mayor media).
  • IC incluye el 0: los datos son compatibles con la ausencia de diferencia a este nivel de confianza.

Un IC que excluye el 0 por muy poco es muy distinto a uno que lo excluye por amplio margen. Informa siempre el intervalo completo, no solo si incluye o no el 0.