Distribución F de Snedecor

La distribución F surge como el cociente de dos variables chi-cuadrado divididas por sus grados de libertad. Es siempre no negativa y asimétrica a la derecha, y es la distribución de referencia para el ANOVA, los tests F en regresión y los contrastes de comparación de dos varianzas.

Definición

Si \(U \sim \chi^2(d_1)\) y \(V \sim \chi^2(d_2)\) son independientes, entonces:

\[F = \frac{U/d_1}{V/d_2} \sim F(d_1, d_2)\]

\(F\) sigue una distribución F de Snedecor con \(d_1\) grados de libertad del numerador y \(d_2\) grados de libertad del denominador. Su PDF es:

\[f(x) = \frac{\sqrt{\dfrac{(d_1 x)^{d_1} d_2^{d_2}}{(d_1 x + d_2)^{d_1+d_2}}}}{x\, B(d_1/2,\, d_2/2)}, \quad x > 0\]

donde \(B\) es la función beta. La CDF no tiene forma cerrada y se calcula numéricamente.

⚠️ El orden de los grados de libertad importa

\(F(d_1, d_2) \neq F(d_2, d_1)\). Los gl del numerador \(d_1\) van primero y corresponden a la varianza que se contrasta (por ejemplo, la varianza entre grupos en el ANOVA). Los gl del denominador \(d_2\) van en segundo lugar y corresponden a la varianza de referencia (por ejemplo, la varianza dentro de los grupos). Escribe y reporta siempre en el orden correcto: \(F(d_1, d_2)\).

La relación recíproca: si \(X \sim F(d_1, d_2)\), entonces \(1/X \sim F(d_2, d_1)\).

Efecto de los grados de libertad

Tanto \(d_1\) como \(d_2\) afectan a la forma:

  • \(d_1\) o \(d_2\) pequeños: fuertemente asimétrica a la derecha con una cola larga.
  • \(d_1\) y \(d_2\) grandes: la distribución se vuelve más simétrica y se concentra cerca de 1.
  • \(d_1 = 1\): la distribución tiene una singularidad en 0 y decrece lentamente.
  • \(d_2 \to \infty\): \(d_1 \cdot F(d_1, d_2) \to \chi^2(d_1)\).

PDF y CDF de la distribución F para distintos grados de libertad

Propiedades

Para \(X \sim F(d_1, d_2)\):

  1. Valor esperado (media)

\[E(X) = \frac{d_2}{d_2 - 2}, \quad \text{para } d_2 > 2\]

La media es siempre mayor que 1 y se aproxima a 1 cuando \(d_2 \to \infty\).

  1. Varianza

\[\text{Var}(X) = \frac{2d_2^2(d_1 + d_2 - 2)}{d_1(d_2-2)^2(d_2-4)}, \quad \text{para } d_2 > 4\]

  1. Asimetría

\[\text{Asimetría} = \frac{(2d_1 + d_2 - 2)\sqrt{8(d_2-4)}}{(d_2-6)\sqrt{d_1(d_1+d_2-2)}}, \quad \text{para } d_2 > 6\]

Siempre positiva: la distribución F es siempre asimétrica a la derecha.

  1. Moda

\[\text{Moda} = \frac{d_1 - 2}{d_1} \cdot \frac{d_2}{d_2 + 2}, \quad \text{para } d_1 > 2\]

  1. Función cuantil

No existe forma cerrada. Los valores críticos se leen de tablas F o se calculan con software. En R: qf(0.95, df1, df2).

Aplicaciones

ANOVA de un factor

El ANOVA contrasta si las medias de \(k\) grupos son todas iguales. El estadístico del contraste es:

\[F = \frac{\text{CM}_{\text{entre}}}{\text{CM}_{\text{dentro}}} = \frac{\text{SC}_{\text{entre}}/(k-1)}{\text{SC}_{\text{dentro}}/(n-k)} \sim F(k-1,\, n-k)\]

bajo \(H_0: \mu_1 = \mu_2 = \cdots = \mu_k\).

Un valor F grande significa que la variabilidad entre grupos es mucho mayor que la variabilidad dentro de los grupos, lo que es evidencia contra la igualdad de medias.

ANOVA de un factor: efecto del abono en el rendimiento

Se prueban tres tipos de abono en 5 parcelas cada uno (\(k=3\), \(n=15\)). La tabla ANOVA da:

Fuente SC gl CM F
Entre grupos 84,4 2 42,2 7,34
Dentro de grupos 69,0 12 5,75
Total 153,4 14

Valor crítico: \(F_{0{,}95}(2,\, 12) \approx 3{,}89\).

Como \(7{,}34 > 3{,}89\), rechazamos \(H_0\): al menos un tipo de abono produce un rendimiento medio distinto (\(p \approx 0{,}008\)).

Example icon

Test F en regresión

En regresión lineal múltiple con \(p\) predictores y \(n\) observaciones, el test F global contrasta si algún predictor es útil:

\[F = \frac{R^2/p}{(1-R^2)/(n-p-1)} \sim F(p,\, n-p-1)\]

bajo \(H_0\) de que todos los coeficientes de regresión son cero.

Test F en regresión

Un modelo de regresión con \(p = 4\) predictores se ajusta a \(n = 50\) observaciones. El modelo obtiene \(R^2 = 0{,}62\).

\[F = \frac{0{,}62/4}{0{,}38/45} = \frac{0{,}155}{0{,}00844} \approx 18{,}4\]

Valor crítico: \(F_{0{,}95}(4,\, 45) \approx 2{,}58\).

Como \(18{,}4 \gg 2{,}58\), rechazamos \(H_0\) con contundencia: el modelo explica una proporción significativa de la varianza (\(p < 0{,}001\)).

Example icon

Contraste de igualdad de dos varianzas

Para contrastar \(H_0: \sigma_1^2 = \sigma_2^2\) con muestras de tamaños \(n_1\) y \(n_2\):

\[F = \frac{S_1^2}{S_2^2} \sim F(n_1 - 1,\, n_2 - 1)\]

bajo \(H_0\). Valores alejados de 1 (en cualquier dirección) sugieren varianzas desiguales.

Distribución F(2,12): la región de rechazo a α=0,05 comienza en el valor crítico 3,89

Figure 1: Distribución F(2,12): la región de rechazo a α=0,05 comienza en el valor crítico 3,89

⚠️ El test F para igualdad de varianzas es sensible a la no normalidad

El contraste de cociente de varianzas \(F = S_1^2/S_2^2\) asume que ambas poblaciones son normales. Es muy sensible a las desviaciones de la normalidad: datos no normales pueden producir un resultado significativo incluso cuando las varianzas son iguales. Para alternativas más robustas, usa el test de Levene o el test de Bartlett, que son menos sensibles al supuesto de normalidad.

💡 Relación con otras distribuciones

  • Chi-cuadrado: \(d_1 \cdot F(d_1, d_2) \xrightarrow{d_2\to\infty} \chi^2(d_1)\).
  • t de Student: \(t(\nu)^2 = F(1, \nu)\). Elevar al cuadrado un estadístico t da un estadístico F con 1 gl en el numerador.
  • Beta: si \(X \sim F(d_1, d_2)\), entonces \(\frac{d_1 X/d_2}{1 + d_1 X/d_2} \sim \text{Beta}(d_1/2,\, d_2/2)\).