Distribución hipergeométrica
La distribución hipergeométrica modela el número de éxitos al extraer una muestra sin reemplazamiento de una población finita. A diferencia de la binomial, tiene en cuenta que cada extracción cambia la composición del resto de la población.
Definición
Una variable aleatoria \(X\) sigue una distribución hipergeométrica si cuenta el número de éxitos en una muestra de tamaño \(n\) extraída sin reemplazamiento de una población de tamaño \(N\) que contiene \(K\) éxitos. Se escribe \(X \sim \text{Hipergeométrica}(N, K, n)\):
\[P(X = k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}, \quad \max(0,\, n-(N-K)) \leq k \leq \min(K, n)\]
El numerador cuenta las formas de elegir \(k\) éxitos de los \(K\) disponibles y \(n-k\) fracasos de los \(N-K\) disponibles. El denominador cuenta todas las formas de elegir \(n\) elementos de \(N\).
⚠️ Hipergeométrica vs binomial: la distinción clave
Ambas distribuciones cuentan éxitos en una muestra, pero:
- Binomial: muestreo con reemplazamiento. Cada extracción es independiente y \(p\) permanece constante.
- Hipergeométrica: muestreo sin reemplazamiento. Cada extracción cambia la población, por lo que las extracciones son dependientes y \(p\) varía después de cada una.
Usa la hipergeométrica cuando la muestra represente una fracción significativa de la población (aproximadamente \(n/N > 0{,}05\)). Cuando la población es grande en relación con la muestra, ambas distribuciones dan resultados casi idénticos y la binomial es más sencilla de usar.
Función de masa de probabilidad y CDF
La CDF suma la PMF hasta \(k\):
\[F(k) = P(X \leq k) = \sum_{i=0}^{k} \frac{\binom{K}{i}\binom{N-K}{n-i}}{\binom{N}{n}}\]

Propiedades
Para \(X \sim \text{Hipergeométrica}(N, K, n)\), sea \(p = K/N\) la proporción de éxitos en la población:
- Valor esperado (media)
\[E(X) = n\frac{K}{N} = np\]
El número esperado de éxitos es el mismo que en la binomial con los mismos \(n\) y \(p = K/N\).
- Varianza
\[\text{Var}(X) = n\frac{K}{N}\left(1 - \frac{K}{N}\right)\frac{N-n}{N-1} = np(1-p)\frac{N-n}{N-1}\]
El factor \(\frac{N-n}{N-1}\) es la corrección por población finita (CPF). Siempre es menor que 1, lo que hace que la varianza hipergeométrica sea menor que la varianza binomial \(np(1-p)\). Esto tiene sentido intuitivo: muestrear sin reemplazamiento reduce la incertidumbre porque no se puede obtener el mismo elemento dos veces.
- Asimetría
\[\text{Asimetría} = \frac{(N-2K)(N-2n)\sqrt{N-1}}{(N-2)\sqrt{nK(N-K)(N-n)}}\]
- Curtosis
\[g_2 = \frac{(N-1)N^2[N(N+1) - 6K(N-K) - 6n(N-n)] + 6nK(N-K)(N-n)(5N-6)}{n K(N-K)(N-n)(N-2)(N-3)}\]
En la práctica, la curtosis se calcula numéricamente para valores concretos de los parámetros.
- Moda
\[\text{Moda} = \left\lfloor \frac{(n+1)(K+1)}{N+2} \right\rfloor\]
- Función cuantil
No existe expresión cerrada; se calcula numéricamente.
La corrección por población finita
El factor CPF \(\frac{N-n}{N-1}\) captura el efecto de la población finita sobre la varianza:
- Cuando \(n = 1\): CPF \(\approx 1\), la varianza es igual a la varianza binomial.
- Cuando \(n = N\) (censo): CPF \(= 0\), la varianza es cero, pues se ha medido toda la población, así que no hay incertidumbre muestral.
- Cuando \(n/N\) es pequeño (digamos por debajo del 5%): CPF \(\approx 1\) y la hipergeométrica se aproxima bien mediante la binomial.
Una empresa tiene 200 empleados, 60 de los cuales son directivos (\(K = 60\), \(N = 200\)). Una encuesta muestrea 40 empleados (\(n = 40\)).
Varianza binomial (ignorando la población finita): \[np(1-p) = 40 \times 0{,}3 \times 0{,}7 = 8{,}4\]
Varianza hipergeométrica (con CPF): \[8{,}4 \times \frac{200-40}{200-1} = 8{,}4 \times \frac{160}{199} \approx 6{,}75\]
La varianza real es un 20% menor de lo que indicaría la binomial. Cuando \(n/N = 40/200 = 20\%\), la corrección es sustancial.
Ejemplo paso a paso
Un lote de fábrica contiene 100 artículos, 10 de los cuales son defectuosos (\(N=100\), \(K=10\)). Un inspector de calidad extrae 20 artículos sin reemplazamiento (\(n=20\)). Sea \(X\) = número de artículos defectuosos encontrados.
Probabilidad de exactamente 3 artículos defectuosos:
\[P(X=3) = \frac{\binom{10}{3}\binom{90}{17}}{\binom{100}{20}} \approx 0{,}141\]
Hay un 14,1% de probabilidad de encontrar exactamente 3 artículos defectuosos.
Número esperado de defectuosos:
\[E(X) = 20 \times \frac{10}{100} = 2\]
Varianza:
\[\text{Var}(X) = 20 \times 0{,}1 \times 0{,}9 \times \frac{80}{99} \approx 1{,}455\]
Probabilidad de encontrar como máximo 3 defectuosos:
\[F(3) = P(X=0) + P(X=1) + P(X=2) + P(X=3) \approx 0{,}069 + 0{,}271 + 0{,}385 + 0{,}141 = 0{,}866\]
Aproximadamente el 87% de las muestras de tamaño 20 contendrán 3 o menos artículos defectuosos.
Una baraja estándar tiene 52 cartas, 4 de las cuales son ases (\(N=52\), \(K=4\)). Se reparten 5 cartas (\(n=5\)).
Probabilidad de exactamente 2 ases:
\[P(X=2) = \frac{\binom{4}{2}\binom{48}{3}}{\binom{52}{5}} = \frac{6 \times 17{.}296}{2{.}598{.}960} \approx 0{,}0399\]
Número esperado de ases: \(E(X) = 5 \times 4/52 \approx 0{,}385\).
💡 Cuándo usar hipergeométrica vs binomial
Usa la hipergeométrica cuando:
- El muestreo es sin reemplazamiento de una población finita.
- La muestra representa una fracción sustancial de la población (\(n/N > 0{,}05\)).
Usa la binomial cuando:
- El muestreo es con reemplazamiento.
- La población es lo suficientemente grande como para que \(n/N \leq 0{,}05\): en ese caso la CPF \(\approx 1\) y la binomial da resultados casi idénticos con cálculos más sencillos.
Una directriz práctica habitual: si se muestrea menos del 5% de la población, la aproximación binomial es adecuada.