Distribución binomial

La distribución binomial modela el número de éxitos en un número fijo de ensayos independientes, cada uno con la misma probabilidad de éxito. Es una de las distribuciones más utilizadas en estadística, y aparece en control de calidad, ensayos clínicos, tests A/B y análisis de encuestas.

Definición

Una variable aleatoria \(X\) sigue una distribución binomial con parámetros \(n\) (número de ensayos) y \(p\) (probabilidad de éxito por ensayo), escrita \(X \sim \text{Binomial}(n, p)\), si:

\[P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \ldots, n\]

donde \(\binom{n}{k} = \frac{n!}{k!(n-k)!}\) es el coeficiente binomial, que cuenta el número de formas de distribuir \(k\) éxitos entre \(n\) ensayos.

La distribución binomial tiene dos requisitos: los ensayos deben ser independientes, y la probabilidad de éxito \(p\) debe ser constante en todos los ensayos. Cuando se cumplen, \(X\) cuenta cuántos de los \(n\) ensayos resultan en éxito.

Función de masa de probabilidad y CDF

La PMF da la probabilidad de exactamente \(k\) éxitos. La función de distribución acumulada acumula estas probabilidades:

\[F(k) = P(X \leq k) = \sum_{i=0}^{k} \binom{n}{i} p^i (1-p)^{n-i}\]

PMF y CDF de la distribución binomial con n=20 y p=0,3

Propiedades

Para \(X \sim \text{Binomial}(n, p)\):

  1. Valor esperado (media)

\[E(X) = np\]

  1. Varianza

\[\text{Var}(X) = np(1-p)\]

  1. Asimetría

\[\text{Asimetría} = \frac{1 - 2p}{\sqrt{np(1-p)}}\]

La distribución es simétrica cuando \(p = 0{,}5\), sesgada a la derecha cuando \(p < 0{,}5\) y sesgada a la izquierda cuando \(p > 0{,}5\). A medida que \(n\) aumenta, la distribución se vuelve más simétrica independientemente de \(p\).

  1. Curtosis

\[g_2 = \frac{1 - 6p(1-p)}{np(1-p)}\]

  1. Función cuantil

La función cuantil \(Q(u)\) da el menor entero \(k\) tal que \(F(k) \geq u\). No existe una expresión cerrada; la mayoría del software la calcula numéricamente.

Ejemplo paso a paso

Una empresa farmacéutica realiza un ensayo clínico con 15 pacientes. Según datos previos, el fármaco tiene una tasa de respuesta del 40% (\(p = 0{,}4\)). Sea \(X\) = número de pacientes que responden, \(X \sim \text{Binomial}(15;\, 0{,}4)\).

Probabilidad de exactamente 6 respuestas:

\[P(X = 6) = \binom{15}{6}(0{,}4)^6(0{,}6)^9 = 5005 \times 0{,}004096 \times 0{,}010078 \approx 0{,}207\]

Número esperado de respuestas:

\[E(X) = 15 \times 0{,}4 = 6 \text{ pacientes}\]

Varianza y desviación típica:

\[\text{Var}(X) = 15 \times 0{,}4 \times 0{,}6 = 3{,}6, \qquad \text{SD}(X) = \sqrt{3{,}6} \approx 1{,}90\]

Probabilidad de 8 o más respuestas (resultado inusualmente bueno):

\[P(X \geq 8) = 1 - P(X \leq 7) = 1 - F(7) \approx 1 - 0{,}787 = 0{,}213\]

Aproximadamente el 21% de los ensayos de este tamaño mostrarían 8 o más respondedores solo por azar.

Más ejemplos de la distribución binomial

  • Test A/B: 500 usuarios ven un nuevo diseño web, cada uno hace clic (éxito) con probabilidad 0,12. \(X \sim \text{Binomial}(500;\, 0{,}12)\). Clics esperados: 60.
  • Control de calidad: un lote de 200 componentes tiene una tasa de defectos del 2%. \(X \sim \text{Binomial}(200;\, 0{,}02)\). Defectos esperados: 4.
  • Encuesta: se pregunta a 1.000 votantes si apoyan una medida. Si el apoyo real es del 55%, \(X \sim \text{Binomial}(1000;\, 0{,}55)\). Síes esperados: 550.

Example icon

⚠️ Los dos supuestos que se violan con frecuencia

La distribución binomial requiere:

  1. Independencia: el resultado de cada ensayo no debe afectar a los demás. En la práctica se viola cuando se muestrea sin reemplazamiento de una población pequeña (usa la distribución hipergeométrica en su lugar), o cuando los resultados están correlacionados (medidas repetidas sobre el mismo individuo, enfermedades contagiosas que se propagan en una red).

  2. \(p\) constante: la probabilidad de éxito debe ser la misma en todos los ensayos. Si \(p\) varía entre ensayos (distintos pacientes tienen distintas tasas de respuesta basales, por ejemplo), la suma de Bernoullis ya no es binomial. En ese caso, un modelo beta-binomial es más apropiado.

Verifica siempre estos supuestos antes de usar la binomial. Un error frecuente es aplicarla a datos dependientes simplemente porque los resultados son binarios.

Aproximación normal

Cuando \(n\) es grande y \(p\) no está demasiado cerca de 0 o 1, la distribución binomial se aproxima bien mediante una distribución normal:

\[X \sim \text{Binomial}(n, p) \approx \mathcal{N}(np,\ np(1-p))\]

Una regla práctica habitual para que la aproximación sea adecuada: \(np \geq 5\) y \(n(1-p) \geq 5\).

Para n=50 y p=0,4 la aproximación normal (curva roja) se ajusta bien a la PMF binomial

Figure 1: Para n=50 y p=0,4 la aproximación normal (curva roja) se ajusta bien a la PMF binomial

💡 Relación con otras distribuciones

  • Bernoulli: \(\text{Binomial}(1, p) = \text{Bernoulli}(p)\).
  • Aproximación de Poisson: cuando \(n\) es grande y \(p\) es pequeño, \(\text{Binomial}(n, p) \approx \text{Poisson}(\lambda = np)\).
  • Aproximación normal: cuando \(np \geq 5\) y \(n(1-p) \geq 5\).
  • Hipergeométrica: úsala en lugar de la binomial cuando se muestree sin reemplazamiento de una población finita.