¿Qué es la probabilidad?
La probabilidad cuantifica la posibilidad de que ocurra un evento. Es el lenguaje matemático de la incertidumbre, y entenderla es esencial en estadística, ciencia de datos, medicina, finanzas y prácticamente cualquier campo donde se tomen decisiones con información incompleta.
Definición
La probabilidad de un evento \(A\) es un número entre 0 y 1:
- \(P(A) = 0\): el evento es imposible.
- \(P(A) = 1\): el evento es seguro.
- \(0 < P(A) < 1\): el evento puede ocurrir o no.
Para un espacio muestral con resultados igualmente probables, la definición clásica es:
\[P(A) = \frac{\text{número de resultados favorables a } A}{\text{número total de resultados posibles}}\]
Esta fórmula solo se aplica cuando todos los resultados son igualmente probables. Para otras situaciones, consulta las definiciones empírica y subjetiva más abajo.
Tipos de probabilidad
Probabilidad clásica
Se basa en resultados igualmente probables, derivada de la estructura del experimento y no de la observación.
Una baraja estándar tiene 52 cartas. La probabilidad de sacar un corazón:
\[P(\text{corazón}) = \frac{13}{52} = 0{,}25\]
La probabilidad de sacar un as:
\[P(\text{as}) = \frac{4}{52} \approx 0{,}077\]
No se necesita ningún experimento: las probabilidades se derivan de la estructura conocida de la baraja.
Probabilidad empírica
Se basa en datos observados en lugar de supuestos teóricos. La probabilidad de un evento se estima como la frecuencia relativa con la que ha ocurrido.
\[P(A) \approx \frac{\text{número de veces que ocurrió } A}{\text{número total de ensayos}}\]
A medida que aumenta el número de ensayos, la probabilidad empírica converge a la probabilidad real (Ley de los Grandes Números).
Una fábrica registra 2.400 producciones. En 72 de ellas se produce un lote defectuoso.
\[P(\text{lote defectuoso}) \approx \frac{72}{2400} = 0{,}03\]
Esta estimación del 3% se basa únicamente en datos históricos, sin asumir ningún modelo teórico.
Probabilidad subjetiva
Es un grado de creencia personal, no derivado de la simetría ni de los datos. Distintas personas pueden asignar probabilidades diferentes al mismo evento según su conocimiento y experiencia. Esta es la base del razonamiento bayesiano.
Un cirujano experimentado estima un 90% de probabilidad de éxito para un paciente concreto, basándose en su estado, casos similares anteriores y su juicio clínico. Otro cirujano podría estimar un 85%. Ninguno está objetivamente equivocado: ambas son creencias informadas.
Probabilidad frecuentista vs bayesiana
Estas dos escuelas definen qué significa la probabilidad y conducen a enfoques fundamentalmente distintos de la inferencia estadística.
Frecuentista: la probabilidad es la frecuencia relativa a largo plazo de un evento en infinitas repeticiones de un experimento. Las probabilidades son propiedades objetivas del mundo. Los parámetros son constantes fijas (desconocidas), no variables aleatorias. No se puede asignar una probabilidad a una hipótesis.
Bayesiano: la probabilidad es un grado de creencia que se actualiza a medida que se acumula evidencia. Los parámetros pueden tener distribuciones de probabilidad. Las creencias a priori se combinan con los datos para producir creencias a posteriori mediante el teorema de Bayes.
Pregunta: ¿cuál es la probabilidad de que esta moneda concreta sea equilibrada?
Respuesta frecuentista: la moneda o es equilibrada o no lo es. No hay probabilidad que asignar a una propiedad fija de un objeto. Solo podemos contrastar si los datos observados son compatibles con el equilibrio.
Respuesta bayesiana: antes de lanzar, tenemos una creencia a priori (digamos, 90% de que la moneda es equilibrada). Tras observar 10 caras en 10 lanzamientos, actualizamos esa creencia usando el teorema de Bayes para obtener una probabilidad a posteriori mucho menor.
Ningún enfoque es universalmente correcto: responden a preguntas distintas.
Teorema de Bayes
El teorema de Bayes es la regla formal para actualizar probabilidades cuando llega nueva evidencia:
\[P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}\]
donde: - \(P(A \mid B)\) es la probabilidad a posteriori: probabilidad de \(A\) dado que ocurrió \(B\). - \(P(A)\) es la probabilidad a priori: probabilidad de \(A\) antes de observar \(B\). - \(P(B \mid A)\) es la verosimilitud: probabilidad de observar \(B\) si \(A\) es cierto. - \(P(B)\) es la probabilidad marginal de observar \(B\) (bajo todas las hipótesis).
⚠️ P(A|B) ≠ P(B|A): una asimetría fundamental
Confundir \(P(A|B)\) con \(P(B|A)\) es uno de los errores más frecuentes en probabilidad, con consecuencias reales graves. Un ejemplo clásico:
- \(P(\text{test positivo} \mid \text{tiene la enfermedad}) = 0{,}99\) (sensibilidad del test).
- \(P(\text{tiene la enfermedad} \mid \text{test positivo}) = ?\) (lo que el paciente quiere saber).
No son el mismo número. El segundo depende de manera decisiva de la prevalencia de la enfermedad en la población. Para una enfermedad rara, incluso un test muy preciso puede producir mayoritariamente falsos positivos. Esto se calcula mediante el teorema de Bayes, como se muestra en el ejemplo siguiente.
Una enfermedad afecta a 1 de cada 1.000 personas (\(P(\text{enfermedad}) = 0{,}001\)). Un test tiene: - Sensibilidad: \(P(\text{positivo} \mid \text{enfermedad}) = 0{,}99\) - Especificidad: \(P(\text{negativo} \mid \text{no enfermedad}) = 0{,}95\), por lo que \(P(\text{positivo} \mid \text{no enfermedad}) = 0{,}05\)
Un paciente da positivo. ¿Cuál es la probabilidad de que realmente tenga la enfermedad?
Paso 1: calcula \(P(\text{positivo})\) usando la ley de la probabilidad total:
\[P(\text{pos}) = P(\text{pos} \mid \text{enf}) \cdot P(\text{enf}) + P(\text{pos} \mid \text{no enf}) \cdot P(\text{no enf})\] \[= 0{,}99 \times 0{,}001 + 0{,}05 \times 0{,}999 = 0{,}00099 + 0{,}04995 = 0{,}05094\]
Paso 2: aplica el teorema de Bayes:
\[P(\text{enf} \mid \text{pos}) = \frac{0{,}99 \times 0{,}001}{0{,}05094} \approx 0{,}0194\]
Solo aproximadamente el 2% de las personas que dan positivo tienen realmente la enfermedad. Este resultado contraintuitivo, llamado falacia de la tasa base, se produce porque la enfermedad es tan rara que incluso una pequeña tasa de falsos positivos genera muchos más falsos positivos que verdaderos positivos en la población.
Reglas clave de probabilidad
Regla de la adición
Para cualesquiera dos eventos \(A\) y \(B\):
\[P(A \cup B) = P(A) + P(B) - P(A \cap B)\]
La resta corrige el doble conteo de la intersección. Si \(A\) y \(B\) son mutuamente excluyentes (\(P(A \cap B) = 0\)):
\[P(A \cup B) = P(A) + P(B)\]
En un grupo de 100 empleados, 40 hablan francés, 30 hablan alemán y 10 hablan ambos idiomas. ¿Cuál es la probabilidad de que un empleado elegido al azar hable francés o alemán?
\[P(F \cup A) = 0{,}40 + 0{,}30 - 0{,}10 = 0{,}60\]
Regla de la multiplicación
Para eventos independientes (la ocurrencia de uno no afecta al otro):
\[P(A \cap B) = P(A) \times P(B)\]
Para eventos dependientes:
\[P(A \cap B) = P(A) \times P(B \mid A)\]
Un servidor tiene una disponibilidad del 99% por día. ¿Cuál es la probabilidad de que esté operativo tanto el lunes como el martes (asumiendo independencia)?
\[P(\text{lunes} \cap \text{martes}) = 0{,}99 \times 0{,}99 = 0{,}9801\]
Para un mes de 30 días independientes: \(0{,}99^{30} \approx 0{,}740\). Solo un 74% de probabilidad de cero interrupciones en un mes.
Regla del complementario
\[P(\bar{A}) = 1 - P(A)\]
Con frecuencia la forma más sencilla de calcular \(P(A)\) es calcular \(1 - P(\bar{A})\).
Un sistema tiene 5 componentes independientes, cada uno con una probabilidad de fallo del 1%. ¿Cuál es la probabilidad de que falle al menos uno?
El cálculo directo requiere sumar muchos casos. Usando el complementario:
\[P(\text{falla al menos uno}) = 1 - P(\text{ninguno falla}) = 1 - 0{,}99^5 \approx 1 - 0{,}951 = 0{,}049\]
Aproximadamente un 5% de probabilidad de al menos un fallo.
💡 Cuándo usar cada regla
- Regla de la adición: “ocurre al menos uno de estos eventos”: usa \(P(A \cup B)\).
- Regla de la multiplicación: “ocurren todos estos eventos”: usa \(P(A \cap B)\).
- Regla del complementario: los problemas de “al menos uno” son casi siempre más fáciles con el complementario: \(1 - P(\text{ninguno})\).
- Teorema de Bayes: “dado que observamos esto, ¿cuál es la probabilidad actualizada?”: cualquier problema de inferencia condicional.