Población, individuos, censo y muestra
Antes de llevar a cabo cualquier análisis estadístico, hay que tener claro qué o quién se está estudiando. Población, individuo, censo y muestra son los cuatro conceptos básicos que definen el alcance de cualquier estudio.
Población e individuos
Una población es el conjunto completo de elementos que comparten una o más características que se desean estudiar. No tiene por qué referirse a personas: una población puede ser un lote de piezas fabricadas, todas las transacciones procesadas por un banco en un día concreto, o todas las plantas de una especie en un bosque.
Un individuo es cada uno de los elementos que pertenecen a esa población. Cada medición que se toma proviene de un individuo.
- Quieres estudiar el salario mensual medio de los ingenieros de software en Alemania. La población son todos los ingenieros de software empleados actualmente en Alemania. Cada ingeniero es un individuo.
- Una empresa alimentaria quiere comprobar el contenido en azúcar de su producción de yogures. La población son todas las unidades de yogur producidas en un lote determinado. Cada unidad es un individuo.
- Un biólogo estudia el peso de los leones machos adultos del Serengeti. La población son todos los leones machos adultos que viven allí. Cada león es un individuo.
Figure 1: Cada cuadrado representa un individuo. El destacado es el individuo estudiado.
¿Por qué no estudiar siempre toda la población?
En teoría, la forma más fiable de conocer una población es medir a cada uno de sus individuos. En la práctica, esto rara vez es viable por tres razones principales:
- Coste: encuestar a todos los adultos de un país para estimar el desempleo lleva meses y cuesta millones.
- Tiempo: cuando terminas de medir a todos, la situación puede haber cambiado.
- Medición destructiva: si quieres comprobar cuántas horas dura una bombilla, tienes que encenderla hasta que se funda. No puedes probar todas las bombillas y seguir teniendo bombillas para vender.
En todas estas situaciones la solución es la misma: tomar una muestra.
💡 La idea clave
Muestra y censo
Si la recogida de datos abarca toda la población, se denomina censo. El ejemplo más conocido es el censo nacional, mediante el cual los gobiernos intentan contar y recopilar información sobre todos los residentes de un país. Útil, pero caro y lento.
Una muestra es un subconjunto de individuos seleccionados de la población. El número de individuos de la muestra es el tamaño muestral, que se denota \(n\). Para una variable \(X\), una muestra de tamaño \(n\) se escribe como:
\[\{x_1, x_2, \ldots, x_n\}\]
El objetivo del muestreo no es solo recopilar datos de menos personas. Es recopilar datos de menos personas de forma que aun así se puedan extraer conclusiones precisas sobre toda la población.
Figure 2: El censo abarca toda la población; una muestra cubre un subconjunto representativo
Muestras sesgadas
Una muestra es sesgada cuando no representa a la población de forma adecuada. Las conclusiones que se extraen de una muestra sesgada pueden no ser solo imprecisas, sino sistemáticamente erróneas en cada ocasión.
Las fuentes de sesgo más habituales son:
- Sesgo de selección: algunos individuos tienen más probabilidades de acabar en la muestra que otros. Si encuestas la satisfacción de los clientes solo entre quienes contactaron con el servicio de atención al cliente, estás dejando fuera a todos los clientes satisfechos que nunca tuvieron ningún problema.
- Sesgo de no respuesta: algunas personas se niegan a participar. Si quienes no responden son sistemáticamente distintos de quienes sí lo hacen, la muestra deja de representar a la población.
- Sesgo de supervivencia: solo observas a los individuos que han superado algún filtro. Estudiar únicamente las empresas de éxito para saber qué hace triunfar a un negocio ignora todas las que fracasaron siguiendo la misma estrategia.
⚠️ Un ejemplo clásico de sesgo muestral
En las elecciones presidenciales estadounidenses de 1936, la revista Literary Digest encuestó a 2,4 millones de personas y predijo una victoria aplastante de Alf Landon sobre Franklin D. Roosevelt. Roosevelt ganó por un amplio margen. El problema: la revista tomó su muestra entre sus propios suscriptores, directorios telefónicos y listas de propietarios de automóviles, que en 1936 tenían un perfil claramente sesgado hacia votantes más adinerados y favorables al Partido Republicano. Un tamaño muestral enorme no compensó un método de muestreo deficiente.
Figure 3: Izquierda: muestra sin sesgo (dispersa pero centrada en el valor real). Derecha: muestra sesgada (sistemáticamente desviada del objetivo).
Métodos de muestreo
El procedimiento utilizado para seleccionar individuos de la población se denomina método de muestreo. Elegir el método adecuado es tan importante como elegir después el test estadístico correcto.
Cuando el muestreo se basa en la probabilidad, cada individuo tiene una probabilidad conocida y distinta de cero de ser seleccionado. Los métodos probabilísticos más habituales son:
- Muestreo aleatorio simple: todos los individuos tienen la misma probabilidad de ser seleccionados.
- Muestreo estratificado: la población se divide en grupos (estratos) y se extrae una muestra aleatoria de cada uno. Útil cuando la población tiene subgrupos diferenciados que se quieren representar proporcionalmente.
- Muestreo por conglomerados: se seleccionan aleatoriamente conglomerados completos. Más práctico cuando los individuos están dispersos geográficamente.
- Muestreo sistemático: se selecciona cada \(k\)-ésimo individuo de una lista.
Puedes encontrar una explicación detallada de cada método en la sección de métodos de muestreo.
Las características medidas sobre los individuos se denominan variables, representadas con letras mayúsculas como \(X\) o \(Y\). Estas variables pueden ser cualitativas o cuantitativas según el tipo de valores que tomen.