MASTER STATISTICS

Inicio
Categorías

Introducción a la Estadística
Conceptos básicos y fundamentos de la estadística

Estadística descriptiva
Resumen e interpretación de datos

Variables aleatorias
Variables y teoría de la probabilidad

Distribuciones
Tipos de distribuciones estadísticas

%

Probabilidad
Fundamentos de la teoría de la probabilidad

Estimación puntual e IC
Estimación de parámetros con intervalos de confianza

α

Contrastes de hipótesis
Contrastación de hipótesis estadísticas

Muestreo
Métodos de selección de muestras

Bootstrap (remuestreo)
Técnicas de remuestreo en estadística

Regresión y clasificación
Técnicas de ML para predicción y clustering

Series de tiempo
Análisis de datos dependientes del tiempo

Optimización
Técnicas para optimizar funciones y modelos

Glosario Tablas
Categorías
Introducción a la Estadística Estadística descriptiva Variables aleatorias Distribuciones Probabilidad Estimación puntual e IC Contrastes de hipótesis Muestreo Bootstrap (remuestreo) Regresión y clasificación Series de tiempo Optimización
Glosario
Tablas
R y Python

R

R CODER
Tutoriales de R, desde nivel básico hasta avanzado, con ejemplos

R

R CHARTS
Aprende visualización de datos con R base y ggplot2

R

R PACKAGES
Explora todos los paquetes, funciones y conjuntos de datos disponibles en R

PY

PYTHON CHARTS
Aprende a visualizar datos con matplotlib, seaborn y plotly
R y Python
R CODER R CHARTS R PACKAGES PYTHON CHARTS
English

INICIO › GLOSARIO

GLOSARIO DE TÉRMINOS ESTADÍSTICOS

A

AIC vs BIC

AIC (Criterio de Información de Akaike) y BIC (Criterio de Información Bayesiano) son criterios para la selección de modelos. El AIC minimiza la pérdida de información mientras que el BIC penaliza más fuertemente la complejidad del modelo, favoreciendo modelos más simples cuando el tamaño muestral es grande.

A

Agrupamiento jerárquico

El agrupamiento jerárquico construye un árbol de clústeres anidados (dendrograma) ya sea fusionando clústeres pequeños de abajo hacia arriba (aglomerativo) o dividiendo los grandes de arriba hacia abajo (divisivo). El criterio de enlace (simple, completo, promedio, Ward) determina cómo se mide la distancia entre clústeres. El número de clústeres se elige tras inspeccionar el dendrograma.

A

ANOVA

El Análisis de la Varianza (ANOVA) es un contraste estadístico para comparar simultáneamente las medias de tres o más grupos. Evalúa si al menos una media difiere significativamente de las demás descomponiendo la varianza total en componentes entre grupos y dentro de grupos.

A

ARIMA

ARIMA (Media Móvil Integrada Autorregresiva) combina componentes autorregresivos, de diferenciación y de media móvil para modelar series temporales estacionarias y no estacionarias. Los parámetros (p, d, q) representan el orden AR, el grado de diferenciación y el orden MA. Es el modelo de referencia estándar para la predicción de series temporales univariantes.

A

Árbol de decisión

Un árbol de decisión particiona el espacio de características en regiones rectangulares dividiendo recursivamente según la variable y el umbral que mejor separan las clases. Es muy interpretable pero tiene alta varianza: pequeños cambios en los datos de entrenamiento pueden producir un árbol completamente distinto.

A

Asimetría

La asimetría mide la falta de simetría de una distribución respecto a su media. Asimetría positiva indica una cola larga hacia la derecha (media > mediana); asimetría negativa indica cola larga hacia la izquierda (media < mediana). Las distribuciones simétricas como la normal tienen asimetría cero.

A

Autocorrelación

La autocorrelación mide la correlación de una serie temporal consigo misma con un retardo determinado. Autocorrelación positiva significa que valores consecutivos tienden a ser similares; autocorrelación negativa significa que tienden a alternarse. Es la primera comprobación diagnóstica en cualquier modelo de series temporales.

B

Bootstrap

El bootstrap es un método de remuestreo que estima la distribución muestral de un estadístico extrayendo repetidamente muestras con reemplazamiento de los datos observados. Se usa para calcular errores estándar e intervalos de confianza sin asumir una distribución paramétrica.

B

Bosque aleatorio

El bosque aleatorio construye muchos árboles de decisión profundos sobre muestras bootstrap, usando un subconjunto aleatorio de variables en cada división para decorrelacionar los árboles. Las predicciones se promedian (regresión) o se decide por mayoría (clasificación). Reduce considerablemente la varianza respecto a un árbol individual.

C

Coeficiente de determinación (R²)

El R² mide la proporción de varianza de la variable respuesta explicada por el modelo, con valores entre 0 y 1. Añadir predictores siempre aumenta el R²; el R² ajustado penaliza la complejidad del modelo. En regresión lineal simple, R² es igual al cuadrado de la correlación de Pearson.

C

Coeficiente de variación

El coeficiente de variación (CV) es el cociente entre la desviación típica y la media, expresado como porcentaje. Mide la variabilidad relativa y permite comparar la dispersión entre conjuntos de datos con diferentes unidades o escalas.

C

Compromiso sesgo-varianza

El compromiso sesgo-varianza describe cómo el error de predicción se descompone en sesgo (error sistemático por supuestos incorrectos), varianza (sensibilidad a las fluctuaciones de los datos de entrenamiento) y ruido irreducible. Reducir el sesgo tiende a aumentar la varianza y viceversa. La regularización y los métodos de ensamble gestionan este compromiso.

C

Conjunto de entrenamiento vs conjunto de test

El conjunto de entrenamiento se usa para ajustar el modelo; el conjunto de test se usa para estimar su capacidad de generalización. El conjunto de test no debe influir en ninguna decisión de modelado. Un conjunto de validación es una tercera partición para el ajuste de hiperparámetros, reservando el test para la evaluación final.

C

Contraste de hipótesis

El contraste de hipótesis es un procedimiento estadístico para decidir entre dos hipótesis sobre un parámetro poblacional. Implica especificar H₀ y H₁, calcular un estadístico de contraste y compararlo con un valor crítico o calcular un p-valor para tomar una decisión al nivel de significación α elegido.

C

Correlación

La correlación mide la fuerza y la dirección de la relación lineal entre dos variables continuas. La r de Pearson oscila entre -1 (correlación negativa perfecta) y +1 (correlación positiva perfecta), siendo 0 ausencia de relación lineal. La correlación no implica causalidad.

C

Correlación de Pearson vs Spearman

La correlación de Pearson mide la relación lineal entre dos variables continuas y es sensible a los valores atípicos. La correlación de Spearman mide la relación monótona usando rangos; es robusta a valores atípicos y aplicable a datos ordinales. Se recomienda Spearman cuando no se puede asumir normalidad.

C

Covarianza

La covarianza mide la variabilidad conjunta de dos variables aleatorias. Covarianza positiva significa que ambas variables tienden a aumentar juntas; negativa significa que una tiende a disminuir cuando la otra aumenta. La correlación es la versión estandarizada de la covarianza, acotada entre -1 y 1.

C

Curva ROC y AUC

La curva ROC representa la sensibilidad (TPR) frente a 1-especificidad (FPR) para todos los umbrales de clasificación. El AUC (área bajo la curva) la resume: AUC = 0.5 es aleatorio; AUC = 1 es perfecto. El AUC equivale a la probabilidad de que el modelo clasifique un caso positivo por encima de uno negativo al azar.

C

Curtosis

La curtosis mide el peso de las colas de una distribución respecto a la distribución normal. La curtosis en exceso = curtosis - 3. Curtosis en exceso positiva (leptocúrtica) indica colas pesadas y más valores extremos; negativa (platicúrtica) indica colas ligeras.

D

DBSCAN

DBSCAN (Agrupamiento Espacial Basado en Densidad con Ruido) agrupa puntos densamente conectados dentro de un radio de vecindad ε, clasificando los puntos dispersos como ruido. A diferencia de K-means, descubre clústeres de forma arbitraria y no requiere especificar el número de clústeres de antemano.

D

Descenso de gradiente

El descenso de gradiente minimiza una función diferenciable moviéndose iterativamente en la dirección del gradiente negativo (máximo descenso). La tasa de aprendizaje controla el tamaño del paso. Es el algoritmo fundamental para entrenar redes neuronales y ajustar la regresión logística.

D

Desviación típica

La desviación típica es la raíz cuadrada de la varianza: la distancia promedio de las observaciones respecto a la media. Está en las mismas unidades que los datos, a diferencia de la varianza. La desviación típica muestral utiliza n-1 en el denominador (corrección de Bessel) para ser un estimador insesgado de la poblacional.

D

Diagrama de caja

Un diagrama de caja muestra el resumen de cinco números de un conjunto de datos: mínimo, primer cuartil (Q1), mediana, tercer cuartil (Q3) y máximo. La caja abarca el rango intercuartílico (RIC = Q3 - Q1), y los puntos fuera de 1.5 × RIC se representan como valores atípicos.

D

Distribución beta

La distribución beta es una distribución continua en [0,1] parametrizada por los parámetros de forma α y β. Se usa ampliamente como distribución a priori para probabilidades en inferencia bayesiana, para modelar proporciones y como distribución de los estadísticos de orden de una uniforme.

D

Distribución binomial

La distribución binomial modela el número de éxitos en n ensayos de Bernoulli independientes, cada uno con probabilidad p. Su media es np y su varianza es np(1-p). Converge a la distribución normal para n grande y a la de Poisson cuando n es grande y p es pequeño.

D

Distribución binomial negativa

La distribución binomial negativa modela el número de ensayos necesarios para obtener r éxitos, con probabilidad p por ensayo. Generaliza la distribución geométrica (r=1) y también se utiliza para modelar datos de recuento sobredispersos donde la varianza supera a la media, como alternativa a la Poisson.

D

Distribución de Bernoulli

La distribución de Bernoulli modela un único ensayo con dos resultados posibles: éxito (1) con probabilidad p y fracaso (0) con probabilidad 1-p. Su media es p y su varianza es p(1-p). Es la distribución discreta más sencilla y el bloque fundamental de la distribución binomial.

D

Distribución de Poisson

La distribución de Poisson modela el número de eventos que ocurren en un intervalo fijo de tiempo o espacio cuando los eventos ocurren a una tasa constante λ de forma independiente. Su media y varianza son ambas iguales a λ. Aproxima a la binomial cuando n es grande y p es pequeño.

D

Distribución de Weibull

La distribución de Weibull es una distribución continua flexible muy utilizada en ingeniería de fiabilidad y análisis de supervivencia. Su parámetro de forma β determina la tasa de riesgo: β < 1 indica riesgo decreciente (mortalidad infantil), β = 1 se reduce a la exponencial (riesgo constante) y β > 1 indica riesgo creciente (envejecimiento).

D

Distribución exponencial

La distribución exponencial modela el tiempo entre eventos en un proceso de Poisson, con parámetro de tasa λ. Su media es 1/λ y carece de memoria: la probabilidad de que ocurra un evento en el siguiente instante no depende del tiempo ya esperado. Se usa ampliamente en fiabilidad y análisis de supervivencia.

D

Distribución F

La distribución F es una distribución de probabilidad continua que surge como el cociente de dos distribuciones chi-cuadrado independientes divididas por sus grados de libertad respectivos. Se usa en el contraste F del ANOVA, en contrastes de igualdad de varianzas y en la significación global de la regresión.

D

Distribución gamma

La distribución gamma generaliza la distribución exponencial para modelar el tiempo de espera hasta el k-ésimo evento en un proceso de Poisson, con forma k y tasa λ. Incluye como casos particulares la distribución chi-cuadrado (k=ν/2, λ=1/2) y la exponencial (k=1).

D

Distribución geométrica

La distribución geométrica modela el número de ensayos necesarios para obtener el primer éxito, con probabilidad de éxito p por ensayo. Su media es 1/p y es la única distribución discreta sin memoria. Se usa en control de calidad, teoría de colas y modelado de fenómenos de primer éxito.

D

Distribución hipergeométrica

La distribución hipergeométrica modela el número de éxitos al extraer n elementos sin reemplazamiento de una población de N elementos que contiene K éxitos. A diferencia de la binomial, las extracciones sucesivas son dependientes. Se usa en control de calidad, genética y el test exacto de Fisher.

D

Distribución muestral

La distribución muestral de un estadístico es la distribución de probabilidad de ese estadístico calculado sobre todas las posibles muestras de un tamaño dado extraídas de la población. La desviación típica de la distribución muestral es el error estándar. El teorema central del límite describe la distribución muestral de la media.

D

Distribución normal

La distribución normal es una distribución continua simétrica con forma de campana, completamente descrita por su media μ y desviación típica σ. Aproximadamente el 68% de los valores se sitúan dentro de 1σ de la media y el 95% dentro de 2σ. Surge de forma natural a través del teorema central del límite.

D

Distribución t de Student

La distribución t de Student es una distribución simétrica con forma de campana y colas más pesadas que la normal. Surge al estimar la media de una población normal con varianza desconocida. A medida que aumentan los grados de libertad, converge a la distribución normal estándar.

E

ElasticNet

ElasticNet combina penalizaciones L1 (Lasso) y L2 (Ridge) en una mezcla convexa controlada por un parámetro de mezcla. Realiza selección de variables como el Lasso y retiene el efecto de agrupación del Ridge, siendo preferible cuando los predictores están correlacionados y el modelo es disperso.

E

Entropía

La entropía de Shannon mide la incertidumbre media o el contenido informativo de una distribución de probabilidad. Entropía alta significa que los resultados son casi igualmente probables; entropía baja significa que domina un resultado. Se usa en árboles de decisión como criterio de división y en teoría de la información.

E

Error cuadrático medio

El error cuadrático medio (ECM) es el promedio de las diferencias al cuadrado entre valores predichos y observados. ECM = Sesgo² + Varianza, lo que lo convierte en una medida natural del compromiso sesgo-varianza. La raíz del ECM (RECM) está en las mismas unidades que la variable respuesta y es más fácil de interpretar.

E

Error de tipo I vs tipo II

Un error de tipo I (falso positivo, α) rechaza una hipótesis nula verdadera. Un error de tipo II (falso negativo, β) no rechaza una hipótesis nula falsa. Potencia = 1 - β. Reducir α (exigir evidencia más fuerte) aumenta β. El compromiso entre ambos depende de los costes relativos de cada error.

E

Error estándar

El error estándar (EE) es la desviación típica de la distribución muestral de un estadístico. Para la media muestral, EE = σ/√n. Mide la precisión con la que el estadístico muestral estima el parámetro poblacional. Los intervalos de confianza y los contrastes t utilizan el error estándar.

E

Estacionariedad

Una serie temporal es estacionaria si su media, varianza y estructura de autocovarianza no cambian a lo largo del tiempo. La mayoría de los modelos de series temporales (ARIMA, VAR) requieren estacionariedad. Las series no estacionarias se transforman mediante diferenciación, transformación logarítmica o eliminación de la tendencia.

E

Estadística descriptiva vs inferencial

La estadística descriptiva resume y describe los datos observados mediante medidas como la media, la varianza y los gráficos. La estadística inferencial usa datos muestrales para sacar conclusiones sobre una población más amplia, cuantificando la incertidumbre mediante intervalos de confianza y contrastes de hipótesis.

E

Estimación por máxima verosimilitud

La estimación por máxima verosimilitud (EMV) encuentra los valores de los parámetros que maximizan la probabilidad de observar los datos muestrales. Los estimadores EMV son consistentes y asintóticamente eficientes. Para datos normales, la EMV coincide con los mínimos cuadrados para la media; para datos binarios, da lugar a la regresión logística.

E

Estimador

Un estimador es una función de los datos muestrales utilizada para estimar un parámetro poblacional desconocido. Un buen estimador es insesgado (su valor esperado es igual al parámetro verdadero), consistente (converge al valor verdadero cuando n crece) y eficiente (tiene varianza mínima entre los estimadores insesgados).

E

Eventos independientes

Dos eventos A y B son independientes si la ocurrencia de uno no afecta a la probabilidad del otro: P(A∩B) = P(A)·P(B). La independencia implica P(A|B) = P(A). Es una condición más fuerte que la incompatibilidad y es fundamental para definir variables aleatorias independientes.

F

Falso positivo vs falso negativo

Un falso positivo (error de tipo I) ocurre cuando se rechaza una hipótesis nula verdadera. Un falso negativo (error de tipo II) ocurre cuando no se rechaza una hipótesis nula falsa. En clasificación, un falso positivo predice incorrectamente la clase positiva; un falso negativo no detecta un caso positivo real.

F

Función de densidad de probabilidad

La función de densidad de probabilidad (fdp) f(x) de una variable aleatoria continua indica la probabilidad relativa de que la variable tome un valor dado. La probabilidad de que la variable caiga en el intervalo [a, b] es la integral de f(x) entre a y b. El área total bajo la fdp es igual a 1.

F

Función de distribución acumulada

La función de distribución acumulada (FDA) F(x) da la probabilidad de que una variable aleatoria X tome un valor menor o igual que x. Para variables discretas es una función escalonada; para variables continuas es suave y estrictamente creciente. La FDA caracteriza completamente una distribución de probabilidad.

F

Función de masa de probabilidad

La función de masa de probabilidad (fmp) de una variable aleatoria discreta da la probabilidad de cada valor posible. P(X = x) ≥ 0 para todo x, y la suma sobre todos los valores posibles es igual a 1. Es la contraparte discreta de la función de densidad de probabilidad.

F

Función de verosimilitud

La función de verosimilitud L(θ; x) da la probabilidad de observar los datos x en función del parámetro θ. La estimación por máxima verosimilitud (EMV) encuentra el valor del parámetro que maximiza L. A diferencia de la probabilidad, la verosimilitud no está normalizada y no puede interpretarse como probabilidad sobre θ.

G

Grados de libertad

Los grados de libertad son el número de valores independientes en un cálculo que pueden variar libremente. Al estimar k parámetros a partir de n observaciones, los grados de libertad residuales son n - k. Determinan la forma de las distribuciones t, chi-cuadrado y F utilizadas en los contrastes de hipótesis.

H

Hipótesis alternativa

La hipótesis alternativa (H₁) afirma que existe un efecto o relación estadísticamente significativa en la población. Es lo que el investigador trata de demostrar y se acepta cuando se rechaza la hipótesis nula.

H

Hipótesis nula

La hipótesis nula (H₀) es la suposición por defecto de que no existe efecto, diferencia ni relación en la población. El contraste de hipótesis intenta encontrar evidencia suficiente para rechazarla en favor de la alternativa. No rechazar H₀ no prueba que sea verdadera.

H

Histograma

Un histograma muestra la distribución de una variable continua dividiendo su rango en intervalos y representando la frecuencia o densidad de observaciones en cada uno. A diferencia de un gráfico de barras, los intervalos son contiguos. La elección de la anchura de los intervalos influye notablemente en el aspecto visual.

I

Importancia de variables

La importancia de variables mide cuánto contribuye cada predictor a las predicciones del modelo. La importancia basada en impureza suma la reducción de impureza en todas las divisiones de una variable. La importancia por permutación mide cuánto aumenta el error al permutar aleatoriamente los valores de una variable.

I

Inferencia bayesiana vs frecuentista

La inferencia frecuentista trata los parámetros como fijos y desconocidos, haciendo afirmaciones sobre la probabilidad de los datos dado el parámetro. La inferencia bayesiana trata los parámetros como variables aleatorias con distribuciones a priori, actualizándolas con los datos para obtener la distribución a posteriori.

I

Infraajuste

El infraajuste ocurre cuando un modelo es demasiado simple para capturar la estructura subyacente de los datos, resultando en error alto tanto en entrenamiento como en test. Lo causan la regularización excesiva, pocos parámetros o usar la clase de modelo equivocada. El sesgo es la fuente dominante de error.

I

Intervalo de confianza

Un intervalo de confianza es un rango de valores calculado a partir de datos muestrales que, bajo muestreo repetido, contendría el verdadero parámetro poblacional un porcentaje especificado de las veces. Un IC del 95% no significa que haya un 95% de probabilidad de que el parámetro esté en ese intervalo concreto.

I

Intervalo de confianza vs intervalo de predicción

Un intervalo de confianza cuantifica la incertidumbre sobre la respuesta media para un valor dado del predictor. Un intervalo de predicción es más amplio porque también incluye la variabilidad de las observaciones individuales alrededor de la media. Los intervalos de predicción son siempre más anchos que los de confianza.

J

Jackknife

El jackknife es un método de remuestreo que estima el sesgo y la varianza eliminando repetidamente una observación cada vez. Para n observaciones produce n muestras jackknife de tamaño n-1. Es computacionalmente más barato que el bootstrap y particularmente útil para la corrección del sesgo.

K

K-means

K-means particiona n observaciones en K clústeres asignando iterativamente cada punto al centroide más cercano y recalculando los centroides como medias del clúster. Minimiza la suma de cuadrados dentro de los clústeres. K debe especificarse de antemano; K-means++ mejora la inicialización para evitar mínimos locales deficientes.

K

K vecinos más cercanos

KNN clasifica una nueva observación por votación mayoritaria entre sus k puntos de entrenamiento más cercanos según una métrica de distancia elegida. Es un aprendiz no paramétrico basado en instancias sin fase de entrenamiento. El rendimiento se degrada en dimensiones altas por la maldición de la dimensionalidad.

L

Ley de los grandes números

La ley de los grandes números establece que a medida que aumenta el tamaño muestral, la media muestral converge a la media poblacional. La ley débil da convergencia en probabilidad; la ley fuerte da convergencia casi segura. Proporciona la justificación teórica del uso de estadísticos muestrales para estimar parámetros poblacionales.

M

Máquina de vectores soporte

La máquina de vectores soporte (SVM) encuentra el hiperplano que maximiza el margen entre dos clases. Solo los vectores soporte (puntos en el límite del margen) determinan su posición. El truco del núcleo permite fronteras no lineales mapeando implícitamente los datos a un espacio de mayor dimensión.

M

Matriz de confusión

Una matriz de confusión es una tabla que resume el rendimiento de un modelo de clasificación. Las filas representan las clases reales y las columnas las predichas. Muestra verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos, a partir de los cuales se calculan exactitud, precisión, sensibilidad y puntuación F1.

M

Media

La media aritmética es la suma de todos los valores dividida por el número de observaciones. Es la medida de tendencia central más habitual pero sensible a los valores atípicos, que pueden alejarla del centro de la distribución. Para datos asimétricos, la mediana suele ser más representativa.

M

Mediana

La mediana es el valor central de un conjunto de datos ordenado, dividiendo la distribución en dos mitades iguales. Es robusta a los valores atípicos y una mejor medida de tendencia central que la media para distribuciones asimétricas. Con un número par de observaciones, es la media de los dos valores centrales.

M

Moda

La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. Una distribución puede ser unimodal, bimodal o multimodal. Es la única medida de tendencia central aplicable a datos nominales y se usa para describir la categoría más común.

M

Multicolinealidad

La multicolinealidad ocurre cuando dos o más predictores en un modelo de regresión están muy correlacionados. Infla la varianza de los estimadores de los coeficientes, haciéndolos inestables y difíciles de interpretar. El FIV (factor de inflación de la varianza) la cuantifica: FIV > 10 indica colinealidad problemática.

M

Muestreo aleatorio simple

El muestreo aleatorio simple selecciona n observaciones de una población de N de modo que toda muestra posible de tamaño n tiene igual probabilidad de selección. Es el método de referencia frente al que se evalúan otros diseños muestrales. En la práctica requiere un marco muestral completo.

M

Muestreo estratificado

El muestreo estratificado divide la población en subgrupos homogéneos (estratos) y extrae una muestra aleatoria simple de cada uno. Garantiza la representación de todos los subgrupos y normalmente proporciona estimaciones más precisas que el muestreo aleatorio simple cuando los estratos son internamente homogéneos.

M

Muestreo por conglomerados

El muestreo por conglomerados divide la población en grupos (conglomerados), selecciona aleatoriamente algunos conglomerados y encuesta a todos sus miembros. Es más práctico que el muestreo aleatorio simple cuando la población está geográficamente dispersa, aunque suele producir estimaciones menos precisas.

M

Muestreo sistemático

El muestreo sistemático selecciona cada k-ésimo elemento de una población ordenada tras un inicio aleatorio. Es más sencillo de aplicar que el muestreo aleatorio simple y con frecuencia produce una precisión similar. Puede ser problemático si la población tiene un patrón periódico con período igual al intervalo de muestreo.

N

Naive Bayes

Naive Bayes clasifica aplicando el teorema de Bayes con el supuesto de que todas las variables son condicionalmente independientes dada la clase. Aunque esto rara vez es cierto, funciona bien en la práctica, especialmente en clasificación de texto. Es rápido, interpretable y eficaz con muestras pequeñas.

P

Percentil

El percentil k es el valor por debajo del cual cae el k% de las observaciones. Los percentiles 25, 50 y 75 son Q1, Q2 (mediana) y Q3. Los percentiles describen la posición relativa de un valor dentro de una distribución y se usan en curvas de crecimiento, puntuaciones de tests y distribuciones de renta.

P

Población vs muestra

Una población es el conjunto completo de individuos que comparten una característica de interés. Una muestra es un subconjunto seleccionado de la población para su estudio. Dado que estudiar poblaciones completas suele ser impracticable, se realizan inferencias a partir de muestras usando métodos estadísticos.

P

Potencia de un contraste

La potencia de un contraste de hipótesis es la probabilidad de rechazar correctamente la hipótesis nula cuando es falsa (1 - β). La potencia aumenta con tamaños muestrales mayores, tamaños del efecto mayores y niveles de significación más altos. Una potencia de 0.80 (80%) se considera convencionalmente adecuada.

P

Probabilidad condicional

La probabilidad condicional P(A|B) es la probabilidad del evento A dado que B ha ocurrido, definida como P(A∩B)/P(B). Actualiza las probabilidades cuando se dispone de información parcial. Las probabilidades condicionales son el fundamento del teorema de Bayes y los árboles de probabilidad.

R

Rango intercuartílico

El rango intercuartílico (RIC) es la diferencia entre el tercer cuartil (Q3, percentil 75) y el primer cuartil (Q1, percentil 25). Mide la dispersión del 50% central de los datos y es robusto a los valores atípicos. El RIC se usa para definir umbrales de valores atípicos en los diagramas de caja.

R

Redes neuronales

Una red neuronal es un modelo computacional compuesto por capas de nodos interconectados (neuronas) que aplican transformaciones lineales ponderadas seguidas de funciones de activación no lineales. Las redes profundas con muchas capas ocultas aprenden representaciones jerárquicas y alcanzan el estado del arte en imagen, texto y datos secuenciales.

R

Regularización

La regularización añade una penalización a la función de pérdida para reducir la complejidad del modelo y prevenir el sobreajuste. La regularización L1 (Lasso) favorece la dispersión; la L2 (Ridge) contrae todos los coeficientes hacia cero. La regularización introduce sesgo pero reduce la varianza, mejorando la generalización.

R

Regresión Lasso

Lasso (regularización L1) añade una penalización proporcional a la suma de los valores absolutos de los coeficientes a la pérdida MCO. A diferencia de Ridge, Lasso puede reducir coeficientes exactamente a cero, realizando selección automática de variables. Es preferible cuando el modelo verdadero es disperso.

R

Regresión lineal

La regresión lineal modela el valor esperado de una respuesta continua como combinación lineal de predictores, estimada por mínimos cuadrados ordinarios (MCO). Supone linealidad, independencia de los errores, homocedasticidad y normalidad. Es el modelo de regresión más sencillo e interpretable.

R

Regresión lineal múltiple

La regresión lineal múltiple extiende la regresión simple a k predictores. Cada coeficiente mide el efecto de un predictor manteniendo constantes los demás. Los MCO minimizan la suma de residuos al cuadrado y requieren que la matriz de diseño tenga rango columna completo.

R

Regresión logística

La regresión logística modela la probabilidad de un resultado binario usando la función logística (sigmoide) aplicada a una combinación lineal de predictores. Se estima por máxima verosimilitud y produce coeficientes interpretables como logaritmos de la razón de momios. Es el modelo base estándar para clasificación binaria.

R

Regresión Ridge

La regresión Ridge (regularización L2) añade una penalización proporcional a la suma de los coeficientes al cuadrado a la pérdida MCO. Tiene solución de forma cerrada, contrae todos los coeficientes hacia cero sin eliminar ninguno y estabiliza las estimaciones bajo multicolinealidad. Preferible cuando se espera que todos los predictores contribuyan.

R

Residuo

Un residuo es la diferencia entre un valor observado y su valor ajustado por el modelo: eᵢ = yᵢ - ŷᵢ. Para que los MCO sean válidos, los residuos deben seguir aproximadamente una distribución normal con varianza constante (homocedasticidad) y autocorrelación cero. El análisis de residuos es la principal herramienta diagnóstica de regresión.

S

Sesgo

El sesgo es el error sistemático de un estimador: la diferencia entre su valor esperado y el verdadero valor del parámetro. Un estimador sesgado sobreestima o subestima sistemáticamente la verdad. El sesgo puede reducirse usando estimadores insesgados o corrigiendo los errores sistemáticos conocidos.

S

Series temporales

Una serie temporal es una sucesión de observaciones registradas en instantes de tiempo equidistantes. Sus propiedades clave son la tendencia (dirección a largo plazo), la estacionalidad (patrones periódicos) y la estacionariedad (media y varianza constantes en el tiempo). Los modelos ARIMA son el marco clásico para la predicción de series temporales.

S

Simulación de Montecarlo

La simulación de Montecarlo usa muestreo aleatorio repetido para estimar cantidades numéricas difíciles de calcular analíticamente. Se usa para aproximar integrales, estimar probabilidades y propagar la incertidumbre en modelos complejos. La precisión mejora a razón de O(1/√n) con el número de muestras.

S

Sobreajuste

El sobreajuste ocurre cuando un modelo aprende el ruido de los datos de entrenamiento en lugar del patrón subyacente, produciendo un error de entrenamiento bajo pero un error de test alto. Se previene mediante regularización, validación cruzada, más datos de entrenamiento y modelos más simples.

T

Tamaño del efecto

El tamaño del efecto cuantifica la magnitud de un efecto independientemente del tamaño muestral. La d de Cohen mide diferencias de medias estandarizadas; la r de Pearson mide la fuerza de la correlación; eta-cuadrado mide la varianza explicada en ANOVA. A diferencia de los p-valores, los tamaños del efecto reflejan la significación práctica.

T

Tamaño muestral

El cálculo del tamaño muestral determina el número mínimo de observaciones necesarias para detectar un tamaño del efecto dado con una potencia y un nivel de significación especificados. Muestras mayores reducen la varianza y aumentan la potencia pero tienen mayor coste. Los estudios infrapotenciados son una fuente importante de investigación irreproducible.

T

Teorema central del límite

El teorema central del límite establece que la distribución muestral de la media muestral se aproxima a una distribución normal a medida que el tamaño muestral aumenta, independientemente de la forma de la distribución poblacional. Justifica el uso de la inferencia basada en la normal para muestras grandes.

T

Teorema de Bayes

El teorema de Bayes actualiza la probabilidad de una hipótesis dada nueva evidencia. La probabilidad a posteriori es proporcional a la probabilidad a priori multiplicada por la verosimilitud. Es el fundamento de la inferencia bayesiana y se aplica en filtros de spam, diagnóstico médico y clasificadores de aprendizaje automático.

T

Test chi-cuadrado

El test chi-cuadrado evalúa si las frecuencias observadas en una tabla de contingencia difieren significativamente de las frecuencias esperadas bajo independencia. Se usa para contrastar asociaciones entre variables categóricas y para la bondad de ajuste a una distribución teórica.

T

Test de Kolmogorov-Smirnov

El test de Kolmogorov-Smirnov (KS) compara la distribución de una muestra con una distribución de referencia (una muestra) o compara las distribuciones de dos muestras (dos muestras). El estadístico de contraste es la diferencia absoluta máxima entre las funciones de distribución empíricas. Es un test de bondad de ajuste válido para distribuciones continuas.

T

Test de Kruskal-Wallis

El test de Kruskal-Wallis es una alternativa no paramétrica al ANOVA de un factor que contrasta si k grupos independientes provienen de la misma distribución. Usa rangos en lugar de valores brutos y no asume normalidad. Los resultados significativos pueden seguirse con contrastes post-hoc de Dunn.

T

Test de Shapiro-Wilk

El test de Shapiro-Wilk evalúa si una muestra proviene de una distribución normal. Calcula el cociente entre la mejor estimación lineal insesgada de la escala y la varianza muestral. Se considera el test de normalidad más potente para muestras pequeñas y medianas (n < 50) y se usa ampliamente como comprobación previa a los tests paramétricos.

T

Test de Wilcoxon

El test de rangos con signo de Wilcoxon es una alternativa no paramétrica al test t para datos apareados, que contrasta si la mediana de las diferencias apareadas es cero. El test de suma de rangos de Wilcoxon (U de Mann-Whitney) es la alternativa no paramétrica al test t de dos muestras. Ambos usan rangos en lugar de valores brutos.

T

Test F

El test F compara dos modelos anidados o contrasta la igualdad de dos varianzas. En regresión, el test F evalúa si al menos un predictor es significativo. En ANOVA, contrasta si las medias de los grupos difieren. El estadístico de contraste sigue una distribución F bajo la hipótesis nula.

T

Test t

El test t evalúa si una media muestral difiere significativamente de un valor hipotético (una muestra), si las medias de dos grupos independientes difieren (dos muestras) o si las diferencias apareadas tienen media cero (apareado). Asume normalidad; el test t de Welch no asume igualdad de varianzas.

T

Test z

El test z se usa para contrastar hipótesis sobre la media poblacional cuando la varianza poblacional es conocida o el tamaño muestral es grande (n > 30). El estadístico de contraste sigue una distribución normal estándar bajo H₀. En la práctica se prefiere el test t porque la varianza poblacional rara vez se conoce.

T

Tests paramétricos vs no paramétricos

Los tests paramétricos asumen que los datos siguen una distribución específica (generalmente normal) y estiman los parámetros de esa distribución. Los tests no paramétricos no hacen supuestos distribucionales y usan rangos en lugar de valores brutos. Los tests no paramétricos son más robustos pero generalmente menos potentes cuando se cumplen los supuestos paramétricos.

V

V de Cramér

La V de Cramér mide la fuerza de la asociación entre dos variables categóricas, derivada del estadístico chi-cuadrado. Oscila entre 0 (sin asociación) y 1 (asociación perfecta) y es comparable entre tablas de distintos tamaños.

V

Validación cruzada

La validación cruzada estima el rendimiento de generalización del modelo dividiendo repetidamente los datos en conjuntos de entrenamiento y validación. En la validación cruzada k-fold, los datos se dividen en k partes; el modelo se entrena con k-1 y se evalúa con la parte restante, repitiéndolo k veces. Proporciona una estimación más estable que una única división.

V

Valor atípico

Un valor atípico es una observación que se encuentra inusualmente lejos del resto de los datos. Puede deberse a errores de medición, de entrada de datos o a valores genuinamente extremos. Los valores atípicos distorsionan las medias, las desviaciones típicas y los estimadores de regresión; la mediana y el RIC son alternativas robustas.

V

Valor p

El valor p es la probabilidad de observar un estadístico de contraste tan extremo o más que el calculado a partir de la muestra, asumiendo que H₀ es verdadera. Un valor p pequeño (típicamente < 0.05) se toma como evidencia contra H₀. El valor p no mide la probabilidad de que H₀ sea verdadera.

V

Valores de Shapley

Los valores de Shapley, provenientes de la teoría de juegos cooperativos, atribuyen de forma equitativa la predicción de un modelo a las variables individuales. Satisfacen cuatro axiomas: eficiencia (los valores suman la predicción menos la línea base), simetría, variable nula y aditividad. SHAP los hace viables para modelos de aprendizaje automático incluyendo ensambles de árboles.

V

Variable aleatoria

Una variable aleatoria es una función que asigna un valor numérico a cada resultado de un experimento aleatorio. Las variables aleatorias discretas toman valores numerables; las continuas toman valores en un intervalo. Su comportamiento se describe mediante distribuciones de probabilidad.

V

Variables discretas vs continuas

Una variable discreta toma valores distintos y numerables (número de defectos, número de hijos). Una variable continua puede tomar cualquier valor en un intervalo (altura, temperatura, tiempo). Esta distinción determina qué distribuciones de probabilidad y métodos estadísticos son apropiados.

V

Varianza

La varianza es la desviación cuadrática media de las observaciones respecto a su media. La varianza muestral divide por n-1 para corregir el sesgo. Varianza alta significa que los datos están muy dispersos alrededor de la media. En aprendizaje automático, la varianza hace referencia a la sensibilidad del modelo a las fluctuaciones en los datos de entrenamiento.

X

XGBoost

XGBoost es un algoritmo de gradient boosting optimizado que construye árboles secuencialmente, cada uno corrigiendo los errores del ensamble anterior. Utiliza la expansión de Taylor de segundo orden de la pérdida, regularización L1/L2 explícita sobre los pesos de las hojas y submuestreo de columnas. Domina las competiciones con datos tabulares.