GLOSARIO DE TÉRMINOS ESTADÍSTICOS
AIC vs BIC
AIC (Criterio de Información de Akaike) y BIC (Criterio de Información Bayesiano) son criterios para la selección de modelos. El AIC minimiza la pérdida de información mientras que el BIC penaliza más fuertemente la complejidad del modelo, favoreciendo modelos más simples cuando el tamaño muestral es grande.
Agrupamiento jerárquico
El agrupamiento jerárquico construye un árbol de clústeres anidados (dendrograma) ya sea fusionando clústeres pequeños de abajo hacia arriba (aglomerativo) o dividiendo los grandes de arriba hacia abajo (divisivo). El criterio de enlace (simple, completo, promedio, Ward) determina cómo se mide la distancia entre clústeres. El número de clústeres se elige tras inspeccionar el dendrograma.
Read moreANOVA
El Análisis de la Varianza (ANOVA) es un contraste estadístico para comparar simultáneamente las medias de tres o más grupos. Evalúa si al menos una media difiere significativamente de las demás descomponiendo la varianza total en componentes entre grupos y dentro de grupos.
Read moreARIMA
ARIMA (Media Móvil Integrada Autorregresiva) combina componentes autorregresivos, de diferenciación y de media móvil para modelar series temporales estacionarias y no estacionarias. Los parámetros (p, d, q) representan el orden AR, el grado de diferenciación y el orden MA. Es el modelo de referencia estándar para la predicción de series temporales univariantes.
Read moreÁrbol de decisión
Un árbol de decisión particiona el espacio de características en regiones rectangulares dividiendo recursivamente según la variable y el umbral que mejor separan las clases. Es muy interpretable pero tiene alta varianza: pequeños cambios en los datos de entrenamiento pueden producir un árbol completamente distinto.
Read moreAsimetría
La asimetría mide la falta de simetría de una distribución respecto a su media. Asimetría positiva indica una cola larga hacia la derecha (media > mediana); asimetría negativa indica cola larga hacia la izquierda (media < mediana). Las distribuciones simétricas como la normal tienen asimetría cero.
Read moreAutocorrelación
La autocorrelación mide la correlación de una serie temporal consigo misma con un retardo determinado. Autocorrelación positiva significa que valores consecutivos tienden a ser similares; autocorrelación negativa significa que tienden a alternarse. Es la primera comprobación diagnóstica en cualquier modelo de series temporales.
Read moreBootstrap
El bootstrap es un método de remuestreo que estima la distribución muestral de un estadístico extrayendo repetidamente muestras con reemplazamiento de los datos observados. Se usa para calcular errores estándar e intervalos de confianza sin asumir una distribución paramétrica.
Read moreBosque aleatorio
El bosque aleatorio construye muchos árboles de decisión profundos sobre muestras bootstrap, usando un subconjunto aleatorio de variables en cada división para decorrelacionar los árboles. Las predicciones se promedian (regresión) o se decide por mayoría (clasificación). Reduce considerablemente la varianza respecto a un árbol individual.
Read moreCoeficiente de determinación (R²)
El R² mide la proporción de varianza de la variable respuesta explicada por el modelo, con valores entre 0 y 1. Añadir predictores siempre aumenta el R²; el R² ajustado penaliza la complejidad del modelo. En regresión lineal simple, R² es igual al cuadrado de la correlación de Pearson.
Read moreCoeficiente de variación
El coeficiente de variación (CV) es el cociente entre la desviación típica y la media, expresado como porcentaje. Mide la variabilidad relativa y permite comparar la dispersión entre conjuntos de datos con diferentes unidades o escalas.
Read moreCompromiso sesgo-varianza
El compromiso sesgo-varianza describe cómo el error de predicción se descompone en sesgo (error sistemático por supuestos incorrectos), varianza (sensibilidad a las fluctuaciones de los datos de entrenamiento) y ruido irreducible. Reducir el sesgo tiende a aumentar la varianza y viceversa. La regularización y los métodos de ensamble gestionan este compromiso.
Read moreConjunto de entrenamiento vs conjunto de test
El conjunto de entrenamiento se usa para ajustar el modelo; el conjunto de test se usa para estimar su capacidad de generalización. El conjunto de test no debe influir en ninguna decisión de modelado. Un conjunto de validación es una tercera partición para el ajuste de hiperparámetros, reservando el test para la evaluación final.
Read moreContraste de hipótesis
El contraste de hipótesis es un procedimiento estadístico para decidir entre dos hipótesis sobre un parámetro poblacional. Implica especificar H₀ y H₁, calcular un estadístico de contraste y compararlo con un valor crítico o calcular un p-valor para tomar una decisión al nivel de significación α elegido.
Read moreCorrelación
La correlación mide la fuerza y la dirección de la relación lineal entre dos variables continuas. La r de Pearson oscila entre -1 (correlación negativa perfecta) y +1 (correlación positiva perfecta), siendo 0 ausencia de relación lineal. La correlación no implica causalidad.
Read moreCorrelación de Pearson vs Spearman
La correlación de Pearson mide la relación lineal entre dos variables continuas y es sensible a los valores atípicos. La correlación de Spearman mide la relación monótona usando rangos; es robusta a valores atípicos y aplicable a datos ordinales. Se recomienda Spearman cuando no se puede asumir normalidad.
Read moreCovarianza
La covarianza mide la variabilidad conjunta de dos variables aleatorias. Covarianza positiva significa que ambas variables tienden a aumentar juntas; negativa significa que una tiende a disminuir cuando la otra aumenta. La correlación es la versión estandarizada de la covarianza, acotada entre -1 y 1.
Read moreCurva ROC y AUC
La curva ROC representa la sensibilidad (TPR) frente a 1-especificidad (FPR) para todos los umbrales de clasificación. El AUC (área bajo la curva) la resume: AUC = 0.5 es aleatorio; AUC = 1 es perfecto. El AUC equivale a la probabilidad de que el modelo clasifique un caso positivo por encima de uno negativo al azar.
Read moreCurtosis
La curtosis mide el peso de las colas de una distribución respecto a la distribución normal. La curtosis en exceso = curtosis - 3. Curtosis en exceso positiva (leptocúrtica) indica colas pesadas y más valores extremos; negativa (platicúrtica) indica colas ligeras.
Read moreDBSCAN
DBSCAN (Agrupamiento Espacial Basado en Densidad con Ruido) agrupa puntos densamente conectados dentro de un radio de vecindad ε, clasificando los puntos dispersos como ruido. A diferencia de K-means, descubre clústeres de forma arbitraria y no requiere especificar el número de clústeres de antemano.
Read moreDescenso de gradiente
El descenso de gradiente minimiza una función diferenciable moviéndose iterativamente en la dirección del gradiente negativo (máximo descenso). La tasa de aprendizaje controla el tamaño del paso. Es el algoritmo fundamental para entrenar redes neuronales y ajustar la regresión logística.
Read moreDesviación típica
La desviación típica es la raíz cuadrada de la varianza: la distancia promedio de las observaciones respecto a la media. Está en las mismas unidades que los datos, a diferencia de la varianza. La desviación típica muestral utiliza n-1 en el denominador (corrección de Bessel) para ser un estimador insesgado de la poblacional.
Read moreDiagrama de caja
Un diagrama de caja muestra el resumen de cinco números de un conjunto de datos: mínimo, primer cuartil (Q1), mediana, tercer cuartil (Q3) y máximo. La caja abarca el rango intercuartílico (RIC = Q3 - Q1), y los puntos fuera de 1.5 × RIC se representan como valores atípicos.
Distribución beta
La distribución beta es una distribución continua en [0,1] parametrizada por los parámetros de forma α y β. Se usa ampliamente como distribución a priori para probabilidades en inferencia bayesiana, para modelar proporciones y como distribución de los estadísticos de orden de una uniforme.
Read moreDistribución binomial
La distribución binomial modela el número de éxitos en n ensayos de Bernoulli independientes, cada uno con probabilidad p. Su media es np y su varianza es np(1-p). Converge a la distribución normal para n grande y a la de Poisson cuando n es grande y p es pequeño.
Read moreDistribución binomial negativa
La distribución binomial negativa modela el número de ensayos necesarios para obtener r éxitos, con probabilidad p por ensayo. Generaliza la distribución geométrica (r=1) y también se utiliza para modelar datos de recuento sobredispersos donde la varianza supera a la media, como alternativa a la Poisson.
Read moreDistribución de Bernoulli
La distribución de Bernoulli modela un único ensayo con dos resultados posibles: éxito (1) con probabilidad p y fracaso (0) con probabilidad 1-p. Su media es p y su varianza es p(1-p). Es la distribución discreta más sencilla y el bloque fundamental de la distribución binomial.
Read moreDistribución de Poisson
La distribución de Poisson modela el número de eventos que ocurren en un intervalo fijo de tiempo o espacio cuando los eventos ocurren a una tasa constante λ de forma independiente. Su media y varianza son ambas iguales a λ. Aproxima a la binomial cuando n es grande y p es pequeño.
Read moreDistribución de Weibull
La distribución de Weibull es una distribución continua flexible muy utilizada en ingeniería de fiabilidad y análisis de supervivencia. Su parámetro de forma β determina la tasa de riesgo: β < 1 indica riesgo decreciente (mortalidad infantil), β = 1 se reduce a la exponencial (riesgo constante) y β > 1 indica riesgo creciente (envejecimiento).
Read moreDistribución exponencial
La distribución exponencial modela el tiempo entre eventos en un proceso de Poisson, con parámetro de tasa λ. Su media es 1/λ y carece de memoria: la probabilidad de que ocurra un evento en el siguiente instante no depende del tiempo ya esperado. Se usa ampliamente en fiabilidad y análisis de supervivencia.
Read moreDistribución F
La distribución F es una distribución de probabilidad continua que surge como el cociente de dos distribuciones chi-cuadrado independientes divididas por sus grados de libertad respectivos. Se usa en el contraste F del ANOVA, en contrastes de igualdad de varianzas y en la significación global de la regresión.
Read moreDistribución gamma
La distribución gamma generaliza la distribución exponencial para modelar el tiempo de espera hasta el k-ésimo evento en un proceso de Poisson, con forma k y tasa λ. Incluye como casos particulares la distribución chi-cuadrado (k=ν/2, λ=1/2) y la exponencial (k=1).
Read moreDistribución geométrica
La distribución geométrica modela el número de ensayos necesarios para obtener el primer éxito, con probabilidad de éxito p por ensayo. Su media es 1/p y es la única distribución discreta sin memoria. Se usa en control de calidad, teoría de colas y modelado de fenómenos de primer éxito.
Read moreDistribución hipergeométrica
La distribución hipergeométrica modela el número de éxitos al extraer n elementos sin reemplazamiento de una población de N elementos que contiene K éxitos. A diferencia de la binomial, las extracciones sucesivas son dependientes. Se usa en control de calidad, genética y el test exacto de Fisher.
Read moreDistribución muestral
La distribución muestral de un estadístico es la distribución de probabilidad de ese estadístico calculado sobre todas las posibles muestras de un tamaño dado extraídas de la población. La desviación típica de la distribución muestral es el error estándar. El teorema central del límite describe la distribución muestral de la media.
Distribución normal
La distribución normal es una distribución continua simétrica con forma de campana, completamente descrita por su media μ y desviación típica σ. Aproximadamente el 68% de los valores se sitúan dentro de 1σ de la media y el 95% dentro de 2σ. Surge de forma natural a través del teorema central del límite.
Read moreDistribución t de Student
La distribución t de Student es una distribución simétrica con forma de campana y colas más pesadas que la normal. Surge al estimar la media de una población normal con varianza desconocida. A medida que aumentan los grados de libertad, converge a la distribución normal estándar.
Read moreElasticNet
ElasticNet combina penalizaciones L1 (Lasso) y L2 (Ridge) en una mezcla convexa controlada por un parámetro de mezcla. Realiza selección de variables como el Lasso y retiene el efecto de agrupación del Ridge, siendo preferible cuando los predictores están correlacionados y el modelo es disperso.
Read moreEntropía
La entropía de Shannon mide la incertidumbre media o el contenido informativo de una distribución de probabilidad. Entropía alta significa que los resultados son casi igualmente probables; entropía baja significa que domina un resultado. Se usa en árboles de decisión como criterio de división y en teoría de la información.
Error cuadrático medio
El error cuadrático medio (ECM) es el promedio de las diferencias al cuadrado entre valores predichos y observados. ECM = Sesgo² + Varianza, lo que lo convierte en una medida natural del compromiso sesgo-varianza. La raíz del ECM (RECM) está en las mismas unidades que la variable respuesta y es más fácil de interpretar.
Error de tipo I vs tipo II
Un error de tipo I (falso positivo, α) rechaza una hipótesis nula verdadera. Un error de tipo II (falso negativo, β) no rechaza una hipótesis nula falsa. Potencia = 1 - β. Reducir α (exigir evidencia más fuerte) aumenta β. El compromiso entre ambos depende de los costes relativos de cada error.
Read moreError estándar
El error estándar (EE) es la desviación típica de la distribución muestral de un estadístico. Para la media muestral, EE = σ/√n. Mide la precisión con la que el estadístico muestral estima el parámetro poblacional. Los intervalos de confianza y los contrastes t utilizan el error estándar.
Estacionariedad
Una serie temporal es estacionaria si su media, varianza y estructura de autocovarianza no cambian a lo largo del tiempo. La mayoría de los modelos de series temporales (ARIMA, VAR) requieren estacionariedad. Las series no estacionarias se transforman mediante diferenciación, transformación logarítmica o eliminación de la tendencia.
Read moreEstadística descriptiva vs inferencial
La estadística descriptiva resume y describe los datos observados mediante medidas como la media, la varianza y los gráficos. La estadística inferencial usa datos muestrales para sacar conclusiones sobre una población más amplia, cuantificando la incertidumbre mediante intervalos de confianza y contrastes de hipótesis.
Estimación por máxima verosimilitud
La estimación por máxima verosimilitud (EMV) encuentra los valores de los parámetros que maximizan la probabilidad de observar los datos muestrales. Los estimadores EMV son consistentes y asintóticamente eficientes. Para datos normales, la EMV coincide con los mínimos cuadrados para la media; para datos binarios, da lugar a la regresión logística.
Estimador
Un estimador es una función de los datos muestrales utilizada para estimar un parámetro poblacional desconocido. Un buen estimador es insesgado (su valor esperado es igual al parámetro verdadero), consistente (converge al valor verdadero cuando n crece) y eficiente (tiene varianza mínima entre los estimadores insesgados).
Read moreEventos independientes
Dos eventos A y B son independientes si la ocurrencia de uno no afecta a la probabilidad del otro: P(A∩B) = P(A)·P(B). La independencia implica P(A|B) = P(A). Es una condición más fuerte que la incompatibilidad y es fundamental para definir variables aleatorias independientes.
Read moreFalso positivo vs falso negativo
Un falso positivo (error de tipo I) ocurre cuando se rechaza una hipótesis nula verdadera. Un falso negativo (error de tipo II) ocurre cuando no se rechaza una hipótesis nula falsa. En clasificación, un falso positivo predice incorrectamente la clase positiva; un falso negativo no detecta un caso positivo real.
Read moreFunción de densidad de probabilidad
La función de densidad de probabilidad (fdp) f(x) de una variable aleatoria continua indica la probabilidad relativa de que la variable tome un valor dado. La probabilidad de que la variable caiga en el intervalo [a, b] es la integral de f(x) entre a y b. El área total bajo la fdp es igual a 1.
Read moreFunción de distribución acumulada
La función de distribución acumulada (FDA) F(x) da la probabilidad de que una variable aleatoria X tome un valor menor o igual que x. Para variables discretas es una función escalonada; para variables continuas es suave y estrictamente creciente. La FDA caracteriza completamente una distribución de probabilidad.
Read moreFunción de masa de probabilidad
La función de masa de probabilidad (fmp) de una variable aleatoria discreta da la probabilidad de cada valor posible. P(X = x) ≥ 0 para todo x, y la suma sobre todos los valores posibles es igual a 1. Es la contraparte discreta de la función de densidad de probabilidad.
Read moreFunción de verosimilitud
La función de verosimilitud L(θ; x) da la probabilidad de observar los datos x en función del parámetro θ. La estimación por máxima verosimilitud (EMV) encuentra el valor del parámetro que maximiza L. A diferencia de la probabilidad, la verosimilitud no está normalizada y no puede interpretarse como probabilidad sobre θ.
Grados de libertad
Los grados de libertad son el número de valores independientes en un cálculo que pueden variar libremente. Al estimar k parámetros a partir de n observaciones, los grados de libertad residuales son n - k. Determinan la forma de las distribuciones t, chi-cuadrado y F utilizadas en los contrastes de hipótesis.
Hipótesis alternativa
La hipótesis alternativa (H₁) afirma que existe un efecto o relación estadísticamente significativa en la población. Es lo que el investigador trata de demostrar y se acepta cuando se rechaza la hipótesis nula.
Read moreHipótesis nula
La hipótesis nula (H₀) es la suposición por defecto de que no existe efecto, diferencia ni relación en la población. El contraste de hipótesis intenta encontrar evidencia suficiente para rechazarla en favor de la alternativa. No rechazar H₀ no prueba que sea verdadera.
Read moreHistograma
Un histograma muestra la distribución de una variable continua dividiendo su rango en intervalos y representando la frecuencia o densidad de observaciones en cada uno. A diferencia de un gráfico de barras, los intervalos son contiguos. La elección de la anchura de los intervalos influye notablemente en el aspecto visual.
Importancia de variables
La importancia de variables mide cuánto contribuye cada predictor a las predicciones del modelo. La importancia basada en impureza suma la reducción de impureza en todas las divisiones de una variable. La importancia por permutación mide cuánto aumenta el error al permutar aleatoriamente los valores de una variable.
Read moreInferencia bayesiana vs frecuentista
La inferencia frecuentista trata los parámetros como fijos y desconocidos, haciendo afirmaciones sobre la probabilidad de los datos dado el parámetro. La inferencia bayesiana trata los parámetros como variables aleatorias con distribuciones a priori, actualizándolas con los datos para obtener la distribución a posteriori.
Infraajuste
El infraajuste ocurre cuando un modelo es demasiado simple para capturar la estructura subyacente de los datos, resultando en error alto tanto en entrenamiento como en test. Lo causan la regularización excesiva, pocos parámetros o usar la clase de modelo equivocada. El sesgo es la fuente dominante de error.
Read moreIntervalo de confianza
Un intervalo de confianza es un rango de valores calculado a partir de datos muestrales que, bajo muestreo repetido, contendría el verdadero parámetro poblacional un porcentaje especificado de las veces. Un IC del 95% no significa que haya un 95% de probabilidad de que el parámetro esté en ese intervalo concreto.
Read moreIntervalo de confianza vs intervalo de predicción
Un intervalo de confianza cuantifica la incertidumbre sobre la respuesta media para un valor dado del predictor. Un intervalo de predicción es más amplio porque también incluye la variabilidad de las observaciones individuales alrededor de la media. Los intervalos de predicción son siempre más anchos que los de confianza.
Read moreJackknife
El jackknife es un método de remuestreo que estima el sesgo y la varianza eliminando repetidamente una observación cada vez. Para n observaciones produce n muestras jackknife de tamaño n-1. Es computacionalmente más barato que el bootstrap y particularmente útil para la corrección del sesgo.
Read moreK-means
K-means particiona n observaciones en K clústeres asignando iterativamente cada punto al centroide más cercano y recalculando los centroides como medias del clúster. Minimiza la suma de cuadrados dentro de los clústeres. K debe especificarse de antemano; K-means++ mejora la inicialización para evitar mínimos locales deficientes.
Read moreK vecinos más cercanos
KNN clasifica una nueva observación por votación mayoritaria entre sus k puntos de entrenamiento más cercanos según una métrica de distancia elegida. Es un aprendiz no paramétrico basado en instancias sin fase de entrenamiento. El rendimiento se degrada en dimensiones altas por la maldición de la dimensionalidad.
Read moreLey de los grandes números
La ley de los grandes números establece que a medida que aumenta el tamaño muestral, la media muestral converge a la media poblacional. La ley débil da convergencia en probabilidad; la ley fuerte da convergencia casi segura. Proporciona la justificación teórica del uso de estadísticos muestrales para estimar parámetros poblacionales.
Máquina de vectores soporte
La máquina de vectores soporte (SVM) encuentra el hiperplano que maximiza el margen entre dos clases. Solo los vectores soporte (puntos en el límite del margen) determinan su posición. El truco del núcleo permite fronteras no lineales mapeando implícitamente los datos a un espacio de mayor dimensión.
Read moreMatriz de confusión
Una matriz de confusión es una tabla que resume el rendimiento de un modelo de clasificación. Las filas representan las clases reales y las columnas las predichas. Muestra verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos, a partir de los cuales se calculan exactitud, precisión, sensibilidad y puntuación F1.
Read moreMedia
La media aritmética es la suma de todos los valores dividida por el número de observaciones. Es la medida de tendencia central más habitual pero sensible a los valores atípicos, que pueden alejarla del centro de la distribución. Para datos asimétricos, la mediana suele ser más representativa.
Read moreMediana
La mediana es el valor central de un conjunto de datos ordenado, dividiendo la distribución en dos mitades iguales. Es robusta a los valores atípicos y una mejor medida de tendencia central que la media para distribuciones asimétricas. Con un número par de observaciones, es la media de los dos valores centrales.
Read moreModa
La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. Una distribución puede ser unimodal, bimodal o multimodal. Es la única medida de tendencia central aplicable a datos nominales y se usa para describir la categoría más común.
Read moreMulticolinealidad
La multicolinealidad ocurre cuando dos o más predictores en un modelo de regresión están muy correlacionados. Infla la varianza de los estimadores de los coeficientes, haciéndolos inestables y difíciles de interpretar. El FIV (factor de inflación de la varianza) la cuantifica: FIV > 10 indica colinealidad problemática.
Read moreMuestreo aleatorio simple
El muestreo aleatorio simple selecciona n observaciones de una población de N de modo que toda muestra posible de tamaño n tiene igual probabilidad de selección. Es el método de referencia frente al que se evalúan otros diseños muestrales. En la práctica requiere un marco muestral completo.
Read moreMuestreo estratificado
El muestreo estratificado divide la población en subgrupos homogéneos (estratos) y extrae una muestra aleatoria simple de cada uno. Garantiza la representación de todos los subgrupos y normalmente proporciona estimaciones más precisas que el muestreo aleatorio simple cuando los estratos son internamente homogéneos.
Read moreMuestreo por conglomerados
El muestreo por conglomerados divide la población en grupos (conglomerados), selecciona aleatoriamente algunos conglomerados y encuesta a todos sus miembros. Es más práctico que el muestreo aleatorio simple cuando la población está geográficamente dispersa, aunque suele producir estimaciones menos precisas.
Read moreMuestreo sistemático
El muestreo sistemático selecciona cada k-ésimo elemento de una población ordenada tras un inicio aleatorio. Es más sencillo de aplicar que el muestreo aleatorio simple y con frecuencia produce una precisión similar. Puede ser problemático si la población tiene un patrón periódico con período igual al intervalo de muestreo.
Read moreNaive Bayes
Naive Bayes clasifica aplicando el teorema de Bayes con el supuesto de que todas las variables son condicionalmente independientes dada la clase. Aunque esto rara vez es cierto, funciona bien en la práctica, especialmente en clasificación de texto. Es rápido, interpretable y eficaz con muestras pequeñas.
Read morePercentil
El percentil k es el valor por debajo del cual cae el k% de las observaciones. Los percentiles 25, 50 y 75 son Q1, Q2 (mediana) y Q3. Los percentiles describen la posición relativa de un valor dentro de una distribución y se usan en curvas de crecimiento, puntuaciones de tests y distribuciones de renta.
Read morePoblación vs muestra
Una población es el conjunto completo de individuos que comparten una característica de interés. Una muestra es un subconjunto seleccionado de la población para su estudio. Dado que estudiar poblaciones completas suele ser impracticable, se realizan inferencias a partir de muestras usando métodos estadísticos.
Read morePotencia de un contraste
La potencia de un contraste de hipótesis es la probabilidad de rechazar correctamente la hipótesis nula cuando es falsa (1 - β). La potencia aumenta con tamaños muestrales mayores, tamaños del efecto mayores y niveles de significación más altos. Una potencia de 0.80 (80%) se considera convencionalmente adecuada.
Read moreProbabilidad condicional
La probabilidad condicional P(A|B) es la probabilidad del evento A dado que B ha ocurrido, definida como P(A∩B)/P(B). Actualiza las probabilidades cuando se dispone de información parcial. Las probabilidades condicionales son el fundamento del teorema de Bayes y los árboles de probabilidad.
Read moreRango intercuartílico
El rango intercuartílico (RIC) es la diferencia entre el tercer cuartil (Q3, percentil 75) y el primer cuartil (Q1, percentil 25). Mide la dispersión del 50% central de los datos y es robusto a los valores atípicos. El RIC se usa para definir umbrales de valores atípicos en los diagramas de caja.
Read moreRedes neuronales
Una red neuronal es un modelo computacional compuesto por capas de nodos interconectados (neuronas) que aplican transformaciones lineales ponderadas seguidas de funciones de activación no lineales. Las redes profundas con muchas capas ocultas aprenden representaciones jerárquicas y alcanzan el estado del arte en imagen, texto y datos secuenciales.
Read moreRegularización
La regularización añade una penalización a la función de pérdida para reducir la complejidad del modelo y prevenir el sobreajuste. La regularización L1 (Lasso) favorece la dispersión; la L2 (Ridge) contrae todos los coeficientes hacia cero. La regularización introduce sesgo pero reduce la varianza, mejorando la generalización.
Read moreRegresión Lasso
Lasso (regularización L1) añade una penalización proporcional a la suma de los valores absolutos de los coeficientes a la pérdida MCO. A diferencia de Ridge, Lasso puede reducir coeficientes exactamente a cero, realizando selección automática de variables. Es preferible cuando el modelo verdadero es disperso.
Read moreRegresión lineal
La regresión lineal modela el valor esperado de una respuesta continua como combinación lineal de predictores, estimada por mínimos cuadrados ordinarios (MCO). Supone linealidad, independencia de los errores, homocedasticidad y normalidad. Es el modelo de regresión más sencillo e interpretable.
Read moreRegresión lineal múltiple
La regresión lineal múltiple extiende la regresión simple a k predictores. Cada coeficiente mide el efecto de un predictor manteniendo constantes los demás. Los MCO minimizan la suma de residuos al cuadrado y requieren que la matriz de diseño tenga rango columna completo.
Read moreRegresión logística
La regresión logística modela la probabilidad de un resultado binario usando la función logística (sigmoide) aplicada a una combinación lineal de predictores. Se estima por máxima verosimilitud y produce coeficientes interpretables como logaritmos de la razón de momios. Es el modelo base estándar para clasificación binaria.
Read moreRegresión Ridge
La regresión Ridge (regularización L2) añade una penalización proporcional a la suma de los coeficientes al cuadrado a la pérdida MCO. Tiene solución de forma cerrada, contrae todos los coeficientes hacia cero sin eliminar ninguno y estabiliza las estimaciones bajo multicolinealidad. Preferible cuando se espera que todos los predictores contribuyan.
Read moreResiduo
Un residuo es la diferencia entre un valor observado y su valor ajustado por el modelo: eᵢ = yᵢ - ŷᵢ. Para que los MCO sean válidos, los residuos deben seguir aproximadamente una distribución normal con varianza constante (homocedasticidad) y autocorrelación cero. El análisis de residuos es la principal herramienta diagnóstica de regresión.
Read moreSesgo
El sesgo es el error sistemático de un estimador: la diferencia entre su valor esperado y el verdadero valor del parámetro. Un estimador sesgado sobreestima o subestima sistemáticamente la verdad. El sesgo puede reducirse usando estimadores insesgados o corrigiendo los errores sistemáticos conocidos.
Series temporales
Una serie temporal es una sucesión de observaciones registradas en instantes de tiempo equidistantes. Sus propiedades clave son la tendencia (dirección a largo plazo), la estacionalidad (patrones periódicos) y la estacionariedad (media y varianza constantes en el tiempo). Los modelos ARIMA son el marco clásico para la predicción de series temporales.
Read moreSimulación de Montecarlo
La simulación de Montecarlo usa muestreo aleatorio repetido para estimar cantidades numéricas difíciles de calcular analíticamente. Se usa para aproximar integrales, estimar probabilidades y propagar la incertidumbre en modelos complejos. La precisión mejora a razón de O(1/√n) con el número de muestras.
Sobreajuste
El sobreajuste ocurre cuando un modelo aprende el ruido de los datos de entrenamiento en lugar del patrón subyacente, produciendo un error de entrenamiento bajo pero un error de test alto. Se previene mediante regularización, validación cruzada, más datos de entrenamiento y modelos más simples.
Read moreTamaño del efecto
El tamaño del efecto cuantifica la magnitud de un efecto independientemente del tamaño muestral. La d de Cohen mide diferencias de medias estandarizadas; la r de Pearson mide la fuerza de la correlación; eta-cuadrado mide la varianza explicada en ANOVA. A diferencia de los p-valores, los tamaños del efecto reflejan la significación práctica.
Tamaño muestral
El cálculo del tamaño muestral determina el número mínimo de observaciones necesarias para detectar un tamaño del efecto dado con una potencia y un nivel de significación especificados. Muestras mayores reducen la varianza y aumentan la potencia pero tienen mayor coste. Los estudios infrapotenciados son una fuente importante de investigación irreproducible.
Read moreTeorema central del límite
El teorema central del límite establece que la distribución muestral de la media muestral se aproxima a una distribución normal a medida que el tamaño muestral aumenta, independientemente de la forma de la distribución poblacional. Justifica el uso de la inferencia basada en la normal para muestras grandes.
Teorema de Bayes
El teorema de Bayes actualiza la probabilidad de una hipótesis dada nueva evidencia. La probabilidad a posteriori es proporcional a la probabilidad a priori multiplicada por la verosimilitud. Es el fundamento de la inferencia bayesiana y se aplica en filtros de spam, diagnóstico médico y clasificadores de aprendizaje automático.
Read moreTest chi-cuadrado
El test chi-cuadrado evalúa si las frecuencias observadas en una tabla de contingencia difieren significativamente de las frecuencias esperadas bajo independencia. Se usa para contrastar asociaciones entre variables categóricas y para la bondad de ajuste a una distribución teórica.
Read moreTest de Kolmogorov-Smirnov
El test de Kolmogorov-Smirnov (KS) compara la distribución de una muestra con una distribución de referencia (una muestra) o compara las distribuciones de dos muestras (dos muestras). El estadístico de contraste es la diferencia absoluta máxima entre las funciones de distribución empíricas. Es un test de bondad de ajuste válido para distribuciones continuas.
Read moreTest de Kruskal-Wallis
El test de Kruskal-Wallis es una alternativa no paramétrica al ANOVA de un factor que contrasta si k grupos independientes provienen de la misma distribución. Usa rangos en lugar de valores brutos y no asume normalidad. Los resultados significativos pueden seguirse con contrastes post-hoc de Dunn.
Read moreTest de Shapiro-Wilk
El test de Shapiro-Wilk evalúa si una muestra proviene de una distribución normal. Calcula el cociente entre la mejor estimación lineal insesgada de la escala y la varianza muestral. Se considera el test de normalidad más potente para muestras pequeñas y medianas (n < 50) y se usa ampliamente como comprobación previa a los tests paramétricos.
Read moreTest de Wilcoxon
El test de rangos con signo de Wilcoxon es una alternativa no paramétrica al test t para datos apareados, que contrasta si la mediana de las diferencias apareadas es cero. El test de suma de rangos de Wilcoxon (U de Mann-Whitney) es la alternativa no paramétrica al test t de dos muestras. Ambos usan rangos en lugar de valores brutos.
Read moreTest F
El test F compara dos modelos anidados o contrasta la igualdad de dos varianzas. En regresión, el test F evalúa si al menos un predictor es significativo. En ANOVA, contrasta si las medias de los grupos difieren. El estadístico de contraste sigue una distribución F bajo la hipótesis nula.
Read moreTest t
El test t evalúa si una media muestral difiere significativamente de un valor hipotético (una muestra), si las medias de dos grupos independientes difieren (dos muestras) o si las diferencias apareadas tienen media cero (apareado). Asume normalidad; el test t de Welch no asume igualdad de varianzas.
Read moreTest z
El test z se usa para contrastar hipótesis sobre la media poblacional cuando la varianza poblacional es conocida o el tamaño muestral es grande (n > 30). El estadístico de contraste sigue una distribución normal estándar bajo H₀. En la práctica se prefiere el test t porque la varianza poblacional rara vez se conoce.
Read moreTests paramétricos vs no paramétricos
Los tests paramétricos asumen que los datos siguen una distribución específica (generalmente normal) y estiman los parámetros de esa distribución. Los tests no paramétricos no hacen supuestos distribucionales y usan rangos en lugar de valores brutos. Los tests no paramétricos son más robustos pero generalmente menos potentes cuando se cumplen los supuestos paramétricos.
V de Cramér
La V de Cramér mide la fuerza de la asociación entre dos variables categóricas, derivada del estadístico chi-cuadrado. Oscila entre 0 (sin asociación) y 1 (asociación perfecta) y es comparable entre tablas de distintos tamaños.
Read moreValidación cruzada
La validación cruzada estima el rendimiento de generalización del modelo dividiendo repetidamente los datos en conjuntos de entrenamiento y validación. En la validación cruzada k-fold, los datos se dividen en k partes; el modelo se entrena con k-1 y se evalúa con la parte restante, repitiéndolo k veces. Proporciona una estimación más estable que una única división.
Read moreValor atípico
Un valor atípico es una observación que se encuentra inusualmente lejos del resto de los datos. Puede deberse a errores de medición, de entrada de datos o a valores genuinamente extremos. Los valores atípicos distorsionan las medias, las desviaciones típicas y los estimadores de regresión; la mediana y el RIC son alternativas robustas.
Valor p
El valor p es la probabilidad de observar un estadístico de contraste tan extremo o más que el calculado a partir de la muestra, asumiendo que H₀ es verdadera. Un valor p pequeño (típicamente < 0.05) se toma como evidencia contra H₀. El valor p no mide la probabilidad de que H₀ sea verdadera.
Read moreValores de Shapley
Los valores de Shapley, provenientes de la teoría de juegos cooperativos, atribuyen de forma equitativa la predicción de un modelo a las variables individuales. Satisfacen cuatro axiomas: eficiencia (los valores suman la predicción menos la línea base), simetría, variable nula y aditividad. SHAP los hace viables para modelos de aprendizaje automático incluyendo ensambles de árboles.
Read moreVariable aleatoria
Una variable aleatoria es una función que asigna un valor numérico a cada resultado de un experimento aleatorio. Las variables aleatorias discretas toman valores numerables; las continuas toman valores en un intervalo. Su comportamiento se describe mediante distribuciones de probabilidad.
Read moreVariables discretas vs continuas
Una variable discreta toma valores distintos y numerables (número de defectos, número de hijos). Una variable continua puede tomar cualquier valor en un intervalo (altura, temperatura, tiempo). Esta distinción determina qué distribuciones de probabilidad y métodos estadísticos son apropiados.
Read moreVarianza
La varianza es la desviación cuadrática media de las observaciones respecto a su media. La varianza muestral divide por n-1 para corregir el sesgo. Varianza alta significa que los datos están muy dispersos alrededor de la media. En aprendizaje automático, la varianza hace referencia a la sensibilidad del modelo a las fluctuaciones en los datos de entrenamiento.
Read moreXGBoost
XGBoost es un algoritmo de gradient boosting optimizado que construye árboles secuencialmente, cada uno corrigiendo los errores del ensamble anterior. Utiliza la expansión de Taylor de segundo orden de la pérdida, regularización L1/L2 explícita sobre los pesos de las hojas y submuestreo de columnas. Domina las competiciones con datos tabulares.
Read more