Aprendizaje Automático [Guía Completa: Regresión, Clasificación, Clustering y Más]

Equilibrio sesgo-varianza

El equilibrio sesgo-varianza es la tensión fundamental en machine learning: los modelos complejos tienen bajo sesgo pero alta varianza; los simples tienen alto sesgo pero baja varianza.

Regresión lineal simple

La regresión lineal simple ajusta una recta a dos variables continuas usando mínimos cuadrados, cuantifica la relación con el R² y contrasta si la pendiente es significativamente distinta de cero.

Regresión lineal múltiple

La regresión lineal múltiple modela una variable respuesta como combinación lineal de varios predictores estimada por MCO. Aprende el R² ajustado, la multicolinealidad, el VIF y el contraste F.

Diagnósticos de regresión lineal

Los diagnósticos de regresión comprueban si los supuestos LINE se cumplen, identifican valores atípicos y observaciones influyentes, y detectan multicolinealidad antes de confiar en los resultados del modelo.

Regresión no lineal

La regresión no lineal ajusta modelos donde los parámetros aparecen de forma no lineal en la función de media. Los algoritmos de Gauss-Newton y Levenberg-Marquardt encuentran la solución de forma iterativa.

Regresión logística

La regresión logística modela la probabilidad de un evento binario con la función sigmoide. Los coeficientes se interpretan como odds ratios; la curva ROC y el AUC evalúan el poder discriminante del modelo.

Splines de regresión

Los splines de regresión ajustan curvas flexibles usando polinomios a trozos continuos unidos en los nodos. Los splines de suavizado seleccionan el parámetro de suavizado mediante validación cruzada generalizada (GCV).

Modelos aditivos generalizados

Los GAM combinan la interpretabilidad de la regresión con la flexibilidad de los splines: modelan cada predictor con una función suave y suman los efectos. El parámetro de suavizado se selecciona automáticamente con REML.

ANCOVA

El ANCOVA combina ANOVA y regresión: compara medias de grupos ajustando por variables continuas (covariables). El supuesto clave es la homogeneidad de pendientes: las rectas deben ser paralelas entre grupos.

Regularización

La regularización añade una penalización a la pérdida para evitar el sobreajuste. Ridge encoge los coeficientes hacia cero; Lasso los fuerza exactamente a cero realizando selección de variables automática.

Regresión Ridge

La regresión Ridge añade una penalización L2 a los MCO que encoge todos los coeficientes hacia cero sin anularlos. Es especialmente efectiva con predictores correlacionados y cuando p es próximo a n.

Regresión Lasso

La regresión Lasso penaliza con la norma L1 y fuerza coeficientes exactamente a cero, realizando selección de variables automática. Es la elección cuando se sospecha que solo unos pocos predictores son relevantes.

ElasticNet

ElasticNet combina las penalizaciones L1 y L2: selecciona variables como Lasso pero agrupa predictores correlacionados como Ridge. El parámetro alpha controla el equilibrio entre ambas penalizaciones.

K vecinos más cercanos

El KNN es un algoritmo no paramétrico perezoso que predice según los K vecinos más próximos en el espacio de características. La elección de K, la métrica de distancia y la normalización son cruciales.

Naive Bayes

Naive Bayes clasifica aplicando el teorema de Bayes con el supuesto de independencia condicional. Rápido, interpretable y sorprendentemente efectivo para clasificación de texto y filtrado de spam.

Análisis discriminante

LDA y QDA clasifican observaciones modelando distribuciones gaussianas condicionadas a la clase. LDA asume covarianzas iguales y da fronteras lineales; QDA permite covarianzas distintas y da fronteras cuadráticas.

Máquinas de soporte vectorial (SVM)

Las SVM encuentran el hiperplano que maximiza el margen entre clases. El truco del núcleo proyecta los datos a dimensiones superiores de forma implícita, permitiendo fronteras no lineales sin computación explícita de las características.

Redes neuronales

Las redes neuronales aprenden representaciones jerárquicas mediante capas de conexiones ponderadas. La retropropagación calcula los gradientes mediante la regla de la cadena; las funciones de activación introducen la no linealidad que hace poderoso el deep learning.

Árboles de decisión

Los árboles de decisión particionan el espacio de características en regiones rectangulares dividiendo recursivamente sobre la característica más informativa. Son interpretables, no requieren escalado y son la base de los métodos ensemble más potentes.

Random forest

El random forest construye muchos árboles profundos sobre muestras bootstrap, cada uno usando un subconjunto aleatorio de características en cada división. Promediar árboles descorrelacionados reduce drásticamente la varianza sin aumentar el sesgo.

Gradient boosting y XGBoost

El gradient boosting ajusta árboles secuencialmente a los residuos del modelo actual, convirtiendo aprendices débiles en un predictor fuerte. XGBoost añade optimización de segundo orden, regularización y velocidad.

K-medias (k-means)

K-medias particiona los datos en K clusters asignando iterativamente los puntos al centroide más cercano y actualizando los centroides. Aprende k-means++, el método del codo, el análisis de silueta y cuándo k-medias falla.

Agrupamiento jerárquico

El agrupamiento jerárquico construye un árbol de clusters anidados sin necesitar K de antemano. El dendrograma muestra el historial completo de fusiones; cortarlo a cualquier altura da un agrupamiento plano.

DBSCAN

DBSCAN encuentra clusters de forma arbitraria agrupando puntos en regiones densas. Detecta valores atípicos automáticamente y no requiere K de antemano. Epsilon y minPts controlan el umbral de densidad.

Análisis de componentes principales (PCA)

El PCA proyecta los datos sobre las direcciones de máxima varianza, reduciendo la dimensionalidad preservando la máxima cantidad de información posible. Aprende descomposición espectral, SVD, biplots y gráficos de sedimentación.

Análisis de correspondencias

El análisis de correspondencias proyecta filas y columnas de una tabla de contingencia en un espacio compartido de baja dimensión usando distancias chi-cuadrado. Es el equivalente del PCA para datos categóricos.

t-SNE y UMAP

t-SNE y UMAP reducen datos de alta dimensión a 2D para visualización preservando la estructura de vecindad local. Revelan clusters invisibles para el PCA pero requieren una interpretación cuidadosa.

Validación cruzada

La validación cruzada estima cómo generaliza un modelo a datos nuevos. Aprende k-fold, LOOCV, VC estratificada, VC anidada para selección de hiperparámetros sin sesgo, y VC para series temporales.

Curva ROC y AUC

La curva ROC representa sensibilidad vs (1-especificidad) a todos los umbrales de clasificación. El AUC mide la capacidad discriminativa global: P(puntuación de positivo > puntuación de negativo).

Valores de Shapley y SHAP

SHAP usa los valores de Shapley de la teoría de juegos para explicar predicciones individuales de cualquier modelo. Cada característica recibe una contribución que tiene en cuenta de forma justa todas las combinaciones posibles de características.

APRENDIZAJE AUTOMÁTICO

Introducción

Regresión

Regularización

Clasificación

Métodos basados en árboles

Clustering

Reducción de dimensionalidad

Evaluación de modelos