APRENDIZAJE AUTOMÁTICO
El machine learning es un campo de la inteligencia artificial centrado en desarrollar algoritmos que permitan a los sistemas aprender de los datos y mejorar su rendimiento con el tiempo sin programación explícita
Introducción
Regresión
Regresión lineal simple
La regresión lineal simple ajusta una recta a dos variables continuas usando mínimos cuadrados, cuantifica la relación con el R² y contrasta si la pendiente es significativamente distinta de cero.
Regresión lineal múltiple
La regresión lineal múltiple modela una variable respuesta como combinación lineal de varios predictores estimada por MCO. Aprende el R² ajustado, la multicolinealidad, el VIF y el contraste F.
Diagnósticos de regresión lineal
Los diagnósticos de regresión comprueban si los supuestos LINE se cumplen, identifican valores atípicos y observaciones influyentes, y detectan multicolinealidad antes de confiar en los resultados del modelo.
Regresión no lineal
La regresión no lineal ajusta modelos donde los parámetros aparecen de forma no lineal en la función de media. Los algoritmos de Gauss-Newton y Levenberg-Marquardt encuentran la solución de forma iterativa.
Regresión logística
La regresión logística modela la probabilidad de un evento binario con la función sigmoide. Los coeficientes se interpretan como odds ratios; la curva ROC y el AUC evalúan el poder discriminante del modelo.
Splines de regresión
Los splines de regresión ajustan curvas flexibles usando polinomios a trozos continuos unidos en los nodos. Los splines de suavizado seleccionan el parámetro de suavizado mediante validación cruzada generalizada (GCV).
Modelos aditivos generalizados
Los GAM combinan la interpretabilidad de la regresión con la flexibilidad de los splines: modelan cada predictor con una función suave y suman los efectos. El parámetro de suavizado se selecciona automáticamente con REML.
ANCOVA
El ANCOVA combina ANOVA y regresión: compara medias de grupos ajustando por variables continuas (covariables). El supuesto clave es la homogeneidad de pendientes: las rectas deben ser paralelas entre grupos.
Regularización
Regularización
La regularización añade una penalización a la pérdida para evitar el sobreajuste. Ridge encoge los coeficientes hacia cero; Lasso los fuerza exactamente a cero realizando selección de variables automática.
Regresión Ridge
La regresión Ridge añade una penalización L2 a los MCO que encoge todos los coeficientes hacia cero sin anularlos. Es especialmente efectiva con predictores correlacionados y cuando p es próximo a n.
Regresión Lasso
La regresión Lasso penaliza con la norma L1 y fuerza coeficientes exactamente a cero, realizando selección de variables automática. Es la elección cuando se sospecha que solo unos pocos predictores son relevantes.
ElasticNet
ElasticNet combina las penalizaciones L1 y L2: selecciona variables como Lasso pero agrupa predictores correlacionados como Ridge. El parámetro alpha controla el equilibrio entre ambas penalizaciones.
Clasificación
K vecinos más cercanos
El KNN es un algoritmo no paramétrico perezoso que predice según los K vecinos más próximos en el espacio de características. La elección de K, la métrica de distancia y la normalización son cruciales.
Naive Bayes
Naive Bayes clasifica aplicando el teorema de Bayes con el supuesto de independencia condicional. Rápido, interpretable y sorprendentemente efectivo para clasificación de texto y filtrado de spam.
Análisis discriminante
LDA y QDA clasifican observaciones modelando distribuciones gaussianas condicionadas a la clase. LDA asume covarianzas iguales y da fronteras lineales; QDA permite covarianzas distintas y da fronteras cuadráticas.
Máquinas de soporte vectorial (SVM)
Las SVM encuentran el hiperplano que maximiza el margen entre clases. El truco del núcleo proyecta los datos a dimensiones superiores de forma implícita, permitiendo fronteras no lineales sin computación explícita de las características.
Redes neuronales
Las redes neuronales aprenden representaciones jerárquicas mediante capas de conexiones ponderadas. La retropropagación calcula los gradientes mediante la regla de la cadena; las funciones de activación introducen la no linealidad que hace poderoso el deep learning.
Métodos basados en árboles
Árboles de decisión
Los árboles de decisión particionan el espacio de características en regiones rectangulares dividiendo recursivamente sobre la característica más informativa. Son interpretables, no requieren escalado y son la base de los métodos ensemble más potentes.
Random forest
El random forest construye muchos árboles profundos sobre muestras bootstrap, cada uno usando un subconjunto aleatorio de características en cada división. Promediar árboles descorrelacionados reduce drásticamente la varianza sin aumentar el sesgo.
Gradient boosting y XGBoost
El gradient boosting ajusta árboles secuencialmente a los residuos del modelo actual, convirtiendo aprendices débiles en un predictor fuerte. XGBoost añade optimización de segundo orden, regularización y velocidad.
Clustering
K-medias (k-means)
K-medias particiona los datos en K clusters asignando iterativamente los puntos al centroide más cercano y actualizando los centroides. Aprende k-means++, el método del codo, el análisis de silueta y cuándo k-medias falla.
Agrupamiento jerárquico
El agrupamiento jerárquico construye un árbol de clusters anidados sin necesitar K de antemano. El dendrograma muestra el historial completo de fusiones; cortarlo a cualquier altura da un agrupamiento plano.
DBSCAN
DBSCAN encuentra clusters de forma arbitraria agrupando puntos en regiones densas. Detecta valores atípicos automáticamente y no requiere K de antemano. Epsilon y minPts controlan el umbral de densidad.
Reducción de dimensionalidad
Análisis de componentes principales (PCA)
El PCA proyecta los datos sobre las direcciones de máxima varianza, reduciendo la dimensionalidad preservando la máxima cantidad de información posible. Aprende descomposición espectral, SVD, biplots y gráficos de sedimentación.
Análisis de correspondencias
El análisis de correspondencias proyecta filas y columnas de una tabla de contingencia en un espacio compartido de baja dimensión usando distancias chi-cuadrado. Es el equivalente del PCA para datos categóricos.
t-SNE y UMAP
t-SNE y UMAP reducen datos de alta dimensión a 2D para visualización preservando la estructura de vecindad local. Revelan clusters invisibles para el PCA pero requieren una interpretación cuidadosa.
Evaluación de modelos
Validación cruzada
La validación cruzada estima cómo generaliza un modelo a datos nuevos. Aprende k-fold, LOOCV, VC estratificada, VC anidada para selección de hiperparámetros sin sesgo, y VC para series temporales.
Curva ROC y AUC
La curva ROC representa sensibilidad vs (1-especificidad) a todos los umbrales de clasificación. El AUC mide la capacidad discriminativa global: P(puntuación de positivo > puntuación de negativo).
Valores de Shapley y SHAP
SHAP usa los valores de Shapley de la teoría de juegos para explicar predicciones individuales de cualquier modelo. Cada característica recibe una contribución que tiene en cuenta de forma justa todas las combinaciones posibles de características.