Conceptos Esenciales en Modelos Predictivos y Optimización de Machine Learning

Métricas de Desempeño en Modelos Predictivos

Las medidas de desempeño cuantifican la precisión de las predicciones, utilizando comúnmente la matriz de confusión. A continuación, se detallan las principales:

Accuracy: Mide la proporción total de predicciones correctas (Verdaderos Positivos y Verdaderos Negativos sobre el total de observaciones). Sin embargo, no distingue entre tipos de aciertos y puede ofrecer una visión errónea del desempeño, especialmente en clases desbalanceadas.
Sensibilidad (Recall): Es la proporción de casos positivos que el modelo predice correctamente (Verdaderos Positivos / (Verdaderos Positivos + Falsos Negativos)).
Especificidad: Es la proporción de casos negativos que el modelo predice correctamente (Verdaderos Negativos / (Verdaderos Negativos + Falsos Positivos)).
Acierto Balanceado (Balanced Accuracy): Combina la sensibilidad y la especificidad, siendo útil en escenarios con clases desbalanceadas.
Curva ROC (Receiver Operating Characteristic) y AUC (Area Under the Curve): La curva ROC grafica la sensibilidad contra la tasa de Falsos Positivos (1 – Especificidad) para todos los umbrales de clasificación posibles. El AUC (Área bajo la Curva) resume el desempeño general del modelo, considerando todos estos umbrales. Un AUC cercano a 1 indica un excelente poder discriminatorio.

Predicción de Fuga de Clientes (Churn Prediction)

Retener a los clientes existentes es, por lo general, más rentable que adquirir nuevos. La gestión de relaciones con el cliente (CRM) abarca estrategias de adquisición, cross-selling (venta cruzada) y upselling (venta adicional), siendo la predicción de fuga un componente crucial para la retención.

Modelos de Caja Negra

Los modelos de caja negra son aquellos cuya lógica interna no es directamente interpretable; solo conocemos los datos de entrada y las predicciones de salida, pero no el «cómo» se llega a esa predicción. Algunos ejemplos incluyen:

K-Vecinos (K-Nearest Neighbors – KNN): Predice un nuevo dato basándose en la clase o valor de sus vecinos más cercanos. El valor de ‘K’ (número de vecinos) debe ser impar para evitar empates en la clasificación. Asume que todas las variables son igualmente importantes, pero es un modelo simple y fácil de usar.
Naive Bayes: Calcula la probabilidad de que una observación pertenezca a una clase específica utilizando el Teorema de Bayes. Se basa en el supuesto de que las características son independientes entre sí, lo que lo hace rápido y fácil de implementar.
Random Forest: Consiste en un conjunto de árboles de decisión. Cada árbol emite una predicción, y la clase final se decide por votación (para clasificación) o promediando las predicciones (para regresión). Este enfoque mejora la precisión y ayuda a evitar el sobreajuste.
XGBoost (eXtreme Gradient Boosting): Es una mejora de los algoritmos de boosting, como Random Forest, que corrige los errores de los árboles anteriores de manera secuencial, logrando una mayor precisión y eficiencia.

Interpretación de Modelos de Caja Negra

Aunque los modelos de caja negra no son intrínsecamente interpretables, existen técnicas para entender la importancia de las características o cómo contribuyen a una predicción específica:

Boruta: Es un algoritmo de selección de características que identifica y ordena los atributos relevantes. Compara la importancia de cada variable original con la de sus versiones aleatorias (variables «sombra»). Una variable se considera relevante si su importancia supera la importancia máxima de las sombras, clasificándolas como relevantes, irrelevantes o dudosas.
TreeSHAP (SHapley Additive exPlanations for Trees): Es una técnica que interpreta modelos basados en árboles (como Random Forest o XGBoost). Explica cómo cada variable contribuye a la predicción individual de un modelo, asignando un valor SHAP a cada característica.

Inteligencia Artificial (IA): Redes Neuronales Artificiales (ANN)

Las Redes Neuronales Artificiales (ANN) son modelos inspirados en la estructura y funcionamiento del cerebro humano, diseñadas para aprender de los datos y realizar predicciones o clasificaciones. Imitan la sinapsis neuronal para procesar información.

Perceptrón: Es la unidad básica de una red neuronal. Consta de:
- Nodos de entrada: Representan las variables o características de los datos.
- Pesos: Indican la importancia de cada entrada.
- Función de activación: Transforma la suma ponderada de las entradas en una salida.
- Nodo de salida: Produce la predicción o clasificación final.
El algoritmo de backpropagation fue introducido para entrenar redes neuronales multicapa, las cuales poseen capas ocultas capaces de capturar funciones no lineales y relaciones complejas en los datos. Las ANN pueden sobreajustar al aprender del ruido; sin embargo, cuantas más capas ocultas, mayor es su capacidad predictiva.
Backpropagation: Es el algoritmo fundamental para entrenar redes neuronales, ajustando los pesos de la red de forma iterativa para mejorar la predicción. Su objetivo es minimizar el error entre la predicción y el valor real. Puede quedar atrapado en un mínimo local debido a la naturaleza no convexa de la función de pérdida.
1. Fase Forward (Propagación hacia adelante): Los datos de entrada se propagan a través de la red para generar una predicción y calcular el error (función de pérdida).
2. Fase Backward (Propagación hacia atrás): Después de calcular el error, este se propaga hacia atrás a través de la red para ajustar los pesos. La red «aprende» del error para reducirlo en futuras predicciones, utilizando parámetros como la tasa de aprendizaje, el número de épocas, el momentum (que da inercia al ajuste de pesos) y el decaimiento de pesos (para evitar que los pesos crezcan demasiado).

Funciones de Activación y Pérdida

Función de Activación: Da forma a la señal en cada neurona, permitiendo que la red modele relaciones complejas y no lineales.
Función de Pérdida (o Costo): Indica qué tan bien está funcionando la red al cuantificar la diferencia entre la predicción y el valor real. Es la métrica que la red intenta minimizar durante el entrenamiento.

Método de Gradiente Estocástico (Stochastic Gradient Descent – SGD)

El método de gradiente estocástico es una técnica de optimización utilizada para entrenar redes neuronales. En lugar de calcular el gradiente sobre todo el conjunto de datos, lo hace sobre un subconjunto aleatorio de datos (un batch), lo que acelera el cálculo y permite un aprendizaje más rápido.

Control del Sobreajuste (Overfitting)

El sobreajuste ocurre cuando un modelo aprende demasiado bien los datos de entrenamiento, incluyendo el ruido, y pierde la capacidad de predecir nuevos datos de manera efectiva. Es crucial encontrar un equilibrio entre el underfitting (modelo demasiado simple) y el overfitting. Técnicas para evitar el sobreajuste incluyen:

Early Stopping: Detener el entrenamiento cuando la pérdida en el conjunto de validación deja de mejorar.
Regularización (L1 y L2): Añade una penalización a los pesos grandes del modelo, lo que ayuda a simplificarlo y reducir la complejidad.
Dropout: Elimina aleatoriamente un porcentaje de neuronas durante el entrenamiento, forzando a la red a aprender representaciones más robustas.

Las redes neuronales son flexibles y tienen un buen desempeño, pero presentan desafíos como la pérdida de interpretabilidad, una optimización compleja y la necesidad de un ajuste fino de sus hiperparámetros.

Máquinas de Vectores de Soporte (SVM)

Las Máquinas de Vectores de Soporte (SVM) son modelos potentes que construyen funciones no lineales para la clasificación y regresión. Incorporan la regularización L2 para equilibrar el ajuste del modelo y su simplicidad, lo que ayuda a evitar el sobreajuste. Son modelos convexos, rápidos en la predicción y robustos ante datos ruidosos.

Resultados de Laboratorio y Aplicación Práctica

En un contexto de aplicación práctica, como la predicción de riesgo crediticio, se suelen seguir los siguientes pasos:

Balanceo de Clases: Utilización de técnicas como SMOTE (Synthetic Minority Over-sampling Technique) para equilibrar las clases en conjuntos de datos desbalanceados (ej., pocos casos de defaulters).
Aplicación de Modelos: Se aplican diferentes modelos predictivos (ej., SVM, Redes Neuronales).
Evaluación de Desempeño: Se calculan métricas como Accuracy, se analiza la matriz de confusión y el AUC para comparar el rendimiento de los modelos.
Comparación de Modelos: En un caso de estudio, se observó que SVM lideró en desempeño, seguido por las redes neuronales. Las curvas ROC confirmaron que SVM fue superior. Específicamente, para predecir el riesgo crediticio, SVM obtuvo el mayor Accuracy (88%) y el mayor AUC (0.881).
Ajuste de Umbral: Se importa el modelo SVM y se preprocesan los datos. Se calcula la proporción inicial de defaulters con un umbral predeterminado. Al aumentar este umbral, la proporción de clientes clasificados como defaulters disminuye.

Ajustar el umbral de clasificación según los objetivos estratégicos de la empresa es fundamental, ya que esto modifica la proporción de clientes clasificados en cada categoría.

Preguntas Clave y Conceptos Adicionales

Objetivo de medida de desempeño para fuga de clientes:: Maximizar las utilidades de la campaña de retención.
Afirmación FALSA sobre SVM y Redes Neuronales:: Mejoran la interpretabilidad (generalmente, son modelos de caja negra).
Afirmación FALSA sobre Redes Neuronales Artificiales (ANN):: La solución óptima se alcanza con épocas < 500 (el número óptimo de épocas varía y puede ser mucho mayor).
Parámetros de ANN que se modifican y evalúan:: Número de neuronas en la capa oculta y decaimiento de pesos.
Cómo SVM reduce el sobreajuste:: Minimiza el error de entrenamiento y la norma (regularización).
Afirmación FALSA pensando en ROC (AUC):: Permite aumentar la sensibilidad del modelo (ROC muestra el trade-off entre sensibilidad y especificidad, no solo aumenta una).
Afirmación VERDADERA sobre Random Forest:: Las filas se muestrean con bagging (Bootstrap Aggregating).
Supuesto clave de K-Vecinos:: Los atributos tienen igual importancia.
Afirmación INCORRECTA sobre Árbol de Decisión:: Es un modelo de caja negra (los árboles de decisión son modelos interpretables).
Afirmación FALSA sobre Backpropagation:: Ninguna (todas las afirmaciones comunes sobre backpropagation suelen ser verdaderas en su contexto).
Desafíos en la detección de fraude:: Es un problema adversarial (los defraudadores se adaptan) y las etiquetas pueden no ser precisas.
Taller de predicción, umbral y SMOTE:: Mantener la proporción de clases (SMOTE se usa para balancear las clases y así el modelo no se sesgue hacia la clase mayoritaria).