Científico de Datos con experiencia en modelos predictivos y análisis de datos
En este proyecto, nuestro objetivo es predecir la pérdida de clientes (la probabilidad de que un cliente abandone el banco) para el Banco Beta. El objetivo principal es construir un modelo de aprendizaje automático capaz de predecir con precisión si un cliente abandonará o no el banco, basándose en diversas características como datos demográficos, información de cuentas y comportamiento del cliente. Lograr un alto rendimiento en términos de precisión de predicción y minimizar los falsos negativos (clientes predichos para quedarse pero que en realidad se irán) es crucial para los esfuerzos de retención de clientes. Exploramos varios modelos, incluidos la regresión logística, los árboles de decisión y técnicas para manejar clases desequilibradas, como el sobremuestreo, el submuestreo y el balanceo de clases.
El desafío de predecir la pérdida de clientes en una institución financiera es vital para mitigar pérdidas mediante la atención proactiva a la insatisfacción del cliente. El conjunto de datos se caracteriza por un desequilibrio en las clases, donde el número de clientes que se van (pérdida) es significativamente menor que el de los que permanecen. Este desequilibrio complica el proceso de predicción y a menudo conduce a modelos sesgados que predicen la clase mayoritaria de manera más precisa.
A lo largo de este proyecto, experimentamos con diferentes modelos de aprendizaje automático y estrategias para manejar el desequilibrio de clases, evaluando los modelos en función de métricas clave como la precisión y la puntuación F1. A continuación, se presenta un resumen de los hallazgos para cada enfoque adoptado.
Inicialmente aplicamos Regresión Logística al problema. Este modelo se entrenó con las características proporcionadas y la variable objetivo, con un enfoque en clasificar si un cliente abandonaría o no el banco.
A pesar de tener una precisión razonable, la puntuación F1 fue significativamente más baja, lo que indica que el modelo no estaba prediciendo eficazmente la clase minoritaria (clientes que abandonan). Este resultado destacó la necesidad de un modelo más sofisticado o la aplicación de técnicas para abordar el desequilibrio de clases.
Luego, aplicamos un Clasificador de Árbol de Decisión con ponderación de clases configurada como “balanceada”. Esta técnica se eligió porque los árboles de decisión suelen ser efectivos para problemas de clasificación, y ajustar las ponderaciones de clases ayuda a equilibrar la importancia de ambas clases en el entrenamiento.
Probamos varios valores de max_depth para el árbol de decisión, que variaban de 1 a 8.
El uso de un árbol de decisión con ponderación de clases mejoró la puntuación F1, pero aún no alcanzó la puntuación objetivo de 0.59 para el conjunto de prueba. Sin embargo, este modelo mostró resultados prometedores al equilibrar las clases y predecir la pérdida de clientes.
Para abordar aún más el desequilibrio de clases, aplicamos sobremuestreo (upsampling) a los datos de entrenamiento. Esta técnica consistió en replicar la clase minoritaria (clientes que se van) para equilibrar la distribución de clases. Experimentamos con un factor de repetición de 5, lo que significó que la clase minoritaria se sobreamplió cinco veces para igualar el tamaño de la clase mayoritaria.
Aunque este método mejoró ligeramente la puntuación F1 en los datos de prueba, el rendimiento no superó sustancialmente al árbol de decisión con ponderación de clases. Sin embargo, el enfoque de sobremuestreo aumentó el equilibrio general en el conjunto de datos.
Finalmente, empleamos submuestreo (downsampling) como un enfoque alternativo para manejar el desequilibrio de clases. Esta técnica reduce la cantidad de muestras de la clase mayoritaria para lograr un conjunto de datos más equilibrado. Aplicamos una fracción de 0.25 a la clase mayoritaria, mientras que manteníamos intacta la clase minoritaria.
El submuestreo ayudó a alcanzar la puntuación F1 objetivo de 0.59 para el conjunto de validación y 0.60 para el conjunto de prueba, convirtiéndolo en el método más exitoso para lograr el equilibrio deseado entre precisión y recall.
Para evaluar la capacidad del modelo para discriminar entre clientes que se van y los que permanecen, calculamos la puntuación ROC-AUC, que mide la capacidad del modelo para clasificar correctamente las predicciones en todos los umbrales de clasificación.
Una puntuación AUC-ROC superior a 0.8 indica que el modelo está funcionando bien en la discriminación entre los casos de pérdida y no pérdida. Estos resultados demostraron que el modelo tiene un fuerte poder discriminatorio, lo que lo hace adecuado para identificar clientes en riesgo de abandonar.
En conclusión, el Clasificador de Árbol de Decisión con ponderación de clases y submuestreo surgió como el modelo de mejor rendimiento para predecir la pérdida de clientes en el Banco Beta. El modelo final alcanzó:
Estos resultados indican que el modelo puede predecir eficazmente la pérdida de clientes y proporcionar valiosos conocimientos para estrategias proactivas de retención. Aunque la puntuación F1 no es perfecta, cumple con el objetivo del proyecto de mejorar las predicciones de retención de clientes. Un ajuste adicional del modelo y la exploración de técnicas más avanzadas, como modelos de conjunto o aprendizaje profundo, podrían ofrecer incluso mejores resultados en el futuro.
Los conocimientos obtenidos de este modelo pueden ser utilizados por el Banco Beta para identificar clientes en riesgo, lo que permitirá al banco intervenir y mejorar la satisfacción del cliente, minimizando así la pérdida de clientes y mejorando la retención.