Científico de Datos con experiencia en modelos predictivos y análisis de datos
Megaline, una compañía de telefonía móvil, ha identificado un desafío significativo: muchos de sus clientes siguen utilizando planes móviles heredados a pesar de que existen opciones más nuevas y completas. Para abordar este problema, Megaline tiene como objetivo desarrollar un modelo de aprendizaje automático que pueda predecir a cuál de los dos planes disponibles (Smart o Ultra) es probable que un cliente cambie, en función de su comportamiento de uso. La compañía tiene acceso a datos de clientes que ya han hecho la transición a uno de los nuevos planes, y el objetivo es crear un modelo con una precisión de al menos 0.75 (75%) que pueda recomendar el plan adecuado a los clientes potenciales.
El proyecto involucra los siguientes pasos:
El objetivo general es crear un modelo que no solo cumpla con la precisión objetivo, sino que también proporcione información valiosa para que Megaline pueda orientar mejor a sus clientes y mejorar sus estrategias de marketing.
El conjunto de datos consta de 3,214 observaciones y 5 características:
Al revisar los datos, la distribución muestra que aproximadamente el 69% de los clientes están en el plan Smart y el 31% están en el plan Ultra. Las características son numéricas y no hay valores faltantes en el conjunto de datos. Las estadísticas descriptivas básicas confirman que los datos van de 0 a un número alto de llamadas, minutos, mensajes y uso de datos.
Para evaluar adecuadamente el rendimiento del modelo, el conjunto de datos se divide en tres subconjuntos:
Esta división asegura que los modelos se entrenen con una parte de los datos, se validen con otra y se prueben con un conjunto de datos completamente nuevo.
Se eligieron tres modelos de aprendizaje automático para la tarea de clasificación:
Cada modelo fue entrenado en el conjunto de entrenamiento y evaluado en el conjunto de validación. Las puntuaciones de precisión para cada modelo fueron las siguientes:
Para mejorar el rendimiento de los modelos sensibles a la escala de los datos, como la Regresión Logística, se normalizaron las características utilizando el StandardScaler. Los resultados después de la normalización fueron los siguientes:
La normalización ayudó a mejorar el rendimiento del modelo de Regresión Logística, pero no afectó significativamente a los modelos de Árbol de Decisión ni de Bosque Aleatorio, que ya estaban rindiendo bien.
Dado el excelente rendimiento del modelo de Bosque Aleatorio, el ajuste de hiperparámetros se centró en este modelo para mejorar su rendimiento. Utilizando RandomizedSearchCV, se optimizaron los siguientes hiperparámetros:
Los hiperparámetros optimizados fueron:
Después de aplicar los hiperparámetros óptimos, el modelo de Bosque Aleatorio logró una precisión de 80.09% en el conjunto de validación.
El modelo de Bosque Aleatorio con los hiperparámetros optimizados fue evaluado en el conjunto de prueba para evaluar su capacidad de generalización. La precisión en el conjunto de prueba fue del 79.63%, lo que está muy cerca del rendimiento en el conjunto de validación, lo que indica que el modelo se generaliza bien a datos no vistos.
Para validar el rendimiento del modelo, se realizó una prueba de realidad comparando la precisión del modelo con un modelo base que predice la clase mayoritaria (plan Smart) según la distribución de planes en el conjunto de datos. El modelo base predijo el plan Smart para todos los usuarios y logró una precisión del 69.35%. En contraste, el modelo de Bosque Aleatorio entrenado tuvo un rendimiento significativamente mejor con una precisión del 79.63%, demostrando que el modelo captura patrones significativos en los datos y supera las estrategias simples.
El proyecto logró desarrollar un modelo de aprendizaje automático capaz de predecir qué plan de Megaline (Smart o Ultra) es probable que un cliente elija según su comportamiento de uso. El modelo de Bosque Aleatorio, después de ajustarse, alcanzó una precisión del 79.63%, superando el umbral deseado del 75%. El modelo demostró la capacidad de generalizar bien a datos no vistos, lo que lo convierte en una herramienta confiable para que Megaline recomiende planes a sus clientes. Además, el modelo superó a las estrategias base simples, lo que confirma su utilidad práctica.
En general, el rendimiento del modelo de Bosque Aleatorio es satisfactorio para su implementación, y puede ayudar a Megaline a personalizar sus estrategias de marketing y mejorar la satisfacción del cliente al ofrecer recomendaciones de planes personalizadas.