Bo Kolstrup

Logo

Científico de Datos con experiencia en modelos predictivos y análisis de datos

View the Project on GitHub Bokols/rusty-bargain

Descripción del Proyecto: Comparación y Evaluación de Modelos para Rusty Bargain

Introducción

En este proyecto, nuestro objetivo es evaluar y comparar varios modelos de aprendizaje automático para predecir una variable objetivo para el negocio Rusty Bargain. Se consideran varios modelos de regresión, cada uno con sus fortalezas, debilidades y características únicas. Los modelos probados incluyen Regresión Lineal, Random Forest Regressor, CatBoost Regressor, LightGBM Regressor y XGBoost Regressor. El objetivo es determinar el modelo más eficaz para la predicción, equilibrando la precisión (medida por RMSE) y la eficiencia (medida por el tiempo de entrenamiento y predicción).

Objetivo

El objetivo de este proyecto es:

  1. Evaluar la precisión predictiva de diferentes modelos de aprendizaje automático.
  2. Comparar el rendimiento de los modelos antes y después de la sintonización de los hiperparámetros.
  3. Determinar el modelo más adecuado según la precisión, el tiempo de entrenamiento y el tiempo de predicción para la implementación en producción en Rusty Bargain.

Metodología

El proyecto sigue un proceso estructurado que incluye la preparación de los datos, el entrenamiento de los modelos, la sintonización de los hiperparámetros, la evaluación del rendimiento y la comparación de resultados.

Preparación de los Datos

Los datos fueron preparados para el modelado mediante:

Selección de Modelos

Se seleccionaron cinco modelos de aprendizaje automático para esta evaluación:

  1. Regresión Lineal – Un modelo simple y fácil de interpretar.
  2. Random Forest Regressor – Un modelo de ensamblaje que funciona bien con una variedad de tipos de datos.
  3. CatBoost Regressor – Un modelo de boosting de gradiente conocido por manejar bien las variables categóricas y por su alto rendimiento.
  4. LightGBM Regressor – Otro modelo de boosting de gradiente, optimizado para velocidad y rendimiento en conjuntos de datos grandes.
  5. XGBoost Regressor – Un modelo de boosting de gradiente poderoso, comúnmente utilizado en competiciones de Kaggle.

Sintonización de Hiperparámetros

Para cada modelo, aplicamos GridSearchCV para encontrar la mejor combinación de hiperparámetros. Las cuadrículas de hiperparámetros consideradas para cada modelo fueron:

Métricas de Evaluación

Los modelos fueron evaluados en base a:

Procedimiento

  1. Entrenar y Evaluar Modelos Base: Cada modelo fue entrenado sin sintonización de hiperparámetros para establecer una referencia.
  2. Sintonización de Hiperparámetros: Usando GridSearchCV, afinamos los hiperparámetros de los modelos para identificar la configuración óptima para cada uno.
  3. Comparación de Rendimiento: Comparamos el RMSE, el tiempo de entrenamiento y el tiempo de predicción de los modelos base y ajustados.

Resultados

Puntuación RMSE

Tiempo de Entrenamiento

Tiempo de Predicción

Conclusión

Resumen del Rendimiento del Modelo

Recomendación Final

Basado en la evaluación tanto de RMSE como de eficiencia en tiempo, el CatBoost Regressor es el modelo óptimo para su implementación en Rusty Bargain. Este modelo ofrece la mejor relación entre precisión predictiva y velocidad, lo que lo hace ideal para aplicaciones en tiempo real donde se necesitan predicciones rápidas. Antes de finalizar la implementación, se podría realizar una sintonización adicional para mejorar su rendimiento, especialmente en términos de reducción de la RMSE.

Consideraciones Futuras

Este proyecto identificó con éxito el mejor modelo y proporcionó un análisis detallado de su rendimiento, ofreciendo a Rusty Bargain una herramienta poderosa para el modelado predictivo en sus operaciones comerciales.