Bo Kolstrup

Logo

Científico de Datos con experiencia en modelos predictivos y análisis de datos

View the Project on GitHub Bokols/Prediccion_de_Pedidos_de_Taxi_Usando_Modelos_de_Machine_Learning

Predicción de Pedidos de Taxi Usando Modelos de Machine Learning

Introducción

En este proyecto, el objetivo fue desarrollar un modelo de machine learning para predecir el número de pedidos de taxi por hora para la empresa Sweet Lift Taxi. Al predecir la demanda con precisión, la empresa puede optimizar la distribución de sus conductores, reducir los tiempos de espera de los pasajeros y aumentar la eficiencia operativa. Para lograr esto, se entrenaron y evaluaron varios modelos de regresión en función de su Error Cuadrático Medio (RMSE), con un umbral de rendimiento establecido en 48 RMSE.

Preparación y Preprocesamiento de Datos

Selección de Características y Variable Objetivo

El conjunto de datos contenía múltiples características relacionadas con los pedidos de taxi. Se realizó la división de la siguiente manera:

División en Conjuntos de Entrenamiento y Prueba

Se dividió el conjunto de datos en entrenamiento y prueba usando train_test_split, reservando el 10% de los datos para pruebas y asegurando que no hubiera mezcla de datos (shuffle=False). Posteriormente, se reestructuraron los datos para garantizar compatibilidad con los modelos.

Entrenamiento y Evaluación de Modelos

Se entrenaron varios modelos de regresión y se realizó el ajuste de hiperparámetros utilizando GridSearchCV para encontrar la mejor configuración. A continuación, se detallan los modelos probados, sus configuraciones y resultados.

Regresión Lineal

El modelo de Regresión Lineal sirvió como base inicial. Los resultados fueron:

Dado que el modelo no cumplió con el umbral requerido, se exploraron alternativas.

Random Forest Regressor

Se entrenó un Random Forest Regressor con los siguientes valores:

Los mejores parámetros seleccionados fueron n_estimators=200, max_depth=10, obteniendo:

Este modelo cumplió con el umbral de rendimiento, por lo que fue considerado viable.

LightGBM Regressor

Se entrenó el LightGBM Regressor con:

La mejor configuración (n_estimators=200, max_depth=10, num_leaves=50) arrojó:

CatBoost Regressor

Para CatBoost, se probaron los siguientes hiperparámetros:

La mejor configuración fue iterations=500, depth=5, logrando los mejores resultados entre todos los modelos:

XGBoost Regressor

Se probó el XGBoost Regressor con:

La mejor combinación (n_estimators=30, max_depth=5) resultó en:

Comparación del Rendimiento de los Modelos

Modelo RMSE (Prueba)
CatBoost Regressor 44.7
LightGBM Regressor 46.2
Random Forest Regressor 46.3
XGBoost Regressor 47.0
Regresión Lineal 53.2

Conclusión

Después del entrenamiento y la evaluación de los modelos, se identificó que el CatBoost Regressor tuvo el mejor rendimiento con un RMSE de 44.7, significativamente por debajo del umbral de 48 RMSE.

Al implementar este modelo, Sweet Lift Taxi podrá:

En conclusión, este proyecto logró desarrollar una solución de machine learning eficaz para la predicción de la demanda de taxis, proporcionando información valiosa para que Sweet Lift Taxi optimice su eficiencia operativa.