Bo Kolstrup

Logo

Científico de Datos con experiencia en modelos predictivos y análisis de datos

View the Project on GitHub Bokols/Analisis_de_Sentimientos_de_Resenas_de_Peliculas_Utilizando_Multiples_Modelos_de_ML

Descripción del Proyecto: Análisis de Sentimientos de Reseñas de Películas Utilizando Múltiples Modelos de Aprendizaje Automático

Introducción

Este proyecto se centra en la construcción y evaluación de modelos de aprendizaje automático para predecir el sentimiento de reseñas de películas. El análisis de sentimientos es una tarea crucial en el procesamiento del lenguaje natural (PLN) que implica clasificar el texto en categorías como positivo, negativo o neutral según su contenido. En este proyecto, analizamos reseñas de películas para determinar si expresan sentimientos positivos o negativos. El objetivo principal de este proyecto es comparar el rendimiento de diferentes modelos de aprendizaje automático, incluyendo Logistic Regression, LightGBM y BERT, utilizando diversas técnicas de preprocesamiento de PLN como NLTK, spaCy y representaciones de BERT.

El conjunto de datos utilizado en este proyecto consiste en una serie de reseñas de películas, las cuales fueron preprocesadas y transformadas en un formato adecuado para el aprendizaje automático. Se probaron varios modelos para encontrar el más eficiente y preciso para la clasificación de sentimientos.

Resumen de Procedimientos

1. Preprocesamiento y Limpieza de Datos

El primer paso consistió en preparar las reseñas de películas para su procesamiento con aprendizaje automático. Cada reseña fue limpiada convirtiéndola a minúsculas y eliminando caracteres innecesarios. Las técnicas de preprocesamiento utilizadas fueron las siguientes:

2. Extracción de Características

Una vez que las reseñas fueron preprocesadas, el siguiente paso fue convertir el texto crudo en características numéricas. Esto se hizo utilizando TF-IDF (Frecuencia de Término-Inversa de la Frecuencia de Documento), una técnica común para representar texto de manera que los modelos de aprendizaje automático puedan entenderlo. Se utilizaron diferentes vectorizadores TF-IDF dependiendo del método de preprocesamiento (NLTK, spaCy o BERT).

3. Modelado y Entrenamiento

Se entrenaron y probaron varios modelos de aprendizaje automático utilizando los datos preprocesados. Los modelos incluidos fueron:

Cada modelo fue entrenado y evaluado utilizando un conjunto de entrenamiento y un conjunto de prueba. El rendimiento de cada modelo se midió utilizando la puntuación F1, una métrica que balancea la precisión y el recall, lo que es particularmente importante en conjuntos de datos desbalanceados.

4. Evaluación de Modelos

Después de entrenar los modelos, su rendimiento fue evaluado utilizando la puntuación F1 en el conjunto de prueba. Las puntuaciones F1 se compararon para determinar qué combinación de método de preprocesamiento y modelo proporcionaba los mejores resultados.

Resultados

1. Rendimiento de los Modelos

Los resultados de las evaluaciones de los modelos revelaron los siguientes hallazgos:

2. Consideraciones de Tiempo y Recursos

Conclusión

1. Mejor Modelo para Despliegue

Basado en los resultados del experimento, Modelo 2 (Logistic Regression + NLTK + TF-IDF) es la mejor opción para el despliegue. Proporcionó una puntuación F1 sólida de 0.88, fue rápido para entrenar y utilizó menos recursos computacionales en comparación con modelos más complejos como BERT. Este modelo encuentra un equilibrio óptimo entre precisión y eficiencia, lo que lo hace ideal para aplicaciones prácticas donde la velocidad y las limitaciones de recursos son críticas.

2. Potencial de BERT

Aunque BERT mostró la puntuación F1 más baja en este experimento, tiene un gran potencial para futuras mejoras. Con más recursos computacionales y entrenado en el conjunto de datos completo, es probable que BERT proporcione mejores resultados debido a su profunda comprensión del contexto del lenguaje. Por lo tanto, se recomienda continuar experimentando con BERT para posibles mejoras futuras.

3. Próximos Pasos

El trabajo futuro podría centrarse en las siguientes áreas:

Este proyecto demuestra la importancia de seleccionar la combinación adecuada de métodos de preprocesamiento y modelos de aprendizaje automático para una tarea determinada. Los resultados sugieren que los modelos tradicionales como Logistic Regression, cuando se combinan con herramientas de preprocesamiento eficientes como NLTK o spaCy, pueden lograr un alto rendimiento, mientras que los modelos más complejos como BERT requieren más recursos computacionales pero muestran un gran potencial para obtener mejores resultados.