diff --git a/solucion ejerciocio lab 3 b/solucion ejerciocio lab 3 new file mode 100644 index 0000000000..c27734a94d --- /dev/null +++ b/solucion ejerciocio lab 3 @@ -0,0 +1,443 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": { + "id": "_dcvDanw6u8i" + }, + "source": [ + "# Importar librerías necesarias" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": { + "id": "KBZg1gt466N6" + }, + "outputs": [], + "source": [ + "import pandas as pd # Importa la biblioteca Pandas para trabajar con datos estructurados (manejo de tablas y DataFrames).\n", + "from sklearn.model_selection import train_test_split # Función para dividir los datos en conjuntos de entrenamiento y prueba.\n", + "from sklearn.feature_extraction.text import CountVectorizer # Herramienta para convertir texto en vectores de frecuencia de palabras (bolsa de palabras).\n", + "from sklearn.naive_bayes import MultinomialNB # Modelo de clasificación basado en el algoritmo de Naive Bayes Multinomial, útil para datos categóricos como texto.\n", + "from sklearn.ensemble import RandomForestClassifier # Implementa un modelo de clasificación basado en un conjunto de árboles de decisión (Random Forest).\n", + "from sklearn.svm import SVC # Implementa un modelo de clasificación basado en Máquinas de Soporte Vectorial (Support Vector Machines).\n", + "from sklearn.metrics import classification_report, confusion_matrix # Herramientas para evaluar modelos de clasificación, generan métricas y una matriz de confusión.\n", + "import matplotlib.pyplot as plt # Biblioteca para crear gráficos y visualizar datos de manera flexible y detallada.\n", + "import seaborn as sns # Extensión de Matplotlib para generar gráficos más atractivos y fáciles de usar, útil para análisis exploratorio." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "4SNH1Hs36-ds" + }, + "source": [ + "# 1. Cargar el dataset" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": { + "id": "fLbtoVDm7JCo" + }, + "outputs": [], + "source": [ + "file_path = \"Reviews.csv\" # Define la ruta al archivo CSV que contiene los datos; en este caso, se llama 'Reviews.csv'.\n", + "df = pd.read_csv(file_path) # Carga el archivo CSV en un DataFrame de Pandas, permitiendo manipular y analizar los datos de forma estructurada." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "YLpSnbpr7NBT" + }, + "source": [ + "# 2. Verificar estructura de los datos" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "Q7lgmG337Tvy", + "outputId": "b7a59840-80c2-45a6-8c5a-4ae7261cf5b3" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Columnas del dataset: Index(['Id', 'ProductId', 'UserId', 'ProfileName', 'HelpfulnessNumerator',\n", + " 'HelpfulnessDenominator', 'Score', 'Time', 'Summary', 'Text'],\n", + " dtype='object')\n", + "\n", + "Primeras filas del dataset:\n", + " Id ProductId UserId ProfileName \\\n", + "0 1 B001E4KFG0 A3SGXH7AUHU8GW delmartian \n", + "1 2 B00813GRG4 A1D87F6ZCVE5NK dll pa \n", + "2 3 B000LQOCH0 ABXLMWJIXXAIN Natalia Corres \"Natalia Corres\" \n", + "3 4 B000UA0QIQ A395BORC6FGVXV Karl \n", + "4 5 B006K2ZZ7K A1UQRSCLF8GW1T Michael D. Bigham \"M. Wassir\" \n", + "\n", + " HelpfulnessNumerator HelpfulnessDenominator Score Time \\\n", + "0 1 1 5 1303862400 \n", + "1 0 0 1 1346976000 \n", + "2 1 1 4 1219017600 \n", + "3 3 3 2 1307923200 \n", + "4 0 0 5 1350777600 \n", + "\n", + " Summary Text \n", + "0 Good Quality Dog Food I have bought several of the Vitality canned d... \n", + "1 Not as Advertised Product arrived labeled as Jumbo Salted Peanut... \n", + "2 \"Delight\" says it all This is a confection that has been around a fe... \n", + "3 Cough Medicine If you are looking for the secret ingredient i... \n", + "4 Great taffy Great taffy at a great price. There was a wid... \n" + ] + } + ], + "source": [ + "print(\"Columnas del dataset:\", df.columns) # Muestra los nombres de las columnas presentes en el DataFrame cargado desde el archivo.\n", + "print(\"\\nPrimeras filas del dataset:\") # Imprime un mensaje indicando que se mostrarán las primeras filas del DataFrame.\n", + "print(df.head()) # Muestra las primeras 5 filas del DataFrame, útil para tener una vista rápida de los datos.\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "viv-3hBv7y9h" + }, + "source": [ + "# 3. Preprocesamiento: selección de columnas importantes\n", + " Vamos a usar solo las columnas \"Text\" (la reseña del cliente) y \"Score\" (puntuación de 1 a 5)" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": { + "id": "x8tYN_kd8GWT" + }, + "outputs": [], + "source": [ + "# Usar solo las columnas necesarias\n", + "df = df[['Text', 'Score']] # Filtra el DataFrame original para conservar solo las columnas 'Text' (contenido de las reseñas) y 'Score' (calificación asociada)." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "mzgbttOx8WOG" + }, + "source": [ + "# 4. Creación de variable de sentimiento (positivo/negativo)\n", + " Consideramos \"positivo\" si la calificación es mayor a 3, \"negativo\" si es menor o igual a 3" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": { + "id": "91FCeU5k8mSM" + }, + "outputs": [], + "source": [ + "# Convertir la columna Score a etiquetas binarias (1: Positivo, 0: Negativo)\n", + "# Asumimos que Score >= 3 es positivo, y Score < 3 es negativo\n", + "df['sentiment'] = df['Score'].apply(lambda x: 1 if x >= 3 else 0)\n", + "\n", + "# Separar características y etiquetas\n", + "X = df['Text']\n", + "y = df['sentiment']\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "0Qvp7vJn8ymP" + }, + "source": [ + "# 5. Exploración de datos: distribución de sentimientos" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 472 + }, + "id": "NFkkGVW_805c", + "outputId": "bdb33505-ef0c-42da-a865-6cde21be20b7" + }, + "outputs": [ + { + "output_type": "display_data", + "data": { + "text/plain": [ + "
" + ], + "image/png": "\n" + }, + "metadata": {} + } + ], + "source": [ + "sns.countplot(data=df, x='sentiment') # Crea un gráfico de barras utilizando Seaborn para mostrar la cantidad de reseñas por cada categoría de sentimiento ('sentiment').\n", + "plt.title(\"Distribución de Sentimientos en las Reseñas\") # Añade un título descriptivo al gráfico.\n", + "plt.show() # Muestra el gráfico generado.\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "NUBfjGof9BjW" + }, + "source": [ + "# 6. División de los datos en entrenamiento y prueba" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "metadata": { + "id": "rpYyKo3K9FIa" + }, + "outputs": [], + "source": [ + "# Dividir los datos en entrenamiento y prueba\n", + "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42, stratify=y)\n", + "# Divide los datos en conjuntos de entrenamiento y prueba.\n", + "# - X: Variables independientes (datos de entrada).\n", + "# - y: Variable dependiente (etiquetas o clases).\n", + "# - test_size=0.25: Asigna el 25% de los datos al conjunto de prueba y el 75% al de entrenamiento.\n", + "# - random_state=42: Fija una semilla para asegurar la reproducibilidad de los resultados.\n", + "# - stratify=y: Asegura que la proporción de clases en los conjuntos de entrenamiento y prueba sea la misma que en los datos originales.\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "YHEt5zuj9MnW" + }, + "source": [ + "# 7. Vectorización de texto (transformación a vectores de palabras)" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": { + "id": "3YSz_S8f9SEs" + }, + "outputs": [], + "source": [ + "# Vectorizar los datos\n", + "vectorizer = CountVectorizer()\n", + "# Crea una instancia de CountVectorizer, una herramienta para convertir texto en una representación numérica basada en la frecuencia de palabras (bolsa de palabras).\n", + "X_train_vec = vectorizer.fit_transform(X_train)\n", + "# Ajusta el vectorizador al conjunto de entrenamiento (X_train) y lo transforma en una matriz dispersa de características basada en la frecuencia de palabras.\n", + "X_test_vec = vectorizer.transform(X_test)\n", + "# Transforma el conjunto de prueba (X_test) utilizando el vectorizador ajustado al conjunto de entrenamiento, garantizando consistencia en las características.\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "R8qJwQ0I9h44" + }, + "source": [ + "# 8. Entrenamiento de un modelo de Naive Bayes para análisis de sentimiento" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "metadata": { + "id": "lvK8AUzt9jWY" + }, + "outputs": [], + "source": [ + "# Modelos a evaluar\n", + "\n", + "models = {\n", + " \"Naive Bayes\": MultinomialNB(),\n", + " # Define el modelo Naive Bayes Multinomial, adecuado para datos categóricos como texto.\n", + " \"Random Forest\": RandomForestClassifier(random_state=42),\n", + " # Define el modelo Random Forest, que utiliza múltiples árboles de decisión para clasificación.\n", + " # Se establece `random_state=42` para garantizar resultados reproducibles.\n", + " \"SVM\": SVC(kernel='linear', random_state=42)\n", + " # Define el modelo SVM (Máquinas de Soporte Vectorial) con un kernel lineal.\n", + " # `random_state=42` asegura reproducibilidad en operaciones aleatorias internas.\n", + "}\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "TH3cOgG89y3n" + }, + "source": [ + "# 9. Evaluación del modelo\n", + "# Ejemplo de predicción" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 1000 + }, + "id": "Yf8bOYva92s7", + "outputId": "6d898ad0-a4fc-4a83-d35d-30ab8f2fc00c" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "\n", + "Resultados para Naive Bayes:\n", + "\n", + "Matriz de Confusión:\n" + ] + }, + { + "output_type": "display_data", + "data": { + "text/plain": [ + "
" + ], + "image/png": "\n" + }, + "metadata": {} + }, + { + "output_type": "stream", + "name": "stdout", + "text": [ + "\n", + "Reporte de Clasificación:\n", + " precision recall f1-score support\n", + "\n", + " 0 0.65 0.70 0.67 20509\n", + " 1 0.95 0.94 0.94 121605\n", + "\n", + " accuracy 0.90 142114\n", + " macro avg 0.80 0.82 0.81 142114\n", + "weighted avg 0.90 0.90 0.90 142114\n", + "\n", + "\n", + "------------------------------------------------------------\n", + "\n", + "Ejemplo de predicción con Naive Bayes:\n", + "Review: I absolutely love this product!\n", + "Predicted Sentiment: Positive\n", + "\n", + "Review: The worst experience I have ever had.\n", + "Predicted Sentiment: Negative\n", + "\n", + "Review: Good value for the money.\n", + "Predicted Sentiment: Positive\n", + "\n", + "Review: Terrible quality and disappointing service.\n", + "Predicted Sentiment: Negative\n", + "\n" + ] + } + ], + "source": [ + "# Evaluar cada modelo\n", + "for model_name, model in models.items():\n", + " # Itera sobre cada modelo definido en el diccionario `models`.\n", + "\n", + " # Entrenar el modelo\n", + " model.fit(X_train_vec, y_train)\n", + " # Ajusta el modelo utilizando el conjunto de entrenamiento vectorizado y las etiquetas correspondientes.\n", + "\n", + " # Predecir\n", + " y_pred = model.predict(X_test_vec)\n", + " # Genera predicciones para el conjunto de prueba utilizando el modelo entrenado.\n", + "\n", + " # Mostrar métricas\n", + " print(f\"\\nResultados para {model_name}:\\n\")\n", + " # Muestra el nombre del modelo que está siendo evaluado.\n", + "\n", + " print(\"Matriz de Confusión:\")\n", + " # Indica que se presentará la matriz de confusión del modelo.\n", + "\n", + " cm = confusion_matrix(y_test, y_pred)\n", + " # Calcula la matriz de confusión comparando las etiquetas reales (`y_test`) con las predicciones (`y_pred`).\n", + "\n", + " sns.heatmap(cm, annot=True, fmt=\"d\", cmap=\"Blues\", xticklabels=[\"Negative\", \"Positive\"], yticklabels=[\"Negative\", \"Positive\"])\n", + " # Crea un mapa de calor de la matriz de confusión con anotaciones y etiquetas para facilitar la interpretación.\n", + "\n", + " plt.xlabel(\"Predicted\") # Etiqueta para el eje X indicando las predicciones del modelo.\n", + " plt.ylabel(\"Actual\") # Etiqueta para el eje Y indicando las etiquetas reales.\n", + " plt.title(f\"Confusion Matrix - {model_name}\") # Añade un título específico para la matriz de confusión del modelo actual.\n", + " plt.show() # Muestra el gráfico generado.\n", + "\n", + " print(\"\\nReporte de Clasificación:\")\n", + " # Indica que se presentará el informe de clasificación.\n", + "\n", + " print(classification_report(y_test, y_pred))\n", + " # Muestra métricas como precisión, recall y F1-score para cada clase.\n", + "\n", + " print(\"\\n\" + \"-\"*60 + \"\\n\")\n", + " # Imprime una línea separadora para facilitar la legibilidad entre resultados de modelos.\n", + "\n", + " # Ejemplo de predicciones\n", + " print(f\"Ejemplo de predicción con {model_name}:\")\n", + " # Introduce una sección con ejemplos de predicciones del modelo actual.\n", + "\n", + " example_reviews = [\n", + " # Define una lista de reseñas de ejemplo para probar las predicciones del modelo.\n", + " \"I absolutely love this product!\",\n", + " \"The worst experience I have ever had.\",\n", + " \"Good value for the money.\",\n", + " \"Terrible quality and disappointing service.\"\n", + " ]\n", + "\n", + " # Vectorizar ejemplos\n", + " example_reviews_vec = vectorizer.transform(example_reviews)\n", + " # Transforma las reseñas de ejemplo en vectores utilizando el vectorizador ajustado.\n", + "\n", + " # Predecir\n", + " predictions = model.predict(example_reviews_vec)\n", + " # Genera predicciones para las reseñas de ejemplo utilizando el modelo actual.\n", + "\n", + " for review, pred in zip(example_reviews, predictions):\n", + " # Itera sobre las reseñas de ejemplo y sus predicciones correspondientes.\n", + "\n", + " sentiment = \"Positive\" if pred == 1 else \"Negative\"\n", + " # Asigna una etiqueta de sentimiento (positivo o negativo) basada en la predicción.\n", + "\n", + " print(f\"Review: {review}\\nPredicted Sentiment: {sentiment}\\n\")\n", + " # Muestra la reseña original y el sentimiento predicho por el modelo.\n" + ] + } + ], + "metadata": { + "colab": { + "provenance": [] + }, + "kernelspec": { + "display_name": "Python 3", + "name": "python3" + }, + "language_info": { + "name": "python" + } + }, + "nbformat": 4, + "nbformat_minor": 0 +}