Analisi completa su 6.355 prodotti Amazon, focalizzata sulla redditività delle categorie e sulla Sentiment Analysis per guidare decisioni di investimento.
- Descrizione
- Obiettivi Finali
- Technical Stack
- Notebook di Analisi
- Insight Strategici & BI
- Presentazione dei Risultati
- Installazione e Uso
- Struttura Dataset
- Pipeline dei dati (ETL)
- Contatti & Link
Questo progetto esplora un dataset di Kaggle contenente oltre 6.000 prodotti con l'obiettivo di identificare:
- Investimenti sicuri: Brand e categorie con alto volume di vendite e sentiment positivo.
- Zone di rischio: Segmenti di mercato con recensioni negative dove il capitale è a rischio.
👉 Clicca qui per visualizzare l'analisi completa (Jupyter Notebook)
- Brand Insights: Identificare dove investire (Sentiment +) e dove evitare (Sentiment -).
- Performance Categorie: Calcolo del fatturato totale e popolarità per categoria.
- Product Analysis: Analisi dei prodotti leader e degli "outlier" negativi.
Il progetto utilizza le versioni più recenti delle librerie core per la Data Science (aggiornate al 2026) per garantire performance e stabilità.
- Linguaggi:
- Python 3.12+
- SQL (MariaDB / MySQL)
- Gestione Database: phpMyAdmin (per lo storage iniziale, la pulizia e l'export dei dati).
- Qualità del Codice:
- Ruff (Linter & Formatter | standard PEP 8).
- Librerie Core:
- Reporting: Jupyter Notebook (v7.x) & Canva (Business Presentation).
Il cuore del progetto è il notebook Jupyter, dove troverai la pulizia dei dati, la Sentiment Analysis e tutte le visualizzazioni grafiche:
Oltre alla gestione tecnica, l'analisi ha estratto valore decisionale dai dati:
L'analisi statistica ha rivelato una sostanziale uguaglianza nella percezione del valore tra diverse fasce di prezzo, sfatando l'idea che un prezzo più alto garantisca automaticamente una maggiore soddisfazione.
- Soglia Mediana: 28.41€.
- Risultato: Il sentiment medio è quasi identico tra il segmento Low Price (0.310) e High Price (0.305).
- Business Insight: La qualità percepita è trasversale al prezzo. In questo mercato, il successo non è dettato dal listino prezzi, ma dalla solidità del Brand e dalla coerenza del prodotto. Investire nel segmento Premium non offre un "margine di sicurezza" maggiore in termini di feedback rispetto al mass-market.
- Safe Haven: Brand come Wrangler e Under Armour sono i benchmark di affidabilità (alto volume + sentiment costante).
- Top Categories: I segmenti Baby e Boys offrono il miglior equilibrio tra crescita e fidelizzazione del cliente.
I risultati dell'analisi sono stati sintetizzati in una presentazione professionale rivolta a stakeholder e investitori.
👉 La Presentazione Completa (PDF)
- Prerequisiti: Assicurati di avere Python 3.12+ installato.
- Clona la repository:
git clone https://github.com/annarudych/project_amazon.git cd project_amazon - Installa le dipendenze:
pip install -r requirements.txt
- Origine dati: Amazon Dataset su Kaggle
- I File CSV originali:
products.csv,reviews.csv - File utilizzato::
products_with_reviews_clean.csv - Dimensioni:: 12MB | 6,355 righe × 35 colonne
- Storage: I dati grezzi sono stati strutturati in un database MariaDB.
- SQL Querying: I dati sono stati filtrati e aggregati tramite query SQL via phpMyAdmin.
- Database Schema: Il file SQL per ricreare la struttura del database è disponibile nella cartella principale
amazon.sql.
- Database Schema: Il file SQL per ricreare la struttura del database è disponibile nella cartella principale
- Data Extraction: Esportazione dei dati ottimizzati in formato CSV per l'analisi avanzata in Python.
- Analisi Python: Pulizia finale in Python, sentiment analysis e visualizzazione finale.
- Data Analyst: Anna Rudych
- Email: annarudychw@gmail.com
- LinkedIn: Anna Rudych
- GitHub: @annarudych
