Skip to content

annarudych/project_amazon

Repository files navigation

Amazon E-commerce Analysis 📊

Analisi completa su 6.355 prodotti Amazon, focalizzata sulla redditività delle categorie e sulla Sentiment Analysis per guidare decisioni di investimento.

📂 Tabella dei contenuti

📝 Descrizione

Questo progetto esplora un dataset di Kaggle contenente oltre 6.000 prodotti con l'obiettivo di identificare:

  • Investimenti sicuri: Brand e categorie con alto volume di vendite e sentiment positivo.
  • Zone di rischio: Segmenti di mercato con recensioni negative dove il capitale è a rischio.

👉 Clicca qui per visualizzare l'analisi completa (Jupyter Notebook)

🎯 Obiettivi Finali

  • Brand Insights: Identificare dove investire (Sentiment +) e dove evitare (Sentiment -).
  • Performance Categorie: Calcolo del fatturato totale e popolarità per categoria.
  • Product Analysis: Analisi dei prodotti leader e degli "outlier" negativi.

🛠 Technical Stack

Il progetto utilizza le versioni più recenti delle librerie core per la Data Science (aggiornate al 2026) per garantire performance e stabilità.

  • Linguaggi:
    • Python 3.12+
    • SQL (MariaDB / MySQL)
  • Gestione Database: phpMyAdmin (per lo storage iniziale, la pulizia e l'export dei dati).
  • Qualità del Codice:
    • Ruff (Linter & Formatter | standard PEP 8).
  • Librerie Core:
    • pandas (v2.3.3) [Doc] — Manipolazione e analisi dei dati.
    • numpy (v2.3.5) [Doc] — Calcoli numerici.
    • matplotlib (v3.10.7) & seaborn (v0.13.2) — Data Visualization.
  • Reporting: Jupyter Notebook (v7.x) & Canva (Business Presentation).

📓 Notebook di Analisi

Il cuore del progetto è il notebook Jupyter, dove troverai la pulizia dei dati, la Sentiment Analysis e tutte le visualizzazioni grafiche:

📈 Insight Strategici & Business Intelligence

Oltre alla gestione tecnica, l'analisi ha estratto valore decisionale dai dati:

Analisi Prezzo vs Sentiment

1. Il Paradosso del Valore (Prezzo vs Sentiment)

L'analisi statistica ha rivelato una sostanziale uguaglianza nella percezione del valore tra diverse fasce di prezzo, sfatando l'idea che un prezzo più alto garantisca automaticamente una maggiore soddisfazione.

  • Soglia Mediana: 28.41€.
  • Risultato: Il sentiment medio è quasi identico tra il segmento Low Price (0.310) e High Price (0.305).
  • Business Insight: La qualità percepita è trasversale al prezzo. In questo mercato, il successo non è dettato dal listino prezzi, ma dalla solidità del Brand e dalla coerenza del prodotto. Investire nel segmento Premium non offre un "margine di sicurezza" maggiore in termini di feedback rispetto al mass-market.

2. Strategia di Investimento (Brand & Categorie)

  • Safe Haven: Brand come Wrangler e Under Armour sono i benchmark di affidabilità (alto volume + sentiment costante).
  • Top Categories: I segmenti Baby e Boys offrono il miglior equilibrio tra crescita e fidelizzazione del cliente.

📊 Presentazione dei Risultati

I risultati dell'analisi sono stati sintetizzati in una presentazione professionale rivolta a stakeholder e investitori.

👉 La Presentazione Completa (PDF)

⚙️ Installazione e Uso

  1. Prerequisiti: Assicurati di avere Python 3.12+ installato.
  2. Clona la repository:
    git clone https://github.com/annarudych/project_amazon.git
    cd project_amazon
  3. Installa le dipendenze:
    pip install -r requirements.txt

📂 Struttura Dataset

💾 Pipeline dei dati (ETL)

  1. Storage: I dati grezzi sono stati strutturati in un database MariaDB.
  2. SQL Querying: I dati sono stati filtrati e aggregati tramite query SQL via phpMyAdmin.
    • Database Schema: Il file SQL per ricreare la struttura del database è disponibile nella cartella principale amazon.sql.
  3. Data Extraction: Esportazione dei dati ottimizzati in formato CSV per l'analisi avanzata in Python.
  4. Analisi Python: Pulizia finale in Python, sentiment analysis e visualizzazione finale.

👥 Contatti & Link

About

Data Analysis: Amazon E-commerce (SQL + Python). Sentiment Analysis & Market Insights for 6k+ products.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published