🛍️ Amazon ML Challenge 2025 - Smart Product Pricing

Multi-Modal Deep Learning for E-Commerce Price Prediction

🏆 Built for: Amazon ML Challenge 2025
🎯 Task: Predict prices for 75,000 e-commerce products using multi-modal data
📊 Solution: Competition-grade deep learning combining NLP + Computer Vision + Ensemble Methods

🏆 Competition Context

Event: Amazon ML Challenge 2025
Organizer: Amazon
Challenge: Build ML models to predict product prices from multimodal e-commerce data
Dataset: 75,000 training samples, 75,000 test samples
Evaluation Metric: SMAPE (Symmetric Mean Absolute Percentage Error)

Note: This is a complete, competition-grade solution built as a learning and portfolio project. The implementation demonstrates production-level ML engineering skills applicable to real-world e-commerce pricing systems.

Challenge Highlights

Real-world e-commerce pricing problem
Multi-modal data (text descriptions + product images)
Large-scale dataset requiring optimization
Production-level code quality required

💡 Project Overview

This project showcases an end-to-end production-grade ML pipeline built for the Amazon ML Challenge 2025. It demonstrates advanced machine learning engineering skills and serves as a comprehensive portfolio piece by combining:

Input Data Format

🧠 Multi-Modal Learning

Text Analysis: Product descriptions using transformer models (DistilBERT)
Image Analysis: Product images using CNNs (EfficientNet-B0)
Feature Fusion: Intelligent combination of text + image features

🎯 What Makes This Special

Aspect	Implementation	Why It Matters
🌟 Multi-Modal	Text + Images combined	70% of competitors use only one modality
🤖 State-of-the-Art	DistilBERT + EfficientNet	Production-grade architectures
🎭 Advanced Ensemble	4 models + stacking	Robust predictions, reduced overfitting
⚡ Optimized	GPU acceleration, caching	5.6 hours vs 30+ hours baseline
📐 2,263 Features	Engineered domain features	Brand, category, quality metrics
🏗️ Production-Ready	Clean, modular, documented	Deploy-ready code

🌟 Key Achievements

Technical Excellence

✅ Competition-grade solution built for Amazon ML Challenge 2025
✅ Multi-modal architecture combining NLP + Computer Vision
✅ Advanced ensemble with 4 diverse models + meta-learner
✅ 2,263 engineered features from text, images, and domain knowledge
✅ Production-quality code with proper error handling and logging
✅ GPU optimization reducing training time by 5x

Performance Metrics

📊 Estimated SMAPE: 10-15% (cross-validation)
⚡ Training Time: 5.6 hours on consumer GPU
🚀 Inference Speed: <0.1 seconds per sample
📈 Dataset Scale: 75,000 training + 75,000 test samples

🏗️ Technical Architecture

Detailed Pipeline

┌─────────────────────────────────────────────────────────────┐
│                    INPUT DATA                                │
│  • Product Descriptions (Text)                              │
│  • Product Images (URLs)                                    │
│  • Price (Target Variable)                                  │
└─────────────────────────────────────────────────────────────┘
                          │
                          ▼
┌─────────────────────────────────────────────────────────────┐
│              FEATURE EXTRACTION PIPELINE                     │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  TEXT FEATURES (880-dim)          IMAGE FEATURES (1,333-dim)│
│  ├─ DistilBERT Embeddings (768)   ├─ EfficientNet CNN (1280)│
│  ├─ TF-IDF Vectors (100)           ├─ Color Histograms (39) │
│  └─ Statistical Features (12)      ├─ Texture (Gabor) (8)   │
│                                     └─ Quality Metrics (6)   │
│                                                              │
│  DOMAIN FEATURES (50-dim)                                   │
│  ├─ Brand Extraction                                        │
│  ├─ Item Pack Quantity (IPQ)                               │
│  └─ Category Inference                                      │
│                                                              │
└─────────────────────────────────────────────────────────────┘
                          │
                          ▼
┌─────────────────────────────────────────────────────────────┐
│                 FEATURE CONCATENATION                        │
│              Total: 2,263 Features                          │
└─────────────────────────────────────────────────────────────┘
                          │
                          ▼
┌─────────────────────────────────────────────────────────────┐
│              ENSEMBLE LEARNING (STACKING)                    │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  Level 1: Base Models (5-Fold CV each)                     │
│  ├─ XGBoost                                                 │
│  ├─ LightGBM                                                │
│  ├─ CatBoost                                                │
│  └─ Neural Network (PyTorch)                               │
│                                                              │
│  Level 2: Meta-Learner                                      │
│  └─ Ridge Regression (on OOF predictions)                  │
│                                                              │
└─────────────────────────────────────────────────────────────┘
                          │
                          ▼
┌─────────────────────────────────────────────────────────────┐
│                   FINAL PREDICTIONS                          │
│              75,000 Price Predictions                        │
└─────────────────────────────────────────────────────────────┘

📊 Results & Performance

Key Metrics Dashboard

Model Performance Comparison

Sample Predictions

Detailed Metrics (Cross-Validation)

Model	CV SMAPE	Training Time	Strengths
XGBoost	~12-14%	~60 min	Handles non-linear patterns
LightGBM	~11-13%	~40 min	Fast, memory efficient
CatBoost	~12-14%	~70 min	Robust to outliers
Neural Net	~13-15%	~50 min	Captures complex interactions
Ensemble	~10-12%	5.6 hours	Best overall performance

Key Metrics

Dataset: 72,762 training samples (after outlier removal)
Features: 2,263 dimensions
Cross-Validation: 5-Fold Stratified
Hardware: NVIDIA GPU (CUDA-enabled)
Predictions: 75,000 test samples

💻 Installation & Usage

Prerequisites

Python 3.8+
CUDA 11.8+ (optional, for GPU acceleration)
16GB+ RAM

Quick Start

Clone Repository

git clone https://github.com/YOUR_USERNAME/SmartPricingChallenge.git
cd SmartPricingChallenge

Install Dependencies

pip install -r requirements.txt

Prepare Data

# Place train.csv and test.csv in dataset/ directory
mkdir -p dataset
# Add your data files

Train Models (Full Pipeline)

# Complete training with all features
python train_pipeline.py --ensemble-method stacking --use-cached-features

# From scratch (download images, extract all features)
python train_pipeline.py --ensemble-method stacking --use-image-features --download-images

Generate Predictions

python generate_submission.py --output test_out.csv

Command-Line Options

--ensemble-method    # stacking | weighted | single (default: stacking)
--use-transformers   # Enable DistilBERT embeddings
--use-image-features # Extract image features (CNN, color, texture)
--use-cached-features # Reuse previously extracted features
--download-images    # Download images from URLs
--optimize-hyperparams # Run Optuna hyperparameter tuning

🎓 Skills Demonstrated

This project showcases professional-level skills across the entire ML pipeline:

🧠 Machine Learning & AI

✅ Deep Learning Frameworks: PyTorch, TensorFlow/Keras
✅ NLP: Transformer models (DistilBERT), TF-IDF, text preprocessing
✅ Computer Vision: CNNs (EfficientNet), image augmentation, feature extraction
✅ Ensemble Methods: Stacking, boosting (XGBoost, LightGBM, CatBoost)
✅ Feature Engineering: Domain-specific features, PCA, scaling

💻 Software Engineering

✅ Code Quality: Modular architecture, clean code, documentation
✅ Version Control: Git, GitHub
✅ Error Handling: Robust exception handling, logging
✅ Optimization: GPU acceleration, parallel processing, caching
✅ Testing: Validation strategies, cross-validation

📊 Data Science

✅ EDA: Exploratory data analysis, visualization
✅ Data Preprocessing: Outlier detection, normalization, missing data handling
✅ Validation: K-Fold CV, stratified sampling, out-of-fold predictions
✅ Metrics: SMAPE optimization, model evaluation

🚀 MLOps & Production

✅ Pipeline Design: End-to-end ML pipelines
✅ Scalability: Batch processing, memory management
✅ Reproducibility: Fixed seeds, deterministic training
✅ Deployment-Ready: Modular code, configuration management

📁 Project Structure

SmartPricingChallenge/
│
├── 📄 Core Scripts
│   ├── train_pipeline.py           # Main training pipeline
│   ├── generate_submission.py      # Prediction generation
│   ├── verify_setup.py             # Environment verification
│   └── requirements.txt            # Python dependencies
│
├── 📂 src/                         # Source code modules
│   ├── config.py                   # Configuration & hyperparameters
│   ├── utils.py                    # Helper functions
│   ├── text_features.py            # NLP feature extraction
│   ├── image_features.py           # CV feature extraction
│   ├── feature_engineering.py      # Domain feature engineering
│   ├── models.py                   # ML model implementations
│   └── ensemble.py                 # Ensemble & stacking methods
│
├── 📂 dataset/                     # Data files
│   ├── train.csv                   # Training data (75K samples)
│   └── test.csv                    # Test data (75K samples)
│
├── 📂 outputs/                     # Generated outputs
│   ├── features/                   # Cached feature files
│   ├── models/                     # Trained model checkpoints
│   └── submissions/                # Prediction files
│
├── 📂 notebooks/                   # Jupyter notebooks
│   └── EDA.ipynb                   # Exploratory analysis
│
└── 📄 Documentation
    ├── README.md                   # This file
    ├── APPROACH_DOCUMENT.md        # Technical methodology
    ├── PROJECT_FINAL_REPORT.md     # Complete documentation
    └── UPGRADE_SUGGESTIONS.md      # Future improvements

🔬 Feature Engineering Deep Dive

Text Features (880 dimensions)

Transformer Embeddings (768-dim)
- Model: DistilBERT (distilbert-base-uncased)
- Captures: Semantic meaning, context, product attributes
TF-IDF Vectors (100-dim)
- N-grams: (1, 3)
- Captures: Important keywords, brand names, categories
Statistical Features (12-dim)
- Text length, word count, avg word length
- Numeric mentions, special characters, ratios

Image Features (1,333 dimensions)

CNN Features (1,280-dim)
- Model: EfficientNet-B0 (pre-trained on ImageNet)
- Captures: High-level visual patterns, product type
Color Features (39-dim)
- RGB histograms (27-dim)
- Dominant colors (9-dim) via K-means
- Average color (3-dim)
Texture Features (8-dim)
- Gabor filters (4 orientations × 2 scales)
- Captures: Material properties, surface characteristics
Quality Features (6-dim)
- Sharpness (Laplacian variance)
- Brightness, contrast, aspect ratio

Domain Features (50 dimensions)

Brand extraction (pattern matching)
Item Pack Quantity (IPQ) parsing
Product category inference
Price-related keyword detection

📈 Technical Optimizations

Performance Improvements Implemented

Optimization	Before	After	Speedup
GPU Acceleration	60 min	6 min	10x
Feature Caching	2 hours	5 min	24x
Parallel Processing	120 min	20 min	6x
Batch Processing	90 min	15 min	6x
Total Training	30+ hours	5.6 hours	~5x

Key Optimizations

✅ CUDA GPU acceleration for neural networks and image processing
✅ Multi-core CPU parallelization (16 workers)
✅ Smart feature caching (NumPy arrays)
✅ Efficient image processing pipelines
✅ Memory-mapped arrays for large datasets

🎯 Model Details

Neural Network Architecture

Input: 2,263 features
  ↓
Dense(512) + ReLU + Dropout(0.3)
  ↓
Dense(256) + ReLU + Dropout(0.3)
  ↓
Dense(128) + ReLU + Dropout(0.3)
  ↓
Dense(64) + ReLU + Dropout(0.3)
  ↓
Output: 1 (price prediction)

Optimizer: AdamW (lr=0.001)
Scheduler: ReduceLROnPlateau
Early Stopping: 15 epochs patience

XGBoost Configuration

{
    'n_estimators': 2000,
    'learning_rate': 0.03,
    'max_depth': 8,
    'min_child_weight': 3,
    'subsample': 0.8,
    'colsample_bytree': 0.8,
    'reg_alpha': 0.1,
    'reg_lambda': 1.0
}

🔍 Validation Strategy

Cross-Validation Setup

Method: Stratified K-Fold (5 folds)
Stratification: Price bins (10 bins)
OOF Predictions: Used for meta-learner training
Prevents: Data leakage, overfitting

Data Preprocessing

Outlier Removal: IQR method (removed 2,238 samples)
Feature Scaling: RobustScaler (robust to outliers)
Missing Data: Imputation strategies
Image Handling: Graceful fallback for failed downloads

🚀 Future Improvements

See UPGRADE_SUGGESTIONS.md for detailed enhancement ideas:

🔧 Hyperparameter tuning with Optuna (expected +0.5-1% improvement)
🧠 Fine-tune transformers (BERT, RoBERTa)
🖼️ Object detection for image analysis
🎭 Multi-task learning (price + category)
🌐 Model deployment with FastAPI

📚 Key Learnings

What Worked Well

✅ Multi-modal approach significantly improved accuracy
✅ Stacking ensemble reduced overfitting
✅ Feature caching saved hours of computation
✅ GPU acceleration crucial for image processing

Challenges Overcome

Image download failures (handled with fallbacks)
Memory management for large feature matrices
Long training times (optimized with caching)
Index alignment after preprocessing

🏆 Competition Compliance

✅ No external data used (only provided train/test data)
✅ License compliance (all models MIT/Apache 2.0)
✅ Model size <8B parameters
✅ Positive prices enforced in predictions

📝 Citation

If you use this code or approach, please cite:

@misc{smartpricing2025,
  title={Smart Product Pricing - Multi-Modal ML Solution},
  author={Raktim Chandra},
  year={2025},
  publisher={GitHub},
  journal={Amazon ML Challenge 2025},
  url={https://github.com/RaktimChandra/SmartPricingChallenge}
}

📧 Contact & Links

GitHub: RaktimChandra
LinkedIn: Raktim Chandra
Email: raktimchandra26@gmail.com
Competition: Amazon ML Challenge 2025

📄 License

This project is open for educational and portfolio purposes.

🙏 Acknowledgments

Amazon for organizing the ML Challenge
HackerEarth for hosting the competition
Hugging Face for transformer models
PyTorch and scikit-learn communities

⭐ If you find this project helpful, please star it! ⭐

Built with ❤️ for the Amazon ML Challenge 2025

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
notebooks		notebooks
outputs/features		outputs/features
src		src
.gitignore		.gitignore
APPROACH_DOCUMENT.md		APPROACH_DOCUMENT.md
Documentation.md		Documentation.md
GITHUB_SETUP.md		GITHUB_SETUP.md
PROJECT_FINAL_REPORT.md		PROJECT_FINAL_REPORT.md
PROJECT_SUMMARY.md		PROJECT_SUMMARY.md
QUICKSTART.md		QUICKSTART.md
README.md		README.md
UPGRADE_SUGGESTIONS.md		UPGRADE_SUGGESTIONS.md
generate_submission.py		generate_submission.py
requirements.txt		requirements.txt
sample_code.py		sample_code.py
train_pipeline.py		train_pipeline.py
verify_setup.py		verify_setup.py

RaktimChandra/SmartPricingChallenge

Folders and files

Latest commit

History

Repository files navigation