此專案利用 Apache Spark 和 Kafka 進行串流數據處理,並使用 Jupyter Notebook 作為開發環境。專案包含 Docker 容器化設置,方便快速啟動和測試。
- 使用 Spark 讀取 Kafka 串流數據。
- 進行數據的批次和串流處理。
- Kafka 數據的聚合統計分析。
- 提供 Kafka UI 介面進行數據管理。
執行以下指令啟動所有服務:
cd docker
docker-compose up -d利用 docker logs 查看 Jupyter Notebook 的啟動資訊,並在瀏覽器中打開 Jupyter Notebook:
docker logs spark-driver在 Jupyter Notebook 中遵循指示執行即可