Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

彈指即成的資料科學平台服務 - MicroCluster #23

Open
jazzwang opened this issue Jun 11, 2020 · 0 comments
Open

彈指即成的資料科學平台服務 - MicroCluster #23

jazzwang opened this issue Jun 11, 2020 · 0 comments
Labels
Architecture 資料工程與架構 Data Engineering and Architecture Developer 開發者 / Developer

Comments

@jazzwang
Copy link
Member

  • 演講主題 Talk Topic: 彈指即成的資料科學平台服務 - MicroCluster
  • 講者姓名 Name: 劉澤
  • 單位名稱 Organization & Job Title: 國泰金控數位數據暨科技發展中心/資料科學工程師
  • 講者簡介 Self Introduction

https://www.linkedin.com/in/ivan736/

  • 講題摘要 Abstract:

在導入新技術前我們常遇到一個情境:需要用真實資料驗證解決辦法,但真實資料不能上雲端,而新的架構導入環境中需要漫長的過程。為了因應產品與新興技術的快速更迭,本文介紹如何利用容器化 (Containers) 與微服務 (Microservices) 的優勢在力求穩定的金融業中快速開發組裝各種服務,打造彈性且快速的資料科學平台。

Micro cluster 是一個基於 docker 的資料科學平台,此平台包含 HDFS、Spark、Kafka 等服務,同時整合其他內部產品如: Mole (ETL) 與 AutoMLab (AutoML) 服務。 希望將各種框架整合後提供給使用者,讓使用者能以簡單的設定檔搭配 CLI 工具管理各個服務 (Cluster as a Service)。減少使用者準備環境的負擔,讓大家都能專心在各自的研究與應用上。目標客群包含:

  • a) 資料工程師
  • b) 資料分析師
  • c) 產品整合等。

本演講涵蓋如何使用 docker 的 python API 結合 docker-compose 建立與管理含有 HDFS、Spark 與 Kafka 等框架的資料科學平台。並從不同角度介紹:

  • a) 開發者角度:過程中遇到的問題,平台運作方式:如容器間服務的狀態協調、設定檔的管理同步等。
  • b) 使用者角度:僅需調整 yaml 的設定檔就能調整叢集的運算資源,搭配簡單的 CLI 管理叢集。使用者可以專注在開發與研究的本身。
  • c) 應用角度:分享現有的一些使用情境,與 micro cluster 帶來的實質效益。
@jazzwang jazzwang added Architecture 資料工程與架構 Data Engineering and Architecture Developer 開發者 / Developer labels Jun 11, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Architecture 資料工程與架構 Data Engineering and Architecture Developer 開發者 / Developer
Projects
None yet
Development

No branches or pull requests

1 participant