請注意: 此活動為 JCConf 2016 10/15 下午的 workshop 登記,需有 JCConf 2016 的門票才能參加。
課程介紹:
內容(Total 180分鐘,含30分鐘休息):
Apache Flink 是一個近期相對較新的分散式數據運算系統(去年年初剛成為 Apache Top-Level 專案),專案主要由 Java 轉寫,支援 Java、Scala、Python 等 API 來撰寫數據處理與分析應用。
Flink 除了能同時支援 batch processing(批次運算)與 stream processing(串流運算)且擁有豐富的 Machine Learning、graph processing、SQL 等套件以外,最大的獨特性在於有別於以往的分散式運算系統,它所有的運算無論是批次還是串流皆以 streaming dataflow 進行,能夠達成夠有效率的大數據運算。
這次的 workshop 將會帶大家使用 Flink 撰寫資料分析應用,以實際的 public dataset 為練習對象。
講課內容將會由淺入深,適合對大數據資料分析有興趣、並且用有基礎的程市撰寫經驗的人參加!
以下為預定課程:
1) 批次運算練習 - Apache Flink mailing list dataset:
練習包含簡單的 mail count,與較進階的 TF-IDF 資訊檢索、reply graph 回覆關聯圖等分析
2) 串流運算練習 - New York taxi events stream dataset:
練習包含簡單的 on-the-fly data cleaning、rolling window 運算,與較進階的 stateful streaming。
講者:
Gordon Tai is a co-organizer of the Apache Flink Taiwan User Group, and loves working on Flink during his free time. He has recently contributed the Amazon Kinesis Streams connector for Flink. Currently, Gordon works as a software engineer at VMFive, building data platforms to analyze and handle streaming data of the mobile advertisement industry. He has previous experience in Academia Sinica at Taiwan, where he researched on distributed systems including Apache Spark, Apache Storm, and YARN.
準備事項(隨時更新):
- 會眾須自行準備筆電
- 主辦方會提供網路線,但會眾如有需要,需自備筆電跟網路線的轉接器
-
此活動為三小時的含實作議程
- 因場地及人手問題,未報名成功者當日需現場候補