前言
大家好,我是艦長。
如同前幾篇文章鋪的梗,既然 Data User 最在意的就是 Data,而且會非常重視資料品質,甚至被逼到在使用 Data 之前,不得不自己再檢查一次品質、再做一次資料清洗。那麼顯然這是一個老問題,那麼針對老問題過去是不是已經有做了什麼事嘗試解決它呢?
前人都種了哪些樹?
在 Data 圈也有發展許多關於 Data 的方法論與實踐,其中與資料品質有關的至少有四個關鍵字。
- 資料工程 Data Engineering:建構穩定、高效的 Data Pipeline,是重要的 Data 基礎工程。好比上一篇文章中的淨水廠及自來水管線。
- 資料監控 Data Monitoring:確保 Data infra、Data Pipeline 及相關流程的正常運行,設置特定的規則與告警規則,自動偵測資料的變動、偏差與異常。用比喻來說,可以想像是在水系統中的各處設置了多個檢測站定時觀測水壓、水質與水量等多項指標。
- 資料品質 Data Quality:遵循一套規範及方法論,定義品質標準,去定義、衡量與改善 Data 本身的品質。如同政府機關設立了一份飲用水水質標準,定義吻合什麼品質標準的水才能作為飲用水。
- 資料治理 Data Governance:遵循一套規範及方法論,為企業建立管理 Data 的規範、政策、流程與權責。這就像是成立一個水資源管理局,制定用水規範、權責劃分與安全政策,甚至前一項比喻的飲用水之水質標準就是由這裡制定的。
關鍵字 | 內容 | 比喻 |
---|---|---|
資料工程 (Data Engineering) | 建構穩定、高效的 Data Pipeline,是重要的 Data 基礎工程。 | 淨水廠及自來水管線。 |
資料監控 (Data Monitoring) | 確保 Data infra、Data Pipeline 及相關流程的正常運行,並設置特定的規則與警報,自動偵測資料的變動、偏差與異常。 | 在水系統中的各處設置了多個檢測站定時觀測水壓、水質與水量等多項指標。 |
資料品質 (Data Quality) | 遵循一套規範及方法論,去定義、衡量與改善 Data 本身的品質。 | 政府機關設立飲用水水質標準,定義吻合什麼品質標準的水才能作為飲用水。 |
資料治理 (Data Governance) | 遵循一套規範及方法論,為企業建立管理 Data 的規範、政策、流程與權責。 | 成立一個水資源管理局,制定用水規範、權責劃分與安全政策。 |
從這四項 Data 圈經常可聽見的關鍵字,不難發現 Data 圈過去已經有從多個層面嘗試做很多事情。
有基礎工程面的「資料工程」,有關注維運及維護層面的「資料監控」,有「資料品質」讓團隊可以有共同依循的規範與標準,最後有從上至下影響整個企業營運的「資料治理」。
小結
本文我們先快速的認識 Data 圈四個常見關鍵字,他們各自的防守範圍不同,但其實都會跟維護資料品質有所關聯;其實軟體也是同樣的狀況,軟體品質並不是只靠「測試」就能達成,品質實際上是由整個軟體開發生命週期的每個環節來共同維持的。
因此既然 Data 就是 Data User 想要的 Product,當然 Data 的品質也就與 Data 生命週期的每個環節有關。
系列文連結
此系列文持續撰寫中,陸續更新連結。