Data Observability 系列文 6:我們過去為了資料品質做了些什麼?

經過多篇鋪梗,我們知道 Data 很重要、Data 品質很重要,想要維持 Data 品質很有挑戰性。但這個挑戰並不是今天才出現,Data 圈其實為了這些挑戰奮鬥很多年了。

前言

大家好,我是艦長。

如同前幾篇文章鋪的梗,既然 Data User 最在意的就是 Data,而且會非常重視資料品質,甚至被逼到在使用 Data 之前,不得不自己再檢查一次品質、再做一次資料清洗。那麼顯然這是一個老問題,那麼針對老問題過去是不是已經有做了什麼事嘗試解決它呢?

前人都種了哪些樹?

在 Data 圈也有發展許多關於 Data 的方法論與實踐,其中與資料品質有關的至少有四個關鍵字。

  1. 資料工程 Data Engineering:建構穩定、高效的 Data Pipeline,是重要的 Data 基礎工程。好比上一篇文章中的淨水廠及自來水管線。
  2. 資料監控 Data Monitoring:確保 Data infra、Data Pipeline 及相關流程的正常運行,設置特定的規則與告警規則,自動偵測資料的變動、偏差與異常。用比喻來說,可以想像是在水系統中的各處設置了多個檢測站定時觀測水壓、水質與水量等多項指標。
  3. 資料品質 Data Quality:遵循一套規範及方法論,定義品質標準,去定義、衡量與改善 Data 本身的品質。如同政府機關設立了一份飲用水水質標準,定義吻合什麼品質標準的水才能作為飲用水。
  4. 資料治理 Data Governance:遵循一套規範及方法論,為企業建立管理 Data 的規範、政策、流程與權責。這就像是成立一個水資源管理局,制定用水規範、權責劃分與安全政策,甚至前一項比喻的飲用水之水質標準就是由這裡制定的。
關鍵字內容比喻
資料工程 (Data Engineering)建構穩定、高效的 Data Pipeline,是重要的 Data 基礎工程。淨水廠及自來水管線。
資料監控 (Data Monitoring)確保 Data infra、Data Pipeline 及相關流程的正常運行,並設置特定的規則與警報,自動偵測資料的變動、偏差與異常。在水系統中的各處設置了多個檢測站定時觀測水壓、水質與水量等多項指標。
資料品質 (Data Quality)遵循一套規範及方法論,去定義、衡量與改善 Data 本身的品質。政府機關設立飲用水水質標準,定義吻合什麼品質標準的水才能作為飲用水。
資料治理 (Data Governance)遵循一套規範及方法論,為企業建立管理 Data 的規範、政策、流程與權責。成立一個水資源管理局,制定用水規範、權責劃分與安全政策。

從這四項 Data 圈經常可聽見的關鍵字,不難發現 Data 圈過去已經有從多個層面嘗試做很多事情。

有基礎工程面的「資料工程」,有關注維運及維護層面的「資料監控」,有「資料品質」讓團隊可以有共同依循的規範與標準,最後有從上至下影響整個企業營運的「資料治理」。

小結

本文我們先快速的認識 Data 圈四個常見關鍵字,他們各自的防守範圍不同,但其實都會跟維護資料品質有所關聯;其實軟體也是同樣的狀況,軟體品質並不是只靠「測試」就能達成,品質實際上是由整個軟體開發生命週期的每個環節來共同維持的。

因此既然 Data 就是 Data User 想要的 Product,當然 Data 的品質也就與 Data 生命週期的每個環節有關。

系列文連結

此系列文持續撰寫中,陸續更新連結。

  1. Data 不只是技術問題
  2. 軟體圈都在注意些什麼?
  3. Data User 最關心的是什麼?
  4. 軟體圈與 Data 圈眼中的 Data
  5. 如何取得一杯乾淨的水(Data)?
  6. 我們過去為了資料品質做了些什麼?

轉貼本文時禁止修改,禁止商業使用,並且必須註明來自「艦長,你有事嗎?」原創作者 Cheng Wei Chen,及附上原文連結。

用贊助表達你的支持

更多文章