Data Observability 系列文 10:資料可觀測性的五大支柱

前言 大家好,我是艦長。 上一篇文章我們看遍了各家的 Data Observability 定義,本文要繼續認識在 Data Observability,我們會觀測哪些東西。 這裡就直接採用 Monte Carlo 這家公司提出的五大支柱。 第一支柱:新鮮度(Freshness) 新鮮度,即是「你的資料是不是足夠『即時』?」 其實過去 Data 圈在談「資料品質」時,也會關注這個重要項目。 還記得我們前面幾篇文章說過的故事,Data User 發現今天查詢的業績報表數字怪怪的。業務主管記得明明上週有一筆大單,但查看業績報表數字就是對不上。最後向 Data Team 反應才發現是上游的資料管線停擺了一天, 新鮮度關注資料的時效性。你的資料應該要在「預期的時間」內被更新,並且要更新至 Data user 需要的那個時間區段內的 Data。 用比喻來說,就是訂閱的概念。好比訂報紙、固定發刊的電子報、週刊、雜誌⋯⋯ 每週四12:00固定會發刊的付費電子報,結果已經週四13:00 了,你還是沒收到。或者你準時收到了,但內容居然跟上週一樣。 這就是新鮮度想要觀測的。 第二支柱:資料量(Volume) 資料量,這個字面意思應該不用解釋吧。 這也是一般在談資料品質、資料驗證時大家都會想到的項目。 你上游說每次都會提供 10 萬筆資料,那我就來驗收是不是有10萬筆,結果一驗怎麼只有 99999筆。 又或者是,最近半年內每個月的訂單資料大約都是 1萬筆上下,怎麼忽然11月暴增為 5 萬?這是不是有異常? 資料量 Volume 觀測的就是你資料的「量」是不是吻合你的預期。 第三支柱:品質(Quality) Quality 品質,這一項就有點意思了,因為單看 Quality 這個字,似乎是直接把過去資料圈一直在談的 Data Quality 整個放進來當成一個觀測項目。 因此也有另外一個說法,是改用 Distribution 分佈這個字,更精準表達我們要觀測的是資料的值(內容)是否都落在合理的範圍。 舉例來說,你這一批資料是關於台灣的便利商店,結果在經緯度這一欄卻出現了非洲的位置,顯然資料必有問題;又或者這批資料關於人事,其中一個欄位是人員的年齡,但卻出現了四位數字的資料,這資料也必然有問題。 我個人是比較喜歡分佈這個說法,一來可以避免跟其他的 Data Quality 混用,導致議題混淆。另外分佈,更能表現出統計學的意味,我們是用一種科學的方式在評估資料是否吻合我們的期待。 第四支柱:結構(Schema) 資料結構,這也是一個過往以來不論是軟體圈或 Data 圈都會關注的項目。 「欸,明明說好資料會有 10 個欄位,怎麼少了一個?」 「欸,明明說好這個欄位是整數,怎麼取出來有小數點?」...

March 14, 2026 · Cheng Wei Chen