前言
大家好,我是艦長。
前一篇文章聊了軟體圈,本文我想簡單聊聊我所看到的 Data 圈,似乎 Data User 想要的東西跟軟體圈的 User 不太一樣。
Data 圈的使用者,只關心 Data
如果非得用一句話來總結,我會說:Data 的使用者,他們真正在意的只有一件事,就是「Data」本身。
這句話聽起來像是廢話,但請讓我用一個你可能不陌生的場景,來解釋背後的涵義。
想像一下,你是公司營運部門的主管,你早上九點要跟大老闆開會,報告上一季新產品的銷售狀況。你打開 BI Dashboard,想看一下最新的「產品轉換率」與「各通路營收佔比」。
這時候,你腦袋中想的多半是:
- 「這些數字到底準不準?」
- 「資料有更新到最新嗎?」
- 「為什麼 A 通路的營收看起來怪怪的?」
(本圖片由 Gemini 生成。)
而你多半不會去想:
- 「背後處理這批資料的 Data Pipeline 是用 Airflow 還是 Dagster 處理排程任務的?」
- 「底層的資料倉儲是 BigQuery 還是 Snowflake?」
- 「這中間是不是跑了一個很複雜的 Spark 任務來做資料處理?」
對你來說,你根本不關心 Data 是怎麼來的。你不在乎 Data Team 為了產出這張報表,究竟是蓋了一條全自動化的 Data pipeline,還是一路純手工接力把 Data 做出來。你只關心,當你打開 BI Dashboard 時,可以拿到正確的數字與報表去跟老闆說明。
所以如果 BI Dashboard 上的數字有錯誤、過期或無法給出解釋,那對你來說,這批 Data 恐怕就是沒有價值的;畢竟錯誤的 Data 可能會導致老闆做出錯誤的商業決策。
然而工程師們可能會說,雖然 Data 有問題,但它們依然是 Data Team 的 Data Engineer 與 Data Analyst 在那座造價不菲的 Data infra,透過多條複雜的 Data pipeline 所產出;這也是花費了很多成本與心血,怎麼可以說是沒有價值?
可惜即便如此,錯誤的 Data 就是錯,Data User 不會因為它是一批「產製成本」很高的 Data,就改變心意說這是一批正確可用的 Data。
小結
沒錯,本文還是繼續鋪梗。我想要讓大家認識 Data 領域有趣、同時也具有挑戰性的地方。
在軟體圈,使用者是跟一個「功能性的產品」互動;但在 Data 圈,「Data 本身」就是那個產品。
(不同的 User,想要的東西不一樣。)
也因此當 Data 本身就是產品時,那 Data 的品質、可信度就成了 User 所重視的一切基礎。
而想當然的,便宜、快、品質佳,這三個難以同時實現的條件,也同樣適用於 Data 圈,Data User 也會問「請問哪裡有又便宜、又快、品質又好的 Data 呢?」
系列文連結
此系列文持續撰寫中,陸續更新連結。