"作為數據產品經理,你需要搞懂這4大模塊"

文章從數據全生命周期的四大模塊展開,對數據的採集、處理、存儲和分析作了簡要的分析介紹。希望對你有所幫助。

前面我們學習了4個步驟,用OSM和第一關鍵指標法來確定核心指標,接下來我們聊聊數據全生命周期。

接下來分別介紹這幾大模塊:

  1. 數據採集
  2. 數據預處理——ETL
  3. 數據存儲——數倉
  4. 數據分析——OLAP/業務模型

一、數據採集

按數據來源分,可將數據分為如下幾個類型:

  1. 埋點行為數據:通過埋點的方式,採集到的一些行為數據,如瀏覽、點擊、停留時長等
  2. 業務數據:伴隨著業務產生的數據,核心是生產系統內存儲的業務表單數據
  3. 日誌數據:一般是web端日誌記錄的數據
  4. 外部接入數據:從第三方獲得的數據

按數據類型可分為:結構化數據、半結構化數據、非結構化數據。

(1)結構化數據

一般是從內部數據庫和外部開放數據庫接口中獲得,一般都是存儲產品業務運營數據以及用戶操作的結果數據,比如註冊用戶數、下單量、完單量等數據。這類數據格式規範,典型代表就是關係數據庫中的數據,可以用二維表來存儲,有固定字段數,每個字段有固定的數據類型(數字、字符、日期等),每個字節長度相對固定。這類數據易於維護管理,同時對於查詢、展示和分析而言也是最為方便的一類數據格式。

(2)半結構化數據

應用的點擊日誌以及一些用戶行為數據,通常指日誌數據、xml、json等格式輸出的數據,格式較為規範,一般是純文本數據,需要對數據格式進行解析,才能用於查詢或分析數據。每條記錄預定義規範,但是每條記錄包含信息不同,字段數不同,字段名和字段類型不同,或者還包含著嵌套的格式。

(3)非結構化數據

指非純文本類數據,沒有標準格式,無法直接解析相應值,常見的非結構化數據有富文本、圖片、聲音、視頻等數據。這類數據除非是要進行高級的文本挖掘或者多媒體數據挖掘,否則對於日常的數據統計與分析而言,非結構化數據沒有分析價值。一般不會將非結構化數據以二進制形式存入數據倉庫,數據倉庫之父Inmon的建議是數據倉庫中只需要存儲非結構化數據的元數據。一般將非結構化數據存放在文件系統中,數倉中記錄數據的信息,如標題、摘要、創建時間等,方便進行索引查詢。

二、數據預處理——ETL

ETL

即Extract Transform Load,描述數據抽取、轉換、加載的過程。

  • 數據抽取:把數據從數據源中讀出來
  • 數據轉換:把原始數據轉換成期待的格式和維度
  • 數據加載:把處理後的數據加載到目標處,如數據倉庫中

數據倉庫從各數據源獲取數據以及在數據倉庫內的數據流轉和流動都可以認為是ETL過程,ETL是數據倉庫的流水線,也可以認為是數據倉庫的血液,它維繫著數據倉庫中數據的新陳代謝,而數據倉庫日常的管理和維護工作大部分精力是保持ETL的正常和穩定。

Kettle

Kettle是常用的ETL處理開源免費工具,其中文名叫水壺,該項目的主程序員MATT希望把各種數據放到一個壺中,然後以指定的格式流出。Kettle是純Java編寫,可以在Windows、Linux、unix上運營,數據抽取效率高效穩定,開放源代碼,便於二次開發包裝。但其數據抽取速度和大數據處理方面的能力比起powercenter、informatica、datastage等商業軟件要慢。

三、數據存儲——數據倉庫

數據倉庫的目的是構建面向分析的集成化數據環境,為企業提供決策支持。數據倉庫本身不生產任何數據,同時也不消費任何數據,數據來源於外部,並且開放給外部應用。這就是為什麼叫數據倉庫,而非數據工廠的原因。

數據倉庫基本架構

數據倉庫基本架構包含數據流入/流出的過程,可以分為三層:源數據、數據倉庫、數據應用。

(1)ODS(Operational Data Store)數據操作層

用於原始數據在數據平臺的落地,這些數據從數據結構、數據之間的邏輯關係上都與雨啊是數據層基本一致。在源數據進入這一層時,通常要進行數據清洗,如業務字段提取、去掉不用字段、臟數據處理等。默認保留近30天的數據,表命名規範為:ods_主題_原表名。

(2)DIM(Dimension Data Layer),數據維度層

主要用於存儲公共的信息數據,如地理位置、時間,數據格式一般是維表,如以國家ID等字段為主鍵,按需存儲,保留歷史至今的所有數據,表命名規範為:dim_業務描述,如dim_time。

(3)DWD(Data Warehouse Detail)數據明細層

用於源系統數據在數據平臺中的永久存儲,用以支持DWS層和DM層無法覆蓋的需求。默認保留歷史至今的所有數據,表命名規範為:dwd_主題域_描述,如dws_driver_detail 司機個人信息表。

(4)DWS(Data Warehouse Service),數據彙總層

主要包含兩類彙總表,一是細粒度的寬表,二是粗粒度的彙總表。例如打車業務,包含基於訂單、乘客、司機、車輛等細粒度的寬表和基於維度組合如(用戶日下單量彙總、用戶日完單量彙總、司機日接單量彙總)的粗粒度彙總表。DWS層的彙總數據目標時滿足80%的業務計算,默認保留歷史至今的所有數據,表命名規範為:dws_主題域_描述,如dws_訂單_今日下單量。

(5)DM:數據集市層

按照業務主題構建,面向特定部門或人員等數據集合,如產品、運營、客服等,用於支持BI、多維分析、營銷推薦、標簽、數據挖掘和其他數據服務。默認保留歷史至今的所有數據,表命名規範為:dm_主題域_描述。

數據倉庫特性

數據倉庫有4大特性:主題性、集成性、穩定性、動態性。

(1)為什麼要面向主題?

面向主題是數據倉庫的第一特性,主要指合理的組織數據以方便實現分析。對於源數據而言,數據組織形式是多樣的,如點擊流數據格式是未經優化的,前臺數據庫基於OLTP操作組織,不適合直接進行分析,而整理成面向主題的形式,才方便分析。如點擊流日誌整理成頁面、訪問、用戶三個主題,可以明顯提升分析效率。

(2)為什麼集成?

數據倉庫中存儲的數據是來源於多個數據源的集成,原始數據來自不同的數據源,存儲方式各不相同。

(3)為什麼穩定?

數據倉庫彙總保存的數據是一系列歷史快照,不允許修改,用戶只能通過分析工具進行查詢。

(4)為什麼動態?

數據倉庫會定期接收新的集成數據,反映出最新的數據變化。當數據超過數據倉庫的存儲期限時,或對分析無用時,會從數據倉庫中刪除這些數據,數據倉庫的結構和維護信息存儲在數據倉庫的元數據中。

Hive

主流的數據倉庫,在國內常用的是一款開源數據倉庫hive。Hive是基於Hadoop的數據倉庫工具,可以對存儲在HDFS的文件數據集進行查詢和分析處理。Hive對外提供了類似於SQL語言的查詢語句hiveQL,在做查詢時,將HQL語句轉換成計算模型。Hive的主要優勢是免費,而商業收費數據倉庫有Teradata、Oracle、Db2等。

四、數據分析

1. OLAP

也被稱為多維分析,提供多維數據管理環境,其典型應用是對商業問題的建模與商業分析。

1993年,關係數據庫支父F.Codd提出OLAP概念,同時提出OLAP的12條準則。使得分析人員能夠從多角度對信息進行快速、一致、交互的存取。

目標:滿足決策支持或者滿足在多維環境條件下特定的查詢和報表需求,核心技術是“維”的這個概念。“維”是人們觀察客觀世界的角度,是一種高層次的類型劃分。

OLAP的多維分析操作:鑽取、上捲、切片、切塊、切塊、旋轉、透視、排序、篩選。

  • 鑽取:在維的不同層次間的變化,從上層降到下一層,比如通過對2020年第二季度的總銷售額數據進行鑽取,查看2010年第二季度4、5、6每個月消費數據;也可以鑽取浙江省查看杭州、寧波等城市銷售數據。
  • 上捲:鑽取的逆操作,細粒度向高層聚合,如將江蘇、上海、浙江省的銷售數據彙總查看江浙滬地區的銷售數據。
  • 切片:選擇維中特定的值進行分析,比如只選擇電子產品的銷售數據。
  • 切塊:選擇維中特定區間的數據或者某批特定值進行分析,比如選擇電子產品和日用品的銷售數據。
  • 旋轉:維的位置互換,就像二維表行列轉換,通過旋轉實現產品維和地域維的互換。

優勢:基於數據倉庫面向主題的、集成的、保留歷史不可變更的數據存儲,以及多維模型多層次的數據組織形式。

2. 業務模型

基於某些數據分析和決策支持而建立起來的數據模型,如用戶評價模型、關聯推薦模型、RFM分析模型、漏斗模型、用戶行為路徑模型、用戶分群模型、留存分析模型等。接下來介紹一個常用的模型RFM模型,其他的業務模型在後續篇章進行展開。

RFM模型

根據美國數據庫營銷研究所Arthur Hughes的研究,客戶數據庫中有3個神奇的要素,這3個要素構成了數據分析最好的指標。

  1. 最近一次消費(Recency):指用戶上一次購買的的時間,理論上上一次消費時間越近的顧客是比較好的顧客,是維繫顧客的一個重要指標。。
  2. 消費頻率(Frequency):顧客在限定時間周期內消費的次數。最長購買的顧客,也是滿意度最高的顧客。根據這個指標,可以把客戶分成5等份,相當於劃分了一個忠誠度的階梯。
  3. 消費金額(Monetary):消費金額時產能最直接的衡量指標,也可以驗證“帕雷托法則”,公司的80%收入來自於20%的顧客。

客戶類型可劃分為:

1)重要價值客戶:RFM比較大、優質客戶,需要保持;

措施:傾斜更多資源、VIP服務、個性化服務、附加銷售

2)重要喚回客戶:消費金額和消費頻次大,但最近無消費,需要喚回;

措施:提供有用資源,通過續訂或更新產品贏回他們

3)重要深耕客戶:消費金額大貢獻度高,且最近有交易,需要重點識別;

措施:交叉銷售,提供會員/忠誠計劃,推薦其他產品

4)重要輓留客戶:消費金額大,潛在有價值客戶,需要輓留

措施:push消息觸達,回訪,提高留存率

5)潛力客戶:消費頻次高,且最近有消費,需要挖掘

措施:向上銷售更高價值的產品

6)新客戶:最近有消費,接觸的新客戶,有推廣價值

措施:開展活動,免費試用,提高客戶興趣,建立品牌認知度

7)一般維持客戶:消費頻次多,但貢獻不大,一般維持

措施:積分制,分享寶貴的資源,以折扣推薦熱門產品/續訂,與他們重新獲得聯繫

8)流失客戶:FM值均低於平均值,最近也沒消費,相當於流失

措施:恢復客戶興趣,暫時放棄無價值用戶

總結

本文主要數據採集、ETL數據預處理、數據倉庫、OLAP數據分析與業務模型,幫助大家進行技術上的掃盲,後續會介紹業務模型以及BI數據應用,歡迎一起交流。

#相關閱讀#

4個步驟,用模型確定數據指標

作者:草帽小子;公眾號:一個數據人的自留地,wx:luckily304

本文由 @草帽小子 原創發佈於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *