您的位置:首頁 >熱訊 > 觀察 >

一文搞懂!商業(yè)數(shù)據(jù)分析全流程

商業(yè)數(shù)據(jù)挖掘是一項涵蓋了商業(yè)問題的提出、數(shù)據(jù)收集和處理、模型構建和應用等多個環(huán)節(jié)的復雜過程。

首先,業(yè)務分析師或客戶提出一個具體的商業(yè)問題,這個問題的提出需要基于對業(yè)務的深入理解和分析。接下來,需要結合企業(yè)或組織的三大資源——高質量的數(shù)據(jù)、業(yè)務知識以及數(shù)據(jù)挖掘軟件,通過數(shù)據(jù)挖掘技術從大量的數(shù)據(jù)中提取出有商業(yè)價值的信息。最后,將這些洞察力嵌入到實際的業(yè)務流程中,用于提升銷售收入或利潤,降低成本,提高運營效率等業(yè)務目標。


(相關資料圖)

為了使數(shù)據(jù)挖掘過程更加規(guī)范化、系統(tǒng)化,出現(xiàn)了一些數(shù)據(jù)挖掘流程模型,CRISP-DM即是其中的一種優(yōu)秀代表。CRISP-DM全稱為CRoss Industry Standard Process for Data Mining(跨行業(yè)數(shù)據(jù)挖掘標準流程),如圖所示,這個流程模型將整個數(shù)據(jù)挖掘過程劃分為六個主要階段:業(yè)務理解、數(shù)據(jù)理解、數(shù)據(jù)準備、模型建立、模型評估和結果部署。

CRISP-DM強調,數(shù)據(jù)挖掘是一個迭代和探索的過程,六個步驟并不是線性的,而是根據(jù)實際情況靈活進行的。例如,如果在數(shù)據(jù)理解階段發(fā)現(xiàn)現(xiàn)有數(shù)據(jù)無法解決業(yè)務問題,可能需要返回到業(yè)務理解階段重新定義問題;如果在模型建立階段發(fā)現(xiàn)數(shù)據(jù)無法滿足建模需求,可能需要重新進行數(shù)據(jù)準備;如果在模型評估階段發(fā)現(xiàn)模型效果不佳,可能需要返回到業(yè)務理解階段審視問題定義,或者返回到數(shù)據(jù)準備和模型建立階段調整模型。

CRISP-DM流程為企業(yè)提供了一種結構化的方法來進行數(shù)據(jù)挖掘和分析,通過每個階段的專業(yè)處理,能夠有效地從大量數(shù)據(jù)中提取出有價值的信息,支持企業(yè)的決策,提升企業(yè)的競爭優(yōu)勢。

1. 業(yè)務理解

業(yè)務理解階段是CRISP-DM流程中的第一步,這個階段對整個數(shù)據(jù)分析項目至關重要。正確理解和定義業(yè)務問題將極大地影響后續(xù)的工作。此階段的主要目標是對商業(yè)問題進行明確的界定,并評估和組織企業(yè)的內(nèi)外部資源,使得可以更好地進行后續(xù)的數(shù)據(jù)挖掘任務。在業(yè)務理解階段,我們需要完成以下工作:

● 確定商業(yè)目標

此部分應詳細介紹商業(yè)背景,明確商業(yè)目標,定義達成目標的成功標準。例如,如果是一家電商公司,可能的商業(yè)目標是提高用戶轉化率或減少購物車棄置率。成功標準可能是在一定時間內(nèi)將轉化率提高到某一特定的百分比。

● 形勢評估

這是對項目當前環(huán)境的全面評估,包括企業(yè)已有資源(如數(shù)據(jù)、人力、技術等)、需求、假定和限制、風險偶然性,以及專業(yè)術語的解釋。此外,還要進行成本收益分析,以確保項目的收益超過成本。

● 確定數(shù)據(jù)挖掘目標

在明確了商業(yè)目標后,需要轉化為數(shù)據(jù)挖掘的目標,這可能涉及到預測某一特定指標,或是發(fā)現(xiàn)潛在的數(shù)據(jù)模式。同時,還需要定義數(shù)據(jù)挖掘的成功標準,例如,模型預測的準確率或召回率達到某一特定水平。

● 制訂項目計劃

根據(jù)前述的信息,制定詳細的項目計劃,包括時間線、責任分配等。此外,還要對可能使用的工具和方法進行評估,例如,可能需要確定使用哪種編程語言,以及是否使用開源庫或是商業(yè)軟件以降低開發(fā)成本。

這個階段的目標是將商業(yè)問題轉化為數(shù)據(jù)科學問題,并確定實施方案。每個步驟都需要深入的業(yè)務理解和交叉學科的知識。在整個過程中,與業(yè)務團隊、數(shù)據(jù)科學團隊和其他相關團隊的緊密溝通是非常重要的。

2. 數(shù)據(jù)理解

數(shù)據(jù)理解階段是CRISP-DM流程的關鍵環(huán)節(jié),主要的任務是對企業(yè)的數(shù)據(jù)資源進行深入的認識和初步清理。這個階段能夠讓分析師對手頭的數(shù)據(jù)有一個全面的了解,為后續(xù)的數(shù)據(jù)準備和模型建立打下堅實的基礎。在這個階段,我們需要完成以下工作

● 收集原始數(shù)據(jù)

首先需要收集原始數(shù)據(jù)。這個過程可能包括從數(shù)據(jù)庫中提取數(shù)據(jù)、獲取第三方數(shù)據(jù)源、或者直接從業(yè)務流程中獲取數(shù)據(jù)等方式。數(shù)據(jù)收集報告應記錄詳細的數(shù)據(jù)收集過程,包括數(shù)據(jù)來源、收集時間、數(shù)據(jù)量、數(shù)據(jù)的類型和格式等信息。

● 數(shù)據(jù)描述

數(shù)據(jù)描述報告主要是對數(shù)據(jù)的基本信息進行描述,包括數(shù)據(jù)的大小、數(shù)據(jù)的字段含義、字段的數(shù)據(jù)類型(如數(shù)值、類別、日期等)、數(shù)據(jù)分布的概況等。這個過程有助于我們了解數(shù)據(jù)的結構和基本特性。

● 探索性分析

數(shù)據(jù)探索性分析是對數(shù)據(jù)進行更深入的分析,包括計算一些統(tǒng)計量(如均值、中位數(shù)、方差等),繪制圖表(如直方圖、散點圖、箱線圖等),檢查數(shù)據(jù)的分布,探索變量之間的關系等。探索性數(shù)據(jù)分析報告應詳細記錄這個過程的結果,包括發(fā)現(xiàn)的數(shù)據(jù)特征、數(shù)據(jù)的異常值、變量間的關系等信息。

● 數(shù)據(jù)質量報告

數(shù)據(jù)質量報告主要評估數(shù)據(jù)的質量,包括數(shù)據(jù)的完整性、準確性、一致性和時效性等。數(shù)據(jù)質量問題可能包括缺失值、重復值、異常值、錯誤的數(shù)據(jù)類型等。數(shù)據(jù)質量報告應明確指出這些問題,并給出解決的建議。

在這個階段,一個重要的原則是:數(shù)據(jù)質量的好壞往往直接影響到數(shù)據(jù)分析的結果。因此,對數(shù)據(jù)進行詳細的理解和初步的清理是非常重要的。

3. 數(shù)據(jù)準備

數(shù)據(jù)準備階段是CRISP-DM流程中非常關鍵的一環(huán),主要是在建立數(shù)據(jù)挖掘模型之前對數(shù)據(jù)的最后準備。在企業(yè)的實際情況中,數(shù)據(jù)往往被存儲在不同的部門、不同的數(shù)據(jù)庫或者數(shù)據(jù)庫中的不同數(shù)據(jù)表中。因此,需要對這些數(shù)據(jù)進行整合和轉換,以生成符合數(shù)據(jù)挖掘需求的數(shù)據(jù)集。在這個階段我們需要完成下面一系列工作:

● 選擇數(shù)據(jù)

在數(shù)據(jù)準備階段,不是所有數(shù)據(jù)都適合數(shù)據(jù)挖掘,因此需要確定哪些數(shù)據(jù)應該包含在數(shù)據(jù)挖掘中,哪些數(shù)據(jù)應該被剔除。這個過程可能涉及到對數(shù)據(jù)的抽樣,基于業(yè)務知識的特征選擇,以及基于統(tǒng)計分析的特征選擇等。

● 數(shù)據(jù)清理

數(shù)據(jù)清理是對數(shù)據(jù)進行質量提升的過程,這可能包括對缺失值的處理(如插值、刪除等)、對異常值的處理(如修正、刪除等)、對重復值的處理等。數(shù)據(jù)清理報告應詳細記錄數(shù)據(jù)清理的過程和結果。

● 數(shù)據(jù)重構

數(shù)據(jù)重構可能涉及到生成新的字段和記錄,例如,根據(jù)已有的數(shù)據(jù)計算出新的特征(如從日期中提取出月份、季節(jié)等)、進行數(shù)據(jù)的離散化或連續(xù)化、進行數(shù)據(jù)的平衡等。

● 整合數(shù)據(jù)

在現(xiàn)實企業(yè)中,數(shù)據(jù)可能被存儲在不同的數(shù)據(jù)庫或數(shù)據(jù)表中,因此需要對這些數(shù)據(jù)進行整合。這可能涉及到數(shù)據(jù)的合并、數(shù)據(jù)的連接等操作。

● 格式化數(shù)據(jù)

最后,需要將數(shù)據(jù)轉化為適合數(shù)據(jù)挖掘的格式。例如,對于定類數(shù)據(jù),可能需要進行獨熱編碼或者啞變量轉換;對于數(shù)值型數(shù)據(jù),可能需要進行標準化或歸一化。

數(shù)據(jù)準備階段的工作量通常占據(jù)了整個數(shù)據(jù)挖掘項目的大部分時間,因為它涉及到的任務復雜并且冗長。然而,高質量的數(shù)據(jù)準備是建立有效模型的關鍵,因此這個階段的工作是非常重要的。

4. 建立模型

建立模型階段是數(shù)據(jù)挖掘工作的核心環(huán)節(jié),其主要任務是選用適當?shù)哪P秃退惴▉戆l(fā)現(xiàn)數(shù)據(jù)中的規(guī)律。數(shù)據(jù)挖掘模型大體上可以分為數(shù)據(jù)描述和匯總、細分、概念描述、分類、預測和相關性分析等。以下是建立模型環(huán)節(jié)的主要工作:

● 選擇建模技術

選擇合適的模型和算法是這個階段的第一步。選擇的過程中,需要考慮模型的假設和要求(如對數(shù)據(jù)的分布有無特定要求,是否需要大量的樣本,計算復雜度等),以及模型的適用范圍。對不同的模型技術進行評估和對比,以確定最合適的建模技術。

● 產(chǎn)生檢驗設計

為了評估模型的性能,需要設計相應的檢驗方案。這可能涉及到數(shù)據(jù)的劃分(如訓練集、驗證集和測試集的劃分),以及評估指標的選擇(如準確率、召回率、AUC等)。檢驗設計應詳細說明如何對模型的性能進行評估。

● 建立模型

在選擇了模型和算法后,需要設定模型的參數(shù),如正則化參數(shù)、決策樹的深度等。然后使用訓練數(shù)據(jù)來建立模型。建立模型的過程應詳細記錄,包括模型的具體形式、使用的參數(shù)、訓練的過程等。模型的適用性概述應說明模型適用的場景和限制。

● 模型評價

建立模型后,需要使用驗證集和測試集來對模型的性能進行評估。模型評價應詳細記錄模型在各項評估指標上的表現(xiàn)。根據(jù)評價的結果,可能需要對模型的參數(shù)進行調整,或者嘗試其他的模型和算法。

這個階段的目標是建立一個既符合業(yè)務需求,又能在數(shù)據(jù)上表現(xiàn)良好的模型。這可能需要反復的嘗試和調整,以及深入的業(yè)務和技術知識。

5. 模型評價

模型評價階段是數(shù)據(jù)挖掘流程中非常關鍵的一步,它的目的是評估模型是否達到了預期的效果,并決定是否將模型投入到實際應用中,或者是否需要對模型進行進一步的優(yōu)化和調整。模型評價通常涉及到技術層面和商業(yè)層面的評估,分別由建模人員和業(yè)務人員來共同完成以下工作:

● 結果評估

這個階段的主要任務是評估數(shù)據(jù)挖掘模型的結果,從技術角度(如準確率、召回率、AUC等評估指標)和商業(yè)角度(如模型對業(yè)務的貢獻、模型的可解釋性、模型的實施成本等)進行全面的評價。結果評估應詳細記錄模型的評估過程和結果,包括模型在各項指標上的表現(xiàn),模型的優(yōu)點和缺點,模型的改進空間等。

● 數(shù)據(jù)挖掘過程回顧

在模型評價階段,也需要回顧整個數(shù)據(jù)挖掘的過程,查找是否存在疏忽和遺漏之處。例如,是否有更好的特征可以使用,是否有更好的模型可以嘗試,數(shù)據(jù)清理和準備的過程是否充分等。數(shù)據(jù)挖掘過程回顧可以幫助我們找到改進的機會,提升模型的性能。

● 確定下一步的工作內(nèi)容

根據(jù)模型的評估結果和數(shù)據(jù)挖掘過程的回顧,我們需要列出所有可能的行動方案,包括對模型進行優(yōu)化,嘗試新的特征和模型,收集更多的數(shù)據(jù)等。然后,根據(jù)這些方案的預期效果和實施成本,進行決策,確定下一步的工作內(nèi)容。

模型評價階段的目標是確保模型的質量,提升模型的實用性,為下一步的工作做好決策。

6. 結果部署

結果部署(Deployment)階段是整個數(shù)據(jù)挖掘流程的最終階段,它將數(shù)據(jù)挖掘模型的結果實際應用到業(yè)務中,從而實現(xiàn)數(shù)據(jù)挖掘的商業(yè)價值。這個階段涉及的內(nèi)容可能會根據(jù)模型的類型和應用場景有所不同,但一般都會涉及到模型的部署、監(jiān)測和維護等環(huán)節(jié)。

● 結果發(fā)布

根據(jù)模型的類型和應用場景,詳細規(guī)劃模型的發(fā)布流程,包括模型的上線時間、上線的環(huán)境、需要的資源等。結果發(fā)布計劃應詳細記錄模型的部署情況,包括部署的過程和結果,以及可能遇到的問題和解決方案。

● 監(jiān)測和維護模型

模型在部署后,需要定期進行監(jiān)測和維護,以確保模型的性能和穩(wěn)定性。隨著商業(yè)環(huán)境的變化,模型的適用性和效果也可能會發(fā)生變化,因此需要建立一套有效的模型監(jiān)測和維護機制。監(jiān)測和維護模型計劃應詳細記錄如何進行模型的監(jiān)測和維護,包括使用的工具和技術,監(jiān)測的指標,維護的策略等。

● 模型交付報告

這份報告應總結整個數(shù)據(jù)挖掘的過程,包括數(shù)據(jù)的收集和準備,模型的建立和評價,模型的部署和監(jiān)測等。報告應詳細記錄模型的性能,模型對業(yè)務的貢獻,以及模型的改進空間等。

部署階段的目標是確保模型能夠順利地投入到實際的業(yè)務中,并通過監(jiān)測和維護,確保模型的持續(xù)效果。

關鍵詞: