CRM系統(tǒng):CRM 中的數(shù)據(jù)倉庫技術(shù)研究
CRM 中的數(shù)據(jù)倉庫技術(shù)研究
雷 蘊(yùn)
摘 要:介紹了客戶關(guān)系管理(CRM)以及數(shù)據(jù)倉庫技術(shù),著重分析了CRM 中的數(shù)據(jù)倉庫技術(shù),對數(shù)據(jù)轉(zhuǎn)移和數(shù)
據(jù)的存儲(chǔ)與管理的改進(jìn)及其在CRM 中的應(yīng)用作了深入的探討和研究。
關(guān)鍵詞:客戶關(guān)系管理(CRM) 數(shù)據(jù)倉庫 數(shù)據(jù)轉(zhuǎn)移 數(shù)據(jù)粒度 數(shù)據(jù)分割
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-7973(2007)03-0138-02
一、CRM 對數(shù)據(jù)倉庫技術(shù)的需求
1.動(dòng)態(tài)、整合的客戶數(shù)據(jù)管理和查詢功能
客戶關(guān)系管理系統(tǒng)中的客戶信息必須是動(dòng)態(tài)的、整合的。
動(dòng)態(tài)需求方面,客戶數(shù)據(jù)倉庫能夠?qū)崟r(shí)地向客戶關(guān)系管理系
統(tǒng)提供客戶的基本資料和歷史交易行為等信息,并在客戶每
次交易完成后,補(bǔ)充新的信息;整合需求方面,綜合、統(tǒng)一
客戶管理系統(tǒng)中客戶數(shù)據(jù)的客戶信息數(shù)據(jù)倉庫,可以使各業(yè)
務(wù)部門權(quán)限的不同實(shí)施信息查詢和更新功能。
2.客戶購買行為參考功能
客戶信息數(shù)據(jù)倉庫可以使企業(yè)的每一個(gè)服務(wù)人員在向客
戶提供產(chǎn)品和服務(wù)的時(shí)候,都能清楚客戶的習(xí)慣購買行為,
從而提供更具針對性的個(gè)性化服務(wù)。例如,聯(lián)系中心能夠根
據(jù)客戶最后一次的選擇和購買記錄,以及他們最近一次與客
戶交流獲得的有關(guān)信息,向客戶推薦不同的產(chǎn)品和服務(wù)。
3.客戶流失警告功能
對于企業(yè)來說,留住一個(gè)客戶的費(fèi)用大約是發(fā)展一個(gè)新
客戶的費(fèi)用的6 倍之多。通過對客戶信息數(shù)據(jù)倉庫中客戶歷
史交易行為的觀察和分析,可以警示客戶異常購買的行力。
例如,某個(gè)客戶的購買周期和購買量出現(xiàn)顯著萎縮變化時(shí),
都是潛在客戶流失的跡象。
二、CRM 中的數(shù)據(jù)倉庫技術(shù)
1.?dāng)?shù)據(jù)轉(zhuǎn)移
數(shù)據(jù)轉(zhuǎn)移是一個(gè)較為復(fù)雜的過程,它包括數(shù)據(jù)的抽取、
轉(zhuǎn)換和裝載(ETL)。
(1)數(shù)據(jù)抽取(Data Extraction)
數(shù)據(jù)抽取就是根據(jù)CRM 數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)模型的需求,
從相應(yīng)的業(yè)務(wù)系統(tǒng)、外數(shù)據(jù)源等中抽取需要的數(shù)據(jù)。抽取出
來的數(shù)據(jù)可能需要經(jīng)過轉(zhuǎn)換,采取同步或異步的方式加載到
CRM 數(shù)據(jù)倉庫系統(tǒng)中。根據(jù)抽取的源數(shù)據(jù)形式,選擇數(shù)據(jù)抽
取接口的原則建議為以下幾點(diǎn):
① 對于數(shù)據(jù)形式為關(guān)系型數(shù)據(jù)庫的系統(tǒng),建議采用
ODBC、OLEDB 或?qū)S脭?shù)據(jù)庫驅(qū)動(dòng)接口方式;
② 對于數(shù)據(jù)形式是文件方式的源數(shù)據(jù),則一般直接進(jìn)入
轉(zhuǎn)換和加載流程;
③ 對于業(yè)務(wù)系統(tǒng)性能要求較高,業(yè)務(wù)量大,不能影響系
統(tǒng)性能的系統(tǒng),一般應(yīng)當(dāng)采用高性能的數(shù)據(jù)抽取接口,比如:
專用數(shù)據(jù)庫驅(qū)動(dòng)接口、OLEDB 接口等;
④ 對于數(shù)據(jù)量特別大的業(yè)務(wù)系統(tǒng)數(shù)據(jù)的抽取,必須采用
高效率的數(shù)據(jù)接口,比如專用的API 接口,進(jìn)行編程。
數(shù)據(jù)的抽取必須能夠充分滿足CRM 數(shù)據(jù)倉庫系統(tǒng)分析
及決策支持的需要,同時(shí)必須保證不能影響業(yè)務(wù)系統(tǒng)的性能,
所以進(jìn)行數(shù)據(jù)抽取時(shí)必須充分考慮這些因素,制定相應(yīng)的策
略。
(2)數(shù)據(jù)轉(zhuǎn)換( Data Transformation)
數(shù)據(jù)轉(zhuǎn)換是指對從業(yè)務(wù)系統(tǒng)中抽取的源數(shù)據(jù)根據(jù)CRM
數(shù)據(jù)倉庫系統(tǒng)模型的要求,進(jìn)行數(shù)據(jù)的轉(zhuǎn)換、清洗、拆分、
匯總等處理,保證數(shù)據(jù)按要求裝入CRM 數(shù)據(jù)倉庫。
根據(jù)實(shí)際情況,數(shù)據(jù)轉(zhuǎn)換工作一般會(huì)在以下幾個(gè)環(huán)節(jié)中
具體實(shí)現(xiàn):
① 在抽取過程中進(jìn)行數(shù)據(jù)處理;
② 使用異步數(shù)據(jù)加載,以文件的方式處理;
③ 在數(shù)據(jù)加載過程中進(jìn)行數(shù)據(jù)處理;
④ 進(jìn)入數(shù)據(jù)倉庫以后再進(jìn)行數(shù)據(jù)處理;
采用在數(shù)據(jù)抽取過程中進(jìn)行數(shù)據(jù)轉(zhuǎn)換時(shí),必須考慮抽取
的性能以及對業(yè)務(wù)系統(tǒng)性能的影響;采用異步數(shù)據(jù)加載需要
以文件方式處理時(shí),必須充分考慮中間磁盤的存儲(chǔ)量以及
ETL 整個(gè)流程的協(xié)調(diào)性工作和大量的非SQL 語句的編程;
采用在數(shù)據(jù)加載過程中進(jìn)行數(shù)據(jù)轉(zhuǎn)換時(shí),必須考慮加載性能;
采用先將數(shù)據(jù)裝載到CRM 數(shù)據(jù)倉庫后再處理時(shí),必須考慮
CRM 數(shù)據(jù)倉庫引擎的海量數(shù)據(jù)處理能力。
(3)數(shù)據(jù)加載(Data Loading)
數(shù)據(jù)加載就是將從源業(yè)務(wù)系統(tǒng)中抽取、轉(zhuǎn)換后的數(shù)據(jù)加
載到CRM 數(shù)據(jù)倉庫系統(tǒng)中。一般來講,不同的數(shù)據(jù)倉庫提
供廠商,都會(huì)有自己的數(shù)據(jù)加載工具以及深入編程的API 接
口。對于用戶而言,需要重點(diǎn)考察的是數(shù)據(jù)加載工具的加載
性能。
數(shù)據(jù)加載策略主要包括兩方面的內(nèi)容:加載周期和數(shù)據(jù)
追加策略。加載周期是指多長時(shí)間從業(yè)務(wù)系統(tǒng)中抽取并向
CRM 數(shù)據(jù)倉庫中加載一次數(shù)據(jù)。數(shù)據(jù)追加策略是指數(shù)據(jù)每次
是如何向CRM 數(shù)據(jù)倉庫系統(tǒng)中追加的。
根據(jù)CRM 系統(tǒng)所需業(yè)務(wù)數(shù)據(jù)的實(shí)際情況,建議對不同
業(yè)務(wù)系統(tǒng)采用不同的加載周期,但必須保持同一時(shí)間業(yè)務(wù)數(shù)
據(jù)的完整性。數(shù)據(jù)的追加策略可以根據(jù)數(shù)據(jù)的抽取策略以及
業(yè)務(wù)規(guī)則來確定,一般建議采用三種類型:直接追加、全部
覆蓋、更新追加。
2.?dāng)?shù)據(jù)的存儲(chǔ)和管理
數(shù)據(jù)倉庫的真正關(guān)鍵技術(shù)是數(shù)據(jù)的存儲(chǔ)和管理。大量數(shù)
據(jù)的存儲(chǔ)和管理是數(shù)據(jù)倉庫最重要的技術(shù)需求。管理大量數(shù)
據(jù)的方法可以通過尋址、索引、數(shù)據(jù)的外延和有效的溢出管
理。在建造CRM 數(shù)據(jù)倉庫時(shí),理想的情況是假定其能夠滿
足處理大量數(shù)據(jù)的需求。對于CRM 中數(shù)據(jù)倉庫數(shù)據(jù)的存儲(chǔ)
和管理,可以從數(shù)據(jù)的粒度、數(shù)據(jù)分割和數(shù)據(jù)組織方面來研
究。這里重點(diǎn)討論CRM 中數(shù)據(jù)倉庫的數(shù)據(jù)粒度和數(shù)據(jù)分割。
(1)數(shù)據(jù)粒度
粒度問題是設(shè)計(jì)CRM 數(shù)據(jù)倉庫的一個(gè)最重要方面。粒
度是指CRM 數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合
程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越小;相反,細(xì)化程
度越低,粒度級(jí)就越大。
如果CRM 數(shù)據(jù)倉庫的空間很有限的話(數(shù)據(jù)量總是
CRM 數(shù)據(jù)倉庫中的首要問題),用高粒度級(jí)表示數(shù)據(jù)將比用
低粒度級(jí)表示數(shù)據(jù)的效率要高得多。高粒度級(jí)不僅只需要少
得多的字節(jié)存放數(shù)據(jù),而且只需要較少的索引項(xiàng)。然而數(shù)據(jù)
量大小和原始空間問題不是僅有的應(yīng)考慮的問題。為了訪問
大量數(shù)據(jù),其處理能力的大小同樣也是應(yīng)考慮的一個(gè)因素。
所以,在CRM 數(shù)據(jù)倉庫中數(shù)據(jù)壓縮非常有用。當(dāng)數(shù)據(jù)被壓
縮后就會(huì)大大節(jié)省所用的DASD 存儲(chǔ)空間,節(jié)省所需的索引
項(xiàng),以及節(jié)省處理數(shù)據(jù)的處理器資源。但是,當(dāng)提高數(shù)據(jù)粒
度級(jí)時(shí),數(shù)據(jù)所能回答查詢的能力就會(huì)隨之降低。換句話說,
在一個(gè)很低的粒度級(jí)上你實(shí)際可以回答任何問題,但在高粒
度級(jí)上,數(shù)據(jù)所能處理的問題的數(shù)量是有限的。如果在高粒
度級(jí)上包括了足夠的細(xì)節(jié),則使用高粒度級(jí)數(shù)據(jù)的效率將會(huì)
高得多。
在管理數(shù)據(jù)的粒度問題中,粒度的權(quán)衡是首要的,大多
數(shù)據(jù)組織的最佳解決辦法是采用多重粒度級(jí)的形式。在設(shè)計(jì)
和構(gòu)造CRM 數(shù)據(jù)倉庫之初就必須仔細(xì)考慮這種權(quán)衡。當(dāng)一
個(gè)企業(yè)或組織的CRM 數(shù)據(jù)倉庫中擁有大量數(shù)據(jù)時(shí),在CRM
數(shù)據(jù)倉庫的細(xì)節(jié)部分考慮雙重(或多重)粒度級(jí)是很有意義的。
事實(shí)上,需要多個(gè)粒度級(jí)而不是一個(gè)粒度級(jí)的需求,是因?yàn)?
粒度級(jí)設(shè)計(jì)采用雙重級(jí)別應(yīng)該是幾乎每個(gè)機(jī)構(gòu)默認(rèn)的選擇。
鑒于費(fèi)用、效率、訪問便利和能夠回答任何可以回答的查詢
的能力,數(shù)據(jù)雙重粒度級(jí)是大多數(shù)機(jī)構(gòu)建造CRM 數(shù)據(jù)倉庫
細(xì)節(jié)級(jí)的最好選擇。只有當(dāng)一個(gè)機(jī)構(gòu)的CRM 數(shù)據(jù)倉庫環(huán)境
中只有相對較少的數(shù)據(jù)時(shí),才應(yīng)嘗試采用數(shù)據(jù)粒度的單一級(jí)
別。
數(shù)據(jù)倉庫中往往存在著多個(gè)主題,而用戶對這些主題的
訪問頻率是不同的,就是對屬于同一主題的綜合數(shù)據(jù),用戶
查詢的概率也不盡相同,因此在這種多重粒度的數(shù)據(jù)倉庫中,
不需要將所有綜合數(shù)據(jù)都放在CRM 數(shù)據(jù)倉庫中,可以把在
一段時(shí)間內(nèi)訪問頻率相對較低的這部分綜合數(shù)據(jù)調(diào)出數(shù)據(jù)倉
庫,將其釋放的空間供當(dāng)前被訪問的綜合數(shù)據(jù)使用。
綜合上述的論述,給出一種數(shù)據(jù)粒度的劃分方法:
① 按數(shù)據(jù)的歷史時(shí)序劃分粒度級(jí)別,數(shù)據(jù)存貯時(shí)間越
久,數(shù)據(jù)匯總粒度級(jí)別越高;
② 在粒度級(jí)別不同的數(shù)據(jù)間.給出緩沖區(qū),在緩沖區(qū)內(nèi)
保存同一數(shù)據(jù)的兩種存貯粒度類型,用以回答不同問題;
③ 緩沖區(qū)內(nèi)數(shù)據(jù)按使用頻度決定新的粒度變換.變換閾
值由領(lǐng)域?qū)<医o定;
④ 變換粒度的使用頻度閾值的有效性.決定于領(lǐng)域?qū)<?
給定的較大的正整數(shù)值,該值取決于專家經(jīng)驗(yàn)。
(2)數(shù)據(jù)分割
分割是CRM 數(shù)據(jù)倉庫中數(shù)據(jù)的第二個(gè)主要的設(shè)計(jì)問題
(在粒度問題之后)。數(shù)據(jù)分割是指把數(shù)據(jù)分散到各自的物理單
元中去,它們能獨(dú)立地處理。在CRM 數(shù)據(jù)倉庫環(huán)境中,問
題不是要不要對當(dāng)前細(xì)節(jié)數(shù)據(jù)進(jìn)行分割,而是怎樣對當(dāng)前細(xì)
節(jié)數(shù)據(jù)進(jìn)行分割。對當(dāng)前細(xì)節(jié)數(shù)據(jù)進(jìn)行分割的總體目的是把
數(shù)據(jù)劃分成小的物理單元。小的物理單元能為操作者和設(shè)計(jì)
者在管理數(shù)據(jù)時(shí)提供比對大的物理單元更大的靈活性。
CRM 數(shù)據(jù)倉庫開發(fā)人員面臨的主要問題之一是在系統(tǒng)
層上還是在應(yīng)用層上對數(shù)據(jù)進(jìn)行分割。通常,在應(yīng)用層上分
割CRM 數(shù)據(jù)倉庫的數(shù)據(jù)是很有意義的。這是有某些重要原
因的,最重要的是在應(yīng)用層上每年的數(shù)據(jù)可以有不同的定義。
2002 年和2003 年的數(shù)據(jù)定義,可以相同也可以不相同。
CRM 數(shù)據(jù)倉庫中數(shù)據(jù)的性質(zhì)是長期數(shù)據(jù)積累的結(jié)果。當(dāng)數(shù)據(jù)
在系統(tǒng)層上分割時(shí),DBMS 不可避免地希望只有一種數(shù)據(jù)定
義。假定CRM 數(shù)據(jù)倉庫中保存的數(shù)據(jù)時(shí)間較長(如達(dá)到十
年),而且數(shù)據(jù)定義經(jīng)常變化,讓DBMS 或操作系統(tǒng)去管理
一個(gè)本該只有一種數(shù)據(jù)定義的系統(tǒng)將是毫無意義的。在應(yīng)用
層上管理數(shù)據(jù)分割的另一重要特點(diǎn)是它能從一個(gè)處理集轉(zhuǎn)移
到另一個(gè)處理集而沒有損失。在CRM 數(shù)據(jù)倉庫環(huán)境中,當(dāng)
工作負(fù)載和數(shù)據(jù)量成為真正的負(fù)擔(dān)時(shí),這種特點(diǎn)就是一種真
正的優(yōu)點(diǎn)。
三、結(jié)束語
全球信息化的普及使得企業(yè)CRM 所采集的數(shù)據(jù)量會(huì)更
加龐大,因此數(shù)據(jù)倉庫技術(shù)的引入可以說是一個(gè)根本上的解
決方案,可以為企業(yè)爭取更多的客戶份額,使之在激烈的市
場競爭中立于不敗之地。可以預(yù)見,隨著數(shù)據(jù)倉庫技術(shù)的進(jìn)
一步成熟,CRM 也會(huì)越來越完善,必將發(fā)揮重要的作用。
參考文獻(xiàn)
[1] 羅納德.S.史威福特.客戶關(guān)系管理.楊東龍,姚成龍,黃
燕譯.中國經(jīng)濟(jì)出版社.2002.3.
[2] 宋擒豹,楊向榮,沈均毅.數(shù)據(jù)倉庫技術(shù)研究.計(jì)算機(jī)工
程.2002.28.1:125~127.
[3] 熊忠陽,張玉芳,吳中福.數(shù)據(jù)倉庫數(shù)據(jù)加載技術(shù).重慶大
學(xué)學(xué)報(bào).2002.25.2:106~108.
[4] Alex Berson.構(gòu)建面向CRM 的數(shù)據(jù)挖掘應(yīng)用.賀奇,鄭巖
譯.人民郵電出版社.2001.8.
強(qiáng)力推薦:
天柏客戶關(guān)系管理系統(tǒng)
天柏