數據倉庫分層的原因
1通過(guò)數據預處理提高效率,因為預處理,所以會(huì )存在冗余數據
2如果不分層而業(yè)務(wù)系統的業(yè)務(wù)規則發(fā)生變化,就會(huì )影響整個(gè)數據清洗過(guò)程,工作量巨大
3通過(guò)分層管理來(lái)實(shí)現分步完成工作,這樣每一層的處理邏輯就簡(jiǎn)單了
標準的數據倉庫分層:ods(臨時(shí)存儲層),pdw(數據倉庫層),mid(數據集市層),app(應用層)
ods:歷史存儲層,它和源系統數據是同構的,而且這一層數據粒度是最細的,這層的表分為兩種,一種是存儲當前需要加載的數據,一種是用于存儲處理完后的數據。
pdw:數據倉庫層,它的數據是干凈的數據,是一致的準確的,也就是清洗后的數據,它的數據一般都遵循數據庫第三范式,數據粒度和ods的粒度相同,它會(huì )保存bi系統中所有歷史數據
mid:數據集市層,它是面向主題組織數據的,通常是星狀和雪花狀數據,從數據粒度將,它是輕度匯總級別的數據,已經(jīng)不存在明細的數據了,從廣度來(lái)說(shuō),它包含了所有業(yè)務(wù)數量。從分析角度講,大概就是近幾年
app:應用層,數據粒度高度匯總,倒不一定涵蓋所有業(yè)務(wù)數據,只是mid層數據的一個(gè)子集。
數據倉庫的目的是構建面向分析的集成化數據環(huán)境,為企業(yè)提供決策支持。數據倉庫的context也可以理解為:數據源,數據倉庫,數據應用
數據倉庫可以理解為中間集成化數據管理的一個(gè)平臺
etl(抽取extra,轉化transfer,裝載load)是數據倉庫的流水線(xiàn),也可以認為是數據倉庫的血液。
數據倉庫的存儲并不需要存儲所有原始數據,因為比如你存儲冗長(cháng)的文本數據完全沒(méi)必要,但需要存儲細節數據,因為需求是多變的,而且數據倉庫是導入數據必須經(jīng)過(guò)整理和轉換使它面向主題,因為前臺數據庫的數據是基于oltp操作組織優(yōu)化的,這些可能不適合做分析,面向主題的組織形式才有利于分析。
多維數據模型就是說(shuō)可以多維度交叉查詢(xún)和細分,應用一般都是基于聯(lián)機分析處理(online analytical process OLAP),面向特定需求群體的數據集市會(huì )基于多位數據模型構建
而報表展示就是將聚合數據和多維分析數據展示到報表,提供簡(jiǎn)單和直觀(guān)的數據。
元數據,也叫解釋性數據,或者數據字典,會(huì )記錄數據倉庫中模型的定義,各層級之間的映射關(guān)系,監控數據倉庫的數據狀態(tài)和etl的任務(wù)運行狀態(tài)。一般通過(guò)元數據資料庫來(lái)統一存儲和管理元數據。
數據倉庫是面向主題的、集成的、穩定的、不同時(shí)間的數據的集合,用于支持經(jīng)營(yíng)管理中的決策制定過(guò)程。
基于主題而組織的數據便于面向主題分析決策,它所有的集成性、穩定性及時(shí)間特征使其成為了分析型數據,為決策層提供決策支持。數據倉庫系統也是一個(gè)管理系統,它由三部分組成:數據倉庫,數據倉庫管理系統,數據倉庫工具。
倉儲物流配送供應鏈服務(wù)商自主研發(fā)的物流倉儲配送全網(wǎng)系統就成為了電子商務(wù)的新寵,不僅可以綁定天貓、淘寶、京東、一號店等電商后臺物流平臺,幫助企業(yè)賣(mài)家直接后臺下單發(fā)貨,而且更為重要的是能夠為不同的企業(yè)賣(mài)家提供不同的倉儲物流配送解決方案,智工廠(chǎng)可以提供低成本的物流配送模式,也可以提供最快速的物流配送方案。
? (一)數據源 是數據倉庫系統的基礎,是整個(gè)系統的數據源泉。
通常包括企業(yè)內部信息和外部信息。內部信息包括存放于 RDBMS 中的各種業(yè)務(wù)處理數據和各類(lèi)文檔數據。
外部信息包括各類(lèi)法律法規、市場(chǎng)信息和競爭對手的信息等等; (二)數據的存儲與管理 是整個(gè)數據倉庫系統的核心。 數據倉庫的真正關(guān)鍵是數據的存儲和管理。
數據倉庫的組織管理方式?jīng)Q定了它有別于傳統數據庫,同時(shí)也決定了其對外部數據的表現形式。要決定采用什么產(chǎn)品和技術(shù)來(lái)建立數據倉庫的核心,則需要從數據倉庫的技術(shù)特點(diǎn)著(zhù)手分析。
針對現有各業(yè)務(wù)系統的數據,進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。 數據倉庫按照數據的覆蓋范圍可以分為企業(yè)級數據倉庫和部門(mén)級數據倉庫(通常稱(chēng)為數據集市)。
(三)OLAP(聯(lián)機分析處理)服務(wù)器 對分析需要的數據進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現趨勢。其具體實(shí)現可以分為:ROLAP(關(guān)系型在線(xiàn)分析處理)、MOLAP(多維在線(xiàn)分析處理)和 HOLAP(混合型線(xiàn)上分析處理)。
ROLAP 基本數據和聚合數據均存放在 RDBMS 之中;MOLAP 基本數據和聚合數據均存放于多維數據庫中;HOLAP 基本數據存放于RDBMS 之中,聚合數據存放于多維數據庫中。 (四)前端工具 主要包括各種報表工具、查詢(xún)工具、數據分析工具、數據挖掘工具以數據挖掘及各種基于數據倉庫或數據集市的應用開(kāi)發(fā)工具。
其中數據分析工具主要針對 OLAP 服務(wù)器,報表工具、數據挖掘工具主要針對數據倉庫。 ----------------------------- 由安信公司歷經(jīng) 4 年研發(fā)的監測數據管理平臺,采用獨創(chuàng )的技術(shù)架構,在 B/S 架構上融入 C/S 模式,囊括了實(shí)驗室管理系統、監測站辦公自動(dòng)化、監測站綜合業(yè)務(wù)管理系統、監測數據上報系統等諸多系統,把各個(gè)系統有機融合在一起,不同的業(yè)務(wù)科室展現不同工作頁(yè)面,內部卻又實(shí)現了數據共享。
系統頁(yè)面簡(jiǎn)單大方,操作輕松方便,在不增加實(shí)驗室工作量的情況下,能夠讓監測數據進(jìn)入系統中,原始記錄單等諸多實(shí)驗室報表可協(xié)助生成(不完全生成,需人工簽字),隨后科室比如質(zhì)控、綜合、主管領(lǐng)導即可對數據進(jìn)行多層次利用查詢(xún),并自動(dòng)生成各類(lèi)監測報表。 系統采用流程化工作模式,對不同監測任務(wù)實(shí)施不同工作流,保證工作的科學(xué)和嚴謹,對于單位內部職工每天待辦事宜清晰顯示,讓內部職工對每天工作都一目了然。
系統工作流程可自由配置,工作單可根據按照配置流轉相應單位,并且可以對工作流程進(jìn)行追蹤查詢(xún),作為領(lǐng)導可以查看到每一項安排工作的流轉情況、完成情況和監測結果。 系統支持短信功能,對于領(lǐng)導等科室一些緊急任務(wù)可在系統下達后,立刻用短信通知相應工作人員,對于單位緊急通知等也可以進(jìn)行短信通知,讓監測站的工作更加快捷高效。
系統提供深層次數據挖掘功能,能夠根據監測數據,快速提供某監測點(diǎn)的多方位數據,比如歷年來(lái)某月COD 的監測數據變化,幾年來(lái)某項監測數據的月平均值變化等等,為監測站領(lǐng)導決策提供科學(xué)依據。 系統生成報表功能強大,除自身已包含眾多報表外,可迅速生成 WORD 下各種客戶(hù)要求的監測報表,并且查閱維護方便。
系統作為平臺拓展性強,可以融合其他系統與平臺上,并且后期功能升級方便不影響前期功能。 目前系統已經(jīng)在多個(gè)地 方監測站運行,從使用效果來(lái)看是比較實(shí)用的。
數據倉庫在中國人民財產(chǎn)保險公司的應用案例 事情要從一封信講起,去年年底,中國人民財產(chǎn)保險公司信息技術(shù)部總經(jīng)理趙軍接到了2003年國際計算機chp(computer-world honors program)大賽主席委員會(huì )執行董事daniel morrow先生的親筆信,告之“人保財險新一代綜合業(yè)務(wù)處理系統”從50多個(gè)國家和地區的500多家參賽企業(yè)中脫穎而出,榮獲美國“計算機世界榮譽(yù)獎”提名,順利進(jìn)入決賽。
不要小看了這個(gè)榮譽(yù),國內金融機構只有招商銀行曾經(jīng)入圍過(guò)。 “獲獎是對企業(yè)過(guò)去一年中信息化建設的肯定,但是按照慣例,獲獎企業(yè)都會(huì )接下來(lái)的一年忙得不亦樂(lè )乎”,daniel的信尾贈言又把趙軍從喜悅拉回了現實(shí)…… 令人緊張的預言 事實(shí)上,趙軍已經(jīng)忙的不亦樂(lè )乎了,做完核心系統之后,緊接著(zhù)新型數據倉庫構建就上馬了。
無(wú)獨有偶,招商銀行自從2002年獲chp大獎之后,也是馬不停蹄地投入了后臺數據庫的改造項目。 為什么把精力放到數據倉庫上呢?原因是業(yè)務(wù)系統的發(fā)展很大程度上受制于后臺數據結構,對金融機構來(lái)講,在加入wto之初就嚷嚷的很兇的“銀行客戶(hù)分級服務(wù)”、“保險費率細分”、“風(fēng)險定價(jià)”等一系列服務(wù)都受牽制。
比如在2003年初,保監會(huì )放開(kāi)了車(chē)險費率,一時(shí)間各家保險公司紛紛公布了自己的收費明細,可是細看下來(lái),大家的費率又幾乎趨同,比如在個(gè)性保費上,各家公司都有一條,就是女性駕駛 員比男性保費下浮20%,但據業(yè)內人士介紹,這僅僅是各家公司憑經(jīng)驗作出的判斷,對于女性的年齡、教育及家庭背景的差異并沒(méi)有區別對待。 而美國的保險公司則是,一位女性,30歲,大學(xué)文化,有一個(gè)小孩,沒(méi)有賠償記錄,可以享受最多50%的保費優(yōu)惠。
人家的邏輯就是,受過(guò)高等教育的客戶(hù)要比沒(méi)有受過(guò)高等教育的客戶(hù)風(fēng)險低,有孩子的女性責任心要比一般人高,歲數大的人開(kāi)快車(chē)的可能性要小,沒(méi)有賠償記錄說(shuō)明駕駛行為規范。 不要以為這只是簡(jiǎn)單推論,它可是基于成千上萬(wàn)件保單分析的結果。
目前國內各家保險公司顯然還不能提供如此精細的費率評估,因為他們現階段還不能對客戶(hù)的數據進(jìn)行有效的分析利用,換句話(huà)說(shuō)技術(shù)水平達不到。 “芭蕾”的領(lǐng)舞者 面對金融機構wto保護期即將過(guò)時(shí),各家公司都非常著(zhù)急,希望能夠在最短的時(shí)間內把數據倉庫項目做好。
在這方面,人保成了第一個(gè)吃螃蟹的公司。 趙軍形象地描繪到,要想讓公司能夠靈活地應對市場(chǎng)變化,方法只有一個(gè),就是對應用系統和后臺數據庫重新設計,反映到市場(chǎng)上來(lái),就是采取非常靈活的價(jià)格手段,讓人保這頭“大象”跳“芭蕾”。
當然,系統重做對于一家保險公司來(lái)說(shuō)無(wú)異于大換血,而且就人保現在的經(jīng)驗來(lái)看,單獨完成這項任務(wù)也是很困難的。 為此,人保選擇了與ibm公司開(kāi)展合作,希望借用ibm的經(jīng)驗來(lái)完成前后臺系統的改造。
指揮人保這個(gè)大公司跳芭蕾并不容易,除了機構、人員的因素外,信息系統本身也有很多限制。因為過(guò)去人保一直采用的是以保單為中心的業(yè)務(wù)系統和數據庫,這雖然在操作上占了一些便宜(主要是效率較高),但是在數據存儲上并不科學(xué)。
直接的反應就是,如果被保險人買(mǎi)了多張保單,那么在數據庫中這個(gè)人就會(huì )多次出現,在日后數據抽取分析的時(shí)候,就會(huì )遇到困難。另外,由于應用系統能夠收集的數據項目較少,因此開(kāi)展分析往往意義不大。
為此,ibm向人保推薦了iaa(保險應用架構,insurance application architecture)和iiw(保險信息倉庫,insurance information warehouse)兩個(gè)數據模型,前者是保險公司的核心業(yè)務(wù)系統架構,后者是數據庫架構。 iaa與iiw是ibm從90年開(kāi)始,和全球40多個(gè)發(fā)起公司合作開(kāi)發(fā)的,包括了財產(chǎn)險、壽險、再保險等保險應用模型,現今全球有近140個(gè)用戶(hù)在基于這個(gè)模型開(kāi)發(fā)產(chǎn)品。
當然,即便有ibm的幫助,要把整個(gè)企業(yè)數據庫和應用系統替換掉也是不可取的,系統遷移的風(fēng)險不談,僅僅是數據的導入也已經(jīng)十分復雜。 為此,人保決定,先對數據分析的關(guān)鍵——iiw進(jìn)行試點(diǎn)。
人保的想法是,選擇一個(gè)技術(shù)和條件比較好的省會(huì )城市做試點(diǎn),這個(gè)城市既要業(yè)務(wù)多樣,又要保單量中等,這樣對于試驗是比較客觀(guān)的。經(jīng)過(guò)一個(gè)月的仔細比較,最終這個(gè)艱巨的任務(wù)就落到了人間天堂——浙江杭州。
杭州城下游臨安 雷鋒塔中尋白娘 西湖水邊曉月照 梅家塢中龍井香 杭州確實(shí)是一個(gè)美不勝收的地方,但 是作為本次iiw項目的參與人,張平(化名)此刻并沒(méi)有心情游山玩水,因為在他面前,還有太多太多的挑戰要克服。 500萬(wàn)的壓力 張平來(lái)到中保浙江分公司后,主要的任務(wù)就是先協(xié)助員工把iiw建立起來(lái),此后再把中保浙江分公司的所有的數據取出來(lái),然后按照iiw的數據結構進(jìn)行轉換存儲,建立一個(gè)標準的信息倉庫,最后在此基礎上建立兩個(gè)小的數據集市,進(jìn)行數據分析試驗。
整個(gè)試點(diǎn)項目耗資500萬(wàn)元人民幣。 在此有必要給不熟悉的讀者對數據倉庫的概念作一個(gè)簡(jiǎn)要介紹。
顧名思義,數據倉庫(data warehouse)就是一個(gè)倉庫,里面分門(mén)別類(lèi)存放了一個(gè)公司所有的數據。光有倉庫是不能進(jìn)行數據分析的,因為倉庫中的數據是海量的,如果要對某種信息進(jìn)行分析,比如客戶(hù)信息,就要從倉庫中抽取所有與客戶(hù)有。
分層管理器 1、分層管理器架構 分層管理器是實(shí)現大范圍數據的快速瀏覽的關(guān)鍵部分,它控制了逐層細化表的結構和元數據的定義和賦值,定義了組件表中的關(guān)鍵信息,給出了空間數據的來(lái)源、數據挖掘規則、圖層加載范圍和圖形編輯、輸出和保存。
分層管理器有兩部分組成,分別為: a) 一組存儲于Oracle數據倉庫中的空間數據表,用于逐層細化圖層中的每個(gè)詳細信息層,這些表稱(chēng)為組件表; b) 一個(gè)空表,包含該表的結構定義和描述組件表的特殊元數據,該表稱(chēng)為逐層細化表。 任何逐層細化應用程序均需要逐層細化表,從中可以了解逐層細化圖層中各層的層次關(guān)鍵字描述,以及它們之間的層次關(guān)聯(lián)方式。
進(jìn)行分層時(shí),分層管理器作為程序的一部分,確定需要添加的子圖元所在的圖層及其關(guān)鍵字,以便確定在逐層細化圖層中需要添加和刪除的圖元信息。 逐層細化圖層是一種特殊的地圖圖層,它是有自己表結構的空白圖層,并用元數據規定了所有加載圖層的一些規則和限制,所顯示出來(lái)的地圖信息是按照元數據規定的規則從其它表或數據庫中提取出來(lái)的。
在地圖中顯示逐層細化圖層時(shí),分層管理器會(huì )創(chuàng )建一個(gè)臨時(shí)表,然后將組件表中的圖元復制到該臨時(shí)表中。 逐層細化圖層中顯示的圖元實(shí)際上是組件表中圖元的副本。
這樣就可以靈活的在圖層上面加載需要的信息。在應用程序終止時(shí),將丟棄該臨時(shí)表,為了保存有用的專(zhuān)題圖信息,可以對提取出來(lái)的圖層進(jìn)行保存。
此時(shí),如果用戶(hù)查看圖層信息時(shí),逐層細化圖層仍將是單個(gè)圖層。 逐層細化表的要求作為分層管理器的組織核心部分,它定義了元數據關(guān)鍵字和三個(gè)標準列:關(guān)鍵字、層和標簽。
并有著(zhù)自己的一套語(yǔ)法: (1) 關(guān)鍵字 begin_metadata 標記逐層細化表中元數據部分的開(kāi)頭。 (2) 每行元數據包含兩個(gè)元素:關(guān)鍵字和值。
所有關(guān)鍵字和值均使用雙引號引起來(lái)。 (3) 逐層細化表必須包含 \IsDrilldown 關(guān)鍵字,該關(guān)鍵字的值必須為 True。
(4) 每個(gè)關(guān)鍵字以“\”(反斜線(xiàn))開(kāi)頭。 (5) 元數據關(guān)鍵字可以在層次結構中嵌套。
層次結構中的每一層以反斜線(xiàn) (\) 標記。 (6) 元數據包括 \DDMap\ComponentMaps\ 關(guān)鍵字層次結構。
在該層次結構中為每個(gè)組件表指定四個(gè)元數據關(guān)鍵字。 分層管理器的分層原理圖如圖1所示,從圖中可以看出,分層管理器有兩部分組成:組件表和逐層細化表組成,分層管理器根據系統的要求以數據挖掘的方式從Oracle數據倉庫中提取數據,形成組件表中的某個(gè)圖層,然后確定需要加載圖層的名稱(chēng)和圖層中的部分,并加載到逐層細化表中。
如果是第一次加載,此時(shí)的逐層細化表是空白圖層,在加載過(guò)程中,逐層細化表不斷的進(jìn)行圖元信息的增加和刪除,這樣會(huì )出現每個(gè)組件表中的部分信息顯示在逐層細化表所示的圖層中。這樣輸出所需要的圖層,并對它進(jìn)行編輯,由于逐層細化表中數據是個(gè)組件表中的副本,需要對編輯后的圖層進(jìn)行另存,形成專(zhuān)題圖。
分層管理器首先形成空白圖層,通過(guò)分層管理器用數據挖掘工具從Oracle數據倉庫中提取數據,根據分層管理器的元數據規則形成一級的圖層,在該圖層中,通過(guò)響應事件,以確定加載二級圖層的圖層名稱(chēng)和該圖層中的加載部分,相應的加載三級、四級圖層數據,在加載的同時(shí),就形成了各種專(zhuān)題圖。 當然,分層管理器功能的實(shí)現是通過(guò)GIS組件(MapX、MO、AO等)和編程語(yǔ)言(VB、VC、Delphi等)來(lái)實(shí)現的。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:2.847秒