數據分析落實(shí)到實(shí)處,一般就是圍繞用戶(hù)漏斗展開(kāi)的。也就是人們常說(shuō)的訪(fǎng)問(wèn)-激活-留存-交易-推薦。
這核心的5步會(huì )有不同維度的細分。
獲客:來(lái)源、渠道、關(guān)鍵字、著(zhù)陸頁(yè)、地域、設備、訪(fǎng)問(wèn)時(shí)間、跳出率、訪(fǎng)問(wèn)深度、停留時(shí)間、新客量等等;
激活:DAU(日活躍用戶(hù))、MAU(月活躍用戶(hù))
留存:日留存率、周留存率、月留存率
交易:訂單量、訂單金額、LTV
推薦:是否傳播(k>1)
需要獲取以上數據,可以通過(guò)ptengine通過(guò)漏斗細分得到可視化圖表。一般來(lái)講,同比(本周和上周)、環(huán)比(本月第一周和上月第一周)、定基比(所有數據和當年第一周)即可獲得數據的變化情況。
以上,其實(shí)不用很專(zhuān)業(yè)也能做好數據分析,獲取數據并不難,難的是你能洞察數據背后的意義。
因子分析的核心問(wèn)題有兩個(gè):一是如何構造因子變量;二是如何對因子變量進(jìn)行命名解釋。因此,因子分析的基本步驟和解決思路就是圍繞這兩個(gè)核心問(wèn)題展開(kāi)的。
(i)因子分析常常有以下四個(gè)基本步驟:
⑴確認待分析的原變量是否適合作因子分析。
⑵構造因子變量。
⑶利用旋轉方法使因子變量更具有可解釋性。
⑷計算因子變量得分。
(ii)因子分析的計算過(guò)程:
⑴將原始數據標準化,以消除變量間在數量級和量綱上的不同。
⑵求標準化數據的相關(guān)矩陣;
⑶求相關(guān)矩陣的特征值和特征向量;
⑷計算方差貢獻率與累積方差貢獻率;
⑸確定因子:
設F1,F2,…, Fp為p個(gè)因子,其中前m個(gè)因子包含的數據信息總量(即其累積貢獻率)不低于80%時(shí),可取前m個(gè)因子來(lái)反映原評價(jià)指標;
⑹因子旋轉:
若所得的m個(gè)因子無(wú)法確定或其實(shí)際意義不是很明顯,這時(shí)需將因子進(jìn)行旋轉以獲得較為明顯的實(shí)際含義。
⑺用原指標的線(xiàn)性組合來(lái)求各因子得分:
采用回歸估計法,Bartlett估計法或Thomson估計法計算因子得分。
⑻綜合得分
以各因子的方差貢獻率為權,由各因子的線(xiàn)性組合得到綜合評價(jià)指標函數。
F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )
此處wi為旋轉前或旋轉后因子的方差貢獻率。
⑼得分排序:利用綜合得分可以得到得分名次。
在采用多元統計分析技術(shù)進(jìn)行數據處理、建立宏觀(guān)或微觀(guān)系統模型時(shí),需要研究以下幾個(gè)方面的問(wèn)題:
· 簡(jiǎn)化系統結構,探討系統內核。可采用主成分分析、因子分析、對應分析等方法,在眾多因素中找出各個(gè)變量最佳的子集合,從子集合所包含的信息描述多變量的系統結果及各個(gè)因子對系統的影響。“從樹(shù)木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍棄次要因素,以簡(jiǎn)化系統的結構,認識系統的內核。
· 構造預測模型,進(jìn)行預報控制。在自然和社會(huì )科學(xué)領(lǐng)域的科研與生產(chǎn)中,探索多變量系統運動(dòng)的客觀(guān)規律及其與外部環(huán)境的關(guān)系,進(jìn)行預測預報,以實(shí)現對系統的最優(yōu)控制,是應用多元統計分析技術(shù)的主要目的。在多元分析中,用于預報控制的模型有兩大類(lèi)。一類(lèi)是預測預報模型,通常采用多元線(xiàn)性回歸或逐步回歸分析、判別分析、雙重篩選逐步回歸分析等建模技術(shù)。另一類(lèi)是描述性模型,通常采用聚類(lèi)分析的建模技術(shù)。
· 進(jìn)行數值分類(lèi),構造分類(lèi)模式。在多變量系統的分析中,往往需要將系統性質(zhì)相似的事物或現象歸為一類(lèi)。以便找出它們之間的聯(lián)系和內在規律性。過(guò)去許多研究多是按單因素進(jìn)行定性處理,以致處理結果反映不出系統的總的特征。進(jìn)行數值分類(lèi),構造分類(lèi)模式一般采用聚類(lèi)分析和判別分析技術(shù)。
如何選擇適當的方法來(lái)解決實(shí)際問(wèn)題,需要對問(wèn)題進(jìn)行綜合考慮。對一個(gè)問(wèn)題可以綜合運用多種統計方法進(jìn)行分析。例如一個(gè)預報模型的建立,可先根據有關(guān)生物學(xué)、生態(tài)學(xué)原理,確定理論模型和試驗設計;根據試驗結果,收集試驗資料;對資料進(jìn)行初步提煉;然后應用統計分析方法(如相關(guān)分析、逐步回歸分析、主成分分析等)研究各個(gè)變量之間的相關(guān)性,選擇最佳的變量子集合;在此基礎上構造預報模型,最后對模型進(jìn)行診斷和優(yōu)化處理,并應用于生產(chǎn)實(shí)際。
一、描述性統計
描述性統計是一類(lèi)統計方法的匯總,揭示了數據分布特性。它主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分布以及一些基本的統計圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹(shù)法。
2、正態(tài)性檢驗:很多統計方法都要求數值服從或近似服從正態(tài)分布,所以在做數據分析之前需要進(jìn)行正態(tài)性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動(dòng)差法。
二、回歸分析
回歸分析是應用極其廣泛的數據分析方法之一。它基于觀(guān)測數據建立變量間適當的依賴(lài)關(guān)系,以分析數據內在規律。
1. 一元線(xiàn)性分析
只有一個(gè)自變量X與因變量Y有關(guān),X與Y都必須是連續型變量,因變量Y或其殘差必須服從正態(tài)分布。
2. 多元線(xiàn)性回歸分析
使用條件:分析多個(gè)自變量X與因變量Y的關(guān)系,X與Y都必須是連續型變量,因變量Y或其殘差必須服從正態(tài)分布。
3.Logistic回歸分析
線(xiàn)性回歸模型要求因變量是連續的正態(tài)分布變量,且自變量和因變量呈線(xiàn)性關(guān)系,而Logistic回歸模型對因變量的分布沒(méi)有要求,一般用于因變量是離散時(shí)的情況。
4. 其他回歸方法:非線(xiàn)性回歸、有序回歸、Probit回歸、加權回歸等。
三、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來(lái)自正態(tài)分布總體;各總體方差相等。
1. 單因素方差分析:一項試驗只有一個(gè)影響因素,或者存在多個(gè)影響因素時(shí),只分析一個(gè)因素與響應變量的關(guān)系。
2. 多因素有交互方差分析:一頊實(shí)驗有多個(gè)影響因素,分析多個(gè)影響因素與響應變量的關(guān)系,同時(shí)考慮多個(gè)影響因素之間的關(guān)系
3. 多因素無(wú)交互方差分析:分析多個(gè)影響因素與響應變量的關(guān)系,但是影響因素之間沒(méi)有影響關(guān)系或忽略影響關(guān)系
4. 協(xié)方差分祈:傳統的方差分析存在明顯的弊端,無(wú)法控制分析中存在的某些隨機因素,降低了分析結果的準確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對修正后的主效應進(jìn)行方差分析,是將線(xiàn)性回歸與方差分析結合起來(lái)的一種分析方法。
四、假設檢驗
1. 參數檢驗
參數檢驗是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對一些主要的參數(如均值、百分數、方差、相關(guān)系數等)進(jìn)行的檢驗 。
2. 非參數檢驗
非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一般性假設(如總體分布的位罝是否相同,總體分布是否正態(tài))進(jìn)行檢驗。
適用情況:順序類(lèi)型的數據資料,這類(lèi)數據的分布形態(tài)一般是未知的。
1)雖然是連續數據,但總體分布形態(tài)未知或者非正態(tài);
2)總體分布雖然正態(tài),數據也是連續類(lèi)型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗等。
去百度文庫,查看完整內容>
內容來(lái)自用戶(hù):蔣上樹(shù)
常用數據分析方法有那些
文章來(lái)源:ECP數據分析時(shí)間:2013/6/28 13:35:06發(fā)布者:常用數據分析(關(guān)注:554)
標簽:本文包括:
常用數據分析方法:聚類(lèi)分析、因子分析、相關(guān)分析、對應分析、回歸分析、方差分析;
問(wèn)卷調查常用數據分析方法:描述性統計分析、探索性因素分析、Cronbach'a信度系數分析、結構方程模型分析(structural equations modeling)。
數據分析常用的圖表方法:柏拉圖(排列圖)、直方圖(Histogram)、散點(diǎn)圖(scatter diagram)、魚(yú)骨圖(Ishikawa)、FMEA、點(diǎn)圖、柱狀圖、雷達圖、趨勢圖。
數據分析統計工具:SPSS、minitab、JMP。
常用數據分析方法:
1、聚類(lèi)分析(Cluster Analysis)
聚類(lèi)分析指將物理或抽象對象的集合分組成為由類(lèi)似的對象組成的多個(gè)類(lèi)的分析過(guò)程。聚類(lèi)是將數據分類(lèi)到不同的類(lèi)或者簇這樣的一個(gè)過(guò)程,所以同一個(gè)簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類(lèi)分析是一種探索性的分析,在分類(lèi)的過(guò)程中,人們不必事先給出一個(gè)分類(lèi)的標準,聚類(lèi)分析能夠從樣本數據出發(fā),自動(dòng)進(jìn)行分類(lèi)。聚類(lèi)分析所使用方法的不同,常常會(huì )得到不同的結論。不同研究者對于同一組數據進(jìn)行聚類(lèi)分析,所得到的聚類(lèi)數未必一致。
2、因子分析(Factor Analysis)
因子分析是指研究從變量群中提取共性因子的統計技術(shù)。因子分析就是從大量的數據中尋找內在的聯(lián)系,減少決策的困難。相關(guān)分析(直方圖JMP
本來(lái)想給你截圖的,可是傳不上來(lái),我就簡(jiǎn)單說(shuō)一下哈。
首先你得進(jìn)行一次預計算,選擇菜單里分析——降維——因子分析,跳出主面板,把想分析的變量選到變量框里,然后點(diǎn)確定。這時(shí)候輸出窗口里會(huì )只有一個(gè)或兩個(gè)圖表。其中有一個(gè)圖表是主成分的方差貢獻。這個(gè)圖表里你要找到兩個(gè)相鄰的列(應該是第三列和第四列),其中前一個(gè)列指的是單個(gè)因子對方差的貢獻率,后一個(gè)是因子累計貢獻率。也就是說(shuō)前一個(gè)列里邊數值相加等于100,后一個(gè)列里邊數值遞增,最后一個(gè)等于100。假如前一個(gè)列里是60,30,10,那么后一列里就是60,90,100.兩個(gè)列之間有一個(gè)和的關(guān)系。找到這兩個(gè)列以后,你要找使得累計貢獻率達到百分之八十的那個(gè)數。這個(gè)表的第一列是1,2,3,等等,它代表第幾個(gè)因子,比如3指的那行就包括第三個(gè)因子的方差貢獻率,累積到第三個(gè)因子的方差貢獻率這兩個(gè)數據。你要找到累計到達百分之八十的那個(gè)因子是第幾個(gè)因子,然后就按提取幾個(gè)因子進(jìn)行計算。
通過(guò)預計算知道了提取幾個(gè)因子之后,就開(kāi)始正式計算。再次打開(kāi)因子分析的主面板,在最右邊一共有五個(gè)選項,分別是描述,抽取,旋轉,得分,選項。這五個(gè)在預計算里邊沒(méi)有用,但是現在要用了。點(diǎn)繼續。
點(diǎn)擊描述,在對話(huà)框里選上初始變量分析,kmo統計量及bartlett球形檢驗這兩個(gè)選項,(注意,kmo和bartlett是一個(gè)選項,選項名就是很長(cháng))這一步是用來(lái)判斷變量是否適于進(jìn)行因子分析的。
點(diǎn)擊抽取,對話(huà)框里最上邊的方法就選主成分,分析里選上相關(guān)性矩陣,輸出選上未旋轉的因子解和碎石圖兩個(gè)選項,抽取里選擇因子的固定數目,在要提取的因子后邊填上你預計算里算出的因子數目。點(diǎn)繼續。
旋轉里邊選最大方差法,輸出旋轉解。繼續。
得分里邊選保存為變量,方法為回歸,顯示因子得分系數矩陣也要打上勾。繼續。
確定。
然后就可以分析結果了。
先看kmo和bartlett的結果,kmo統計量越接近1,變量相關(guān)性越強,因子分析效果越好。通常0.7以上為一般,0.5以下不能接受,就是不適合做因子分析。bartlett檢驗從檢驗相關(guān)矩陣出發(fā),如果p值,就是sig,比較小的話(huà),一般認為小于0.05,當然越小越好,就適于因子分析。
如果這兩個(gè)檢驗都合格的話(huà),才可以去寫(xiě)因子模型。
為了便于描述,假設我們有兩個(gè)因子f1,f2,
旋轉變換后的因子載荷矩陣會(huì )告訴你每個(gè)變量用因子表示的系數。比如變量x1=系數1*f1+系數2*f2,變量2以此類(lèi)推。
因子得分系數矩陣會(huì )告訴你每個(gè)因子里各變量占得權重,比如f1=系數1*x1+系數2*x2+。
根據這個(gè)我們就能算出因子得分了。
因為之前選擇了將因子保存為新變量,所以spss會(huì )直接保存兩個(gè)因子得分為兩個(gè)新變量,
然后我們不是有一個(gè)公式嗎
總得分=因子1的方差貢獻率*因子1的得分+因子2的方差貢獻率*因子2的得分+。
根據這個(gè)公式計算一下就可以了。
用spss或者excel都可以。
希望能對你有幫助哦。
ppv課,大數據培訓專(zhuān)家,最專(zhuān)業(yè)的大數據培訓平臺。為你提供最好的spss學(xué)習教程哦。
常用數據分析方法:聚類(lèi)分析、因子分析、相關(guān)分析、對應分析、回歸分析、方差分析; 問(wèn)卷調查常用數據分析方法:描述性統計分析、探索性因素分析、Cronbach'a信度系數分析、結構方程模型分析(structural equations modeling) 。
數據分析常用的圖表方法:柏拉圖(排列圖)、直方圖(Histogram)、散點(diǎn)圖(scatter diagram)、魚(yú)骨圖(Ishikawa)、FMEA、點(diǎn)圖、柱狀圖、雷達圖、趨勢圖。 數據分析統計工具:SPSS、minitab、JMP。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:3.406秒