統計學(xué)作為一門(mén)方法論科學(xué),具有自己完善的方法體系。統計研究的具體方法有很多,這將在后續課程中學(xué)習,而從大的方面看,其基本研究方法有:
一、大量觀(guān)察法
這是統計活動(dòng)過(guò)程中搜集數據資料階段(即統計調查階段)的基本方法:即要對所研究現象總體中的足夠多數的個(gè)體進(jìn)行觀(guān)察和研究,以期認識具有規律性的總體數量特征。大量觀(guān)察法的數理依據是大數定律,大數定律是指雖然每個(gè)個(gè)體受偶然因素的影響作用不同而在數量上幾存有差異,但對總體而言可以相互抵消而呈現出穩定的規律性,因此只有對足夠多數的個(gè)體進(jìn)行觀(guān)察,觀(guān)察值的綜合結果才會(huì )趨向穩定,建立在大量觀(guān)察法基礎上的數據資料才會(huì )給出一般的結論。統計學(xué)的各種調查方法都屬于大量觀(guān)察法。
二、統計分組法
由于所研究現象本身的復雜性、差異性及多層次性,需要我們對所研究現象進(jìn)行分組或分類(lèi)研究,以期在同質(zhì)的基礎上探求不同組或類(lèi)之間的差異性。統計分組在整個(gè)統計活動(dòng)過(guò)程中都占有重要地位,在統計調查階段可通過(guò)統計分組法來(lái)搜集不同類(lèi)的資料,并可使抽樣調查的樣本代表性得以提高(即分層抽樣方式);在統計整理階段可以通過(guò)統計分組法使各種數據資料得到分門(mén)別類(lèi)的加工處理和儲存,并為編制分布數列提供基礎;在統計分析階段則可以通過(guò)統計分組法來(lái)劃分現象類(lèi)型、研究總體內在結構、比較不同類(lèi)或組之間的差異(顯著(zhù)性檢驗)和分析不同變量之間的相關(guān)關(guān)系。統計學(xué)中的統計分組法有傳統分組法、判別分析法和聚類(lèi)分析法等。
三、綜合指標法
統計研究現象的數量方面的特征是通過(guò)統計綜合指標來(lái)反映的。所謂綜合指標,是指用來(lái)從總體上反映所研究現象數量特征和數量關(guān)系的范疇及其數值,常見(jiàn)的有總量指標、相對指標,平均指標和標志變異指標等。綜合指標法在統計學(xué)、尤其是社會(huì )經(jīng)濟統計學(xué)中占有十分重要的地位,是描述統計學(xué)的核心內容。如何最真實(shí)客觀(guān)地記錄、描述和反映所研究現象的數量特征和數量關(guān)系,是統計指標理論研究的一大課題。
四、統計模型法
在以統計指標來(lái)反映所研究現象的數量特征的同時(shí),我們還經(jīng)常需要對相關(guān)現象之間的數量變動(dòng)關(guān)系進(jìn)行定量研究,以了解某一(些)現象數量變動(dòng)與另一(些)現象數量變動(dòng)之間的關(guān)系及變動(dòng)的影響程度。在研究這種數量變動(dòng)關(guān)系時(shí),需要根據具體的研究對象和一定的假定條件,用合適的數學(xué)方程來(lái)進(jìn)行模擬,這種方法就叫做統計模型法。
五、統計推斷法
在統計認識活動(dòng)中,我們所觀(guān)察的往往只是所研究現象總體中的一部分單位,掌握的只是具有隨機性的樣本觀(guān)察數據,而認識總體數量特征是統計研究的目的,這就需要我們根據概率論和樣本分布理論,運用參數估計或假設檢驗的方法,由樣本觀(guān)測數據來(lái)推斷總體數量特征。這種由樣本來(lái)推斷總體的方法就叫統計推斷法。統計推斷法已在統計研究的許多領(lǐng)域得到應用,除了最常見(jiàn)的總體指標推斷外,統計模型參數的估計和檢驗、統計預測中原時(shí)間序列的估計和檢驗等,也都屬于統計推斷的范疇,都存在著(zhù)誤差和置信度的問(wèn)題。在實(shí)踐中這是一種有效又經(jīng)濟的方法,其應用范圍很廣泛,發(fā)展很快,統計推斷法已成為現代統計學(xué)的基本方法。
1、聚類(lèi)分析(Cluster Analysis)
聚類(lèi)分析指將物理或抽象對象的集合分組成為由類(lèi)似的對象組成的多個(gè)類(lèi)的分析過(guò)程。聚類(lèi)是將數據分類(lèi)到不同的類(lèi)或者簇這樣的一個(gè)過(guò)程,所以同一個(gè)簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類(lèi)分析是一種探索性的分析,在分類(lèi)的過(guò)程中,人們不必事先給出一個(gè)分類(lèi)的標準,聚類(lèi)分析能夠從樣本數據出發(fā),自動(dòng)進(jìn)行分類(lèi)。聚類(lèi)分析所使用方法的不同,常常會(huì )得到不同的結論。不同研究者對于同一組數據進(jìn)行聚類(lèi)分析,所得到的聚類(lèi)數未必一致。
2、因子分析(Factor Analysis)
因子分析是指研究從變量群中提取共性因子的統計技術(shù)。因子分析就是從大量的數據中尋找內在的聯(lián)系,減少決策的困難。
因子分析的方法約有10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發(fā)抽因法、拉奧典型抽因法等等。這些方法本質(zhì)上大都屬近似方法,是以相關(guān)系數矩陣為基礎的,所不同的是相關(guān)系數矩陣對角線(xiàn)上的值,采用不同的共同性□2估值。在社會(huì )學(xué)研究中,因子分析常采用以主成分分析為基礎的反覆法。
3、相關(guān)分析(Correlation Analysis)
相關(guān)分析(correlation analysis),相關(guān)分析是研究現象之間是否存在某種依存關(guān)系,并對具體有依存關(guān)系的現象探討其相關(guān)方向以及相關(guān)程度。相關(guān)關(guān)系是一種非確定性的關(guān)系,例如,以X和Y分別記一個(gè)人的身高和體重,或分別記每公頃施肥量與每公頃小麥產(chǎn)量,則X與Y顯然有關(guān)系,而又沒(méi)有確切到可由其中的一個(gè)去精確地決定另一個(gè)的程度,這就是相關(guān)關(guān)系。
4、對應分析(Correspondence Analysis)
對應分析(Correspondence analysis)也稱(chēng)關(guān)聯(lián)分析、R-Q型因子分析,通過(guò)分析由定性變量構成的交互匯總表來(lái)揭示變量間的聯(lián)系。可以揭示同一變量的各個(gè)類(lèi)別之間的差異,以及不同變量各個(gè)類(lèi)別之間的對應關(guān)系。對應分析的基本思想是將一個(gè)聯(lián)列表的行和列中各元素的比例結構以點(diǎn)的形式在較低維的空間中表示出來(lái)。
5、回歸分析
研究一個(gè)隨機變量Y對另一個(gè)(X)或一組(X1,X2,…,Xk)變量的相依關(guān)系的統計分析方法。回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴(lài)的定量關(guān)系的一種統計分析方法。運用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關(guān)系類(lèi)型,可分為線(xiàn)性回歸分析和非線(xiàn)性回歸分析。
6、方差分析(ANOVA/Analysis of Variance)
又稱(chēng)“變異數分析”或“F檢驗”,是R.A.Fisher發(fā)明的,用于兩個(gè)及兩個(gè)以上樣本均數差別的顯著(zhù)性檢驗。由于各種因素的影響,研究所得的數據呈現波動(dòng)狀。造成波動(dòng)的原因可分成兩類(lèi),一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。方差分析是從觀(guān)測變量的方差入手,研究諸多控制變量中哪些變量是對觀(guān)測變量有顯著(zhù)影響的變量。這個(gè) 還需要具體問(wèn)題具體分析
統計方法有: 1、計量資料的統計方法 分析計量資料的統計分析方法可分為參數檢驗法和非參數檢驗法。
參數檢驗法主要為t檢驗和 方差分析(ANOVN,即F檢驗)等,兩組間均數比較時(shí)常用t檢驗和u檢驗,兩組以上均數比較時(shí)常用方差分析;非參數檢驗法主要包括秩和檢驗等。t檢驗可分為單組設計資料的t檢驗、配對設計資料的t檢驗和成組設計資料的t檢驗;當兩個(gè)小 樣本比較時(shí)要求兩 總體分布為 正態(tài)分布且方差齊性,若不能滿(mǎn)足以上要求,宜用t 檢驗或非參數方法( 秩和檢驗)。
方差分析可用于兩個(gè)以上 樣本均數的比較,應用該方法時(shí),要求各個(gè)樣本是相互獨立的隨機樣本,各樣本來(lái)自正態(tài)總體且各處理組總體方差齊性。根據設計類(lèi)型不同,方差分析中又包含了多種不同的方法。
對于 定量資料,應根據所采用的設計類(lèi)型、資料所具備的條件和分析目的,選用合適的統計分析方法,不應盲目套用t檢驗和 單因素方差分析。 2、計數資料的統計方法 計數資料的統計方法主要針對四格表和R*C表利用檢驗進(jìn)行分析。
檢驗或u檢驗,若不能滿(mǎn)足 檢驗:當計數資料呈配對設計時(shí),獲得的四格表為配對四格表,其用到的檢驗公式和校正公式可參考書(shū)籍。 R*C表可以分為雙向無(wú)序,單向有序、雙向有序屬性相同和雙向有序屬性不同四類(lèi),不同類(lèi)的行列表根據其研究目的,其選擇的方法也不一樣。
3、等級資料的統計方法 等級資料(有序變量)是對性質(zhì)和類(lèi)別的等級進(jìn)行分組,再清點(diǎn)每組觀(guān)察單位個(gè)數所得到的資料。在臨床醫學(xué)資料中,常遇到一些定性指標,如臨床療效的評價(jià)、疾病的臨床分期、病癥嚴重程度的臨床分級等,對這些指標常采用分成若干個(gè)等級然后分類(lèi)計數的辦法來(lái)解決它的量化問(wèn)題,這樣的資料統計上稱(chēng)為等級資料。
統計方法的選擇: 統計資料豐富且錯綜復雜,要想做到合理選用統計分析方法并非易事。對于同一 個(gè)資料,若選擇不同的統計分析方法處理,有時(shí)其結論是截然不同的。
正確選擇統計方法的依據是: ①根據研究的目的,明確研究試驗設計類(lèi)型、研究因素與水平數; ②確定數據特征(是否正態(tài)分布等)和樣本量大小; ③ 正確判斷統計資料所對應的類(lèi)型(計量、計數和等級資料),同時(shí)應根據統計方法的適宜條件進(jìn)行正確的統計量值計算; 最后,還要根據專(zhuān)業(yè)知識與資料的實(shí)際情況,結合統計學(xué)原則,靈活地選擇統計分析方法。
數據分析落實(shí)到實(shí)處,一般就是圍繞用戶(hù)漏斗展開(kāi)的。也就是人們常說(shuō)的訪(fǎng)問(wèn)-激活-留存-交易-推薦。
這核心的5步會(huì )有不同維度的細分。
獲客:來(lái)源、渠道、關(guān)鍵字、著(zhù)陸頁(yè)、地域、設備、訪(fǎng)問(wèn)時(shí)間、跳出率、訪(fǎng)問(wèn)深度、停留時(shí)間、新客量等等;
激活:DAU(日活躍用戶(hù))、MAU(月活躍用戶(hù))
留存:日留存率、周留存率、月留存率
交易:訂單量、訂單金額、LTV
推薦:是否傳播(k>1)
需要獲取以上數據,可以通過(guò)ptengine通過(guò)漏斗細分得到可視化圖表。一般來(lái)講,同比(本周和上周)、環(huán)比(本月第一周和上月第一周)、定基比(所有數據和當年第一周)即可獲得數據的變化情況。
以上,其實(shí)不用很專(zhuān)業(yè)也能做好數據分析,獲取數據并不難,難的是你能洞察數據背后的意義。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:3.375秒