1/6分步閱讀
1.線性回歸方法:通常因變量和一個(gè)(或者多個(gè))自變量之間擬合出來是一條直線(回歸線),通常可以用一個(gè)普遍的公式來表示:Y(因變量)=a*X(自變量)+b+c,其中b表示截距,a表示直線的斜率,c是誤差項(xiàng)。如下圖所示。
?
2/6
2.邏輯回歸方法:通常是用來計(jì)算“一個(gè)事件成功或者失敗”的概率,此時(shí)的因變量一般是屬于二元型的(1 或0,真或假,有或無等)變量。以樣本極大似然估計(jì)值來選取參數(shù),而不采用最小化平方和誤差來選擇參數(shù),所以通常要用log等對數(shù)函數(shù)去擬合。如下圖。
?
3/6
3.多項(xiàng)式回歸方法:通常指自變量的指數(shù)存在超過1的項(xiàng),這時(shí)候最佳擬合的結(jié)果不再是一條直線而是一條曲線。比如:拋物線擬合函數(shù)Y=a+b*X^2,如下圖所示。
?
4/6
4.嶺回歸方法:通常用于自變量數(shù)據(jù)具有高度相關(guān)性的擬合中,這種回歸方法可以在原來的偏差基礎(chǔ)上再增加一個(gè)偏差度來減小總體的標(biāo)準(zhǔn)偏差。如下圖是其收縮參數(shù)的最小誤差公式。
?
5/6
5.套索回歸方法:通常也是用來二次修正回歸系數(shù)的大小,能夠減小參量變化程度以提高線性回歸模型的精度。如下圖是其懲罰函數(shù),注意這里的懲罰函數(shù)用的是絕對值,而不是絕對值的平方。
?
6/6
6.ElasticNet回歸方法:是Lasso和Ridge回歸方法的融合體,使用L1來訓(xùn)練,使用L2優(yōu)先作為正則化矩陣。當(dāng)相關(guān)的特征有很多個(gè)時(shí),ElasticNet不同于Lasso,會(huì)選擇兩個(gè)。如下圖是其常用的理論公式。
?
多元分析方法包括3類:
多元方差分析、多元回歸分析和協(xié)方差分析,稱為線性模型方法,用以研究確定的自變量與因變量之間的2113關(guān)系;判別函數(shù)分析和聚類分析,用以研究對事物的分類;主成分分析、典型相關(guān)和因素分析,研究如何用較少的5261綜合因素代替為數(shù)較多的原始變量。
多元方差是把總變異按照其來源分為多個(gè)部分,從而檢驗(yàn)各個(gè)因素對因變量的影響以及各因素間交互作用的統(tǒng)計(jì)方法。
判別函數(shù)是判定個(gè)體所屬類別的統(tǒng)計(jì)方法。其基本原理是:根據(jù)兩個(gè)或多個(gè)已知類別的樣本觀測資料確4102定一個(gè)或幾個(gè)線性判別函數(shù)和判別指標(biāo),然后用該判別函數(shù)依據(jù)判別指標(biāo)來判定另一個(gè)個(gè)體屬于哪一類。
擴(kuò)展資料
多元分析方1653法的歷史:
首先涉足多元分析方法是F.高爾頓,他于1889年把雙變量的正態(tài)分布方法運(yùn)用于傳統(tǒng)的統(tǒng)計(jì)學(xué),創(chuàng)立了相關(guān)系數(shù)和線性回歸。
其后的幾十年中,斯皮爾曼提出因素分析法,費(fèi)內(nèi)希爾提出方差分析和判別分析,威爾克斯發(fā)展了多元方差分析,霍特林確定了主成分分析和典型相關(guān)。到20世紀(jì)前半葉,多元分析理論大多已經(jīng)確立。
60年代以后,隨著計(jì)算機(jī)科學(xué)的發(fā)展,多元分析方法在心理學(xué)以及其他許多學(xué)科的研究中得到了越來越廣泛的應(yīng)用。容
參考資料來源:百度百科——多元分析
回歸分析中,當(dāng)研究的因果關(guān)系只涉及因變量和一個(gè)自變量時(shí),叫做一元回歸分析;當(dāng)研究的因果關(guān)系涉及因變量和兩個(gè)或兩個(gè)以上自變量時(shí),叫做多元回歸分析。此外,回歸分析中,又依據(jù)描述自變量與因變量之間因果關(guān)系的函數(shù)表達(dá)式是線性的還是非線性的,分為線性回歸分析和非線性回歸分析。回歸分析法預(yù)測是利用回歸分析方法,根據(jù)一個(gè)或一組自變量的變動(dòng)情況預(yù)測與其有相關(guān)關(guān)系的某隨機(jī)變量的未來值。進(jìn)行回歸分析需要建立描述變量間相關(guān)關(guān)系的回歸方程。根據(jù)自變量的個(gè)數(shù),可以是一元回歸,也可以是多元回歸。根據(jù)所研究問題的性質(zhì),可以是線性回歸,也可以是非線性回歸。非線性回歸方程一般可以通過數(shù)學(xué)方法為線性回歸方程進(jìn)行處理。
篩選變量法, 嶺回歸分析法, 主成分回歸法和偏最小二乘回歸法。
關(guān)鍵詞: 回歸、SASSTAT、共線性、篩選變量、嶺回歸、主成分回歸、偏最小二乘回歸。中圖分類號: 0212; C8 文獻(xiàn)標(biāo)識碼: A 回歸分析方法是處理多變量間相依關(guān)系的統(tǒng)計(jì)方法。
它是數(shù)理統(tǒng)計(jì)中應(yīng)用最為廣泛的方法之一。在長期的大量的實(shí)際應(yīng)用中人們也發(fā)現(xiàn): 建立回歸方程后, 因?yàn)樽宰兞看嬖谙嚓P(guān)性, 將會(huì)增加參數(shù)估計(jì)的方差, 使得回歸方程變得不穩(wěn)定; 有些自變量對因變量(指標(biāo)) 影響的顯著性被隱蔽起來; 某些回歸系數(shù)的符號與實(shí)際意義不符合等等不正常的現(xiàn)象。
這些問題的出現(xiàn)原因就在于自變量的共線性。本文通過例子來介紹自變量共線性的診斷方法以及使用SA SSTA T 軟件6. 12 版本中REG 等過程的增強(qiáng)功能處理回歸變量共線性的一些方法。
一、共線性診斷共線性問題是指擬合多元線性回歸時(shí), 自變量之間存在線性關(guān)系或近似線性關(guān)系。共線性診斷的方法是基于對自變量的觀測數(shù)據(jù)構(gòu)成的矩陣X′X 進(jìn)行分析, 使用各種反映自變量間相關(guān)性的指標(biāo)。
共線性診斷常用統(tǒng)計(jì)量有方差膨脹因子V IF (或容限TOL )、條件指數(shù)和方差比例等。方差膨脹因子V IF 是指回歸系數(shù)的估計(jì)量由于自變量共線性使得其方差增加的一個(gè)相對度量。
對第i 個(gè)回歸系數(shù), 它的方差膨脹因子定義為 V I F i = 第i 個(gè)回歸系數(shù)的方差自變量不相關(guān)時(shí)第i 個(gè)回歸系數(shù)的方差 = 1 1 - R 2 i = 1 TOL i 其中R 2 i 是自變量xi 對模型中其余自變量線性回歸模型的R 平方。V IFi 的倒數(shù)TOL i 也稱為容限( To lerance )。
一般建議, 若V IF> 10, 表明模型中有很強(qiáng)的共線性問題。若矩陣X′X 的特征值為d 2 1 ≥d 2 2 ≥…≥d 2 k, 則X 的條件數(shù) d1 dk 就是刻劃它的奇性的一個(gè)指標(biāo)。
故稱 d1 dj (j= 1, …, k) 為條件指數(shù)。一般認(rèn)為, 若條件指數(shù)值在10 與30 間為弱相關(guān); 在30 與100 間為中等相關(guān); 大于100 表明有強(qiáng)相關(guān)。
對于大的條件指數(shù), 還需要找出哪些變量間存在強(qiáng)的線性關(guān)系。因?yàn)槊總€(gè)條件指數(shù)對應(yīng)一 9 4 處理多元線性回歸中自變量共線- 性的幾種方法個(gè)特征向量, 而大的條件指數(shù)相應(yīng)的特征值較小, 故構(gòu)成這一特征向量的變量間有近似的線性關(guān)系。
在統(tǒng)計(jì)中用方差比例來說明各個(gè)自變量在構(gòu)成這個(gè)特征向量中的貢獻(xiàn)。一般建議, 在大的條件指數(shù)中由方差比例超過0. 5 的自變量構(gòu)成的變量子集就認(rèn)為是相關(guān)變量集。
§3.2 回歸分析方法 回歸分析方法,是研究要素之間具體的數(shù)量關(guān)系的一種強(qiáng)有力的工具,能夠建立反映地理要素之間具體的數(shù)量關(guān)系的數(shù)學(xué)模型,即回歸模型。
1. 一元線性回歸模型 1) 一元線性回歸模型的基本結(jié)構(gòu)形式 假設(shè)有兩個(gè)地理要素(變量)x和y,x為自變量,y為因變量。則一元線性回歸模型的基本結(jié)構(gòu)形式:a和b為待定參數(shù);α=1,2,…,n為各組觀測數(shù)據(jù)的下標(biāo); εa為隨機(jī)變量。
如果記a^和b^ 分別為參數(shù)a與b的擬合值,則得到一元線性回歸模型 ? 是y 的估計(jì)值,亦稱回歸值。回歸直線——代表x與y之間相關(guān)關(guān)系的擬合直線 2) 參數(shù)a、b的最小二?乘估計(jì) 參數(shù)a與b的擬合值:, 建立一元線性回歸模型的過程,就是用變量 和 的實(shí)際觀測數(shù)據(jù)確定參數(shù)a和b的最小二乘估計(jì)值α^和β^ 的過程。
3) 一元線性回歸模型的顯著性檢驗(yàn) 線性回歸方程的顯著性檢驗(yàn)是借助于F檢驗(yàn)來完成的。 檢驗(yàn)統(tǒng)計(jì)量F: 誤差平方和: 回歸平方和: F≈F(1,n-2)。
在顯著水平a下,若 ,則認(rèn)為回歸方程效果在此水平下顯著;當(dāng) 時(shí),則認(rèn)為方程效果不明顯。[舉例說明] 例1:在表3.1.1中,將國內(nèi)生產(chǎn)總值(x1)看作因變量y,將農(nóng)業(yè)總產(chǎn)值(x2)看作自變量x,試建立它們之間的一元線性回歸模型并對其進(jìn)行顯著性檢驗(yàn)。
解: (1) 回歸模型 將y和x的樣本數(shù)據(jù)代入?yún)?shù)a與b的擬合公式,計(jì)算得:故,國內(nèi)生產(chǎn)總值與農(nóng)業(yè)總產(chǎn)值之間的回歸方程為(2) 顯著性檢驗(yàn) 在置信水平α=0.01下查F分布表得:F0.01(1,46)=7.22。由于F=4951.098 >> F0.01(1,46)=7.22,所以回歸方程(3.2.7)式在置信水平a=0.01下是顯著的。
2. 多元線性回歸模型 在多要素的地理系統(tǒng)中,多個(gè)(多于兩個(gè))要素之間也存在著相關(guān)影響、相互關(guān)聯(lián)的情況。因此,多元地理回歸模型更帶有普遍性的意義。
1) 多元線性回歸模型的建立 (1) 多元線性回歸模型的結(jié)構(gòu)形式 假設(shè)某一因變量y受k 個(gè)自變量 的影響,其n組觀測值為 。則多元線性回歸模型的結(jié)構(gòu)形式:為待定參數(shù), 為隨機(jī)變量。
如果 分別為 的擬合值,則回歸方程為 b0為常數(shù), 稱為偏回歸系數(shù)。 偏回歸系數(shù) ——當(dāng)其它自變量都固定時(shí),自變量 每變化一個(gè)單位而使因變量xi平均改變的數(shù)值。
(2) 求解偏回歸系數(shù), 2) 多元線性回歸模型的顯著性檢驗(yàn) 用F檢驗(yàn)法。 F統(tǒng)計(jì)量:當(dāng)統(tǒng)計(jì)量F計(jì)算出來之后,就可以查F分布表對模型進(jìn)行顯著性檢驗(yàn)。
[舉例說明] 例2:某地區(qū)各城市的公共交通營運(yùn)總額(y)與城市人口總數(shù)(x1 )以及工農(nóng)業(yè)總產(chǎn)值(x2)的年平均統(tǒng)計(jì)數(shù)據(jù)如表3.2.1(點(diǎn)擊展開顯示該表)所示。試建立y與x1及x2之間的線性回歸模型并對其進(jìn)行顯著性檢驗(yàn)。
表3.2.1 某地區(qū)城市公共交通營運(yùn)額、人口數(shù)及工農(nóng)業(yè)總產(chǎn)值的年平均數(shù)據(jù) 城市序號 公共交通營運(yùn)額y/103人公里 人口數(shù)x1/103人 工農(nóng)業(yè)總產(chǎn)值x2/107元 1 6825.99 1298.00 437.26 2 512.00 119.80 1286.48 。 。
。 。
14 192.00 12.47 1072.27 注:本表數(shù)據(jù)詳見書本P54。 解: (1) 計(jì)算線性回歸模型 由表3.2.1中的數(shù)據(jù),有 計(jì)算可得:故y與x1 及y2之間的線性回歸方程(2) 顯著性檢驗(yàn) 故:在置信水平a=0.01下查F分布表知:F0.01(2,11)=7.21。
由于F=38.722> F0.01(2,11)=7.21,所以在置信水平a=0.01下,回歸方程式是顯著的。3. 非線性回歸模型的建立方法 1) 非線性關(guān)系的線性化 (1) 非線性關(guān)系模型的線性化 對于要素之間的非線性關(guān)系通過變量替換就可以將原來的非線性關(guān)系轉(zhuǎn)化為新變量下的線性關(guān)系。
[幾種非線性關(guān)系模型的線性化] ① 于指數(shù)曲線 ,令 , ,將其轉(zhuǎn)化為直線形式: ,其中, ; ② 對于對數(shù)曲線 ,令 , ,將其轉(zhuǎn)化為直線形式: ; ③ 對于冪函數(shù)曲線 ,令 , ,將其轉(zhuǎn)化為直線形式: ,其中, ④ 對于雙曲線 ,令 ,將其轉(zhuǎn)化為直線形式:; ⑤ 對于S型曲線 ,將其轉(zhuǎn)化為直線形式:; ⑥ 對于冪函數(shù)乘積:令 將其轉(zhuǎn)化為直線形式:其中, ; ⑦ 對于對數(shù)函數(shù)和:令 ,將其化為線性形式:(2) 建立非線性回歸模型的一般方法 ① 通過適當(dāng)?shù)淖兞刻鎿Q將非線性關(guān)系線性化; ② 用線性回歸分析方法建立新變量下的線性回歸模型: ③ 通過新變量之間的線性相關(guān)關(guān)系反映原來變量之間的非線性相關(guān)關(guān)系。 3) 非線性回歸模型建立的實(shí)例 非線性回歸模型建立的實(shí)例 景觀是地理學(xué)的重要研究內(nèi)容之一。
有關(guān)研究表明(Li,2000;徐建華等,2001),任何一種景觀類型的斑塊,其面積(Area)與周長(Perimeter)之間的數(shù)量關(guān)系可以用雙對數(shù)曲線來描述,即 例3:表3.2.2給出了某地區(qū)林地景觀斑塊面積(Area)與周長(Perimeter)的數(shù)據(jù)。試建立林地景觀斑塊面積A與周長P之間的雙對數(shù)相關(guān)關(guān)系模型。
表3.2.2某地區(qū)各個(gè)林地景觀斑塊面積(m2)與周長(m) 序號 面積A 周長P 序號 面積A 周長P 1 10447.370 625.392 42 232844.300 4282.043 2 15974.730 612.286 43 4054.660 289.307 。 。
。 。
。 。
41 1608.625 225.842 82 564370.800 12212.410 注:本表數(shù)據(jù)詳見書本57和58頁。 解:因?yàn)榱值鼐坝^斑塊面積(A)與周長(P)之間的數(shù)量關(guān)系是雙對數(shù)曲線形式,即 所以對表3.2.2中的原始數(shù)據(jù)進(jìn)行對數(shù)變換,變換后得到的各新變量對應(yīng)的觀測數(shù)據(jù)如表3.2.3所示。
1、穩(wěn)健回歸其主要思路是將對異常值十分敏感的經(jīng)典最小二乘回歸中的目標(biāo)函數(shù)進(jìn)行修改。
經(jīng)典最小二乘回歸以使誤差平方和達(dá)到最小為其目標(biāo)函數(shù)。因?yàn)榉讲顬橐徊环€(wěn)健統(tǒng)計(jì)量,故最小二乘回歸是一種不穩(wěn)健的方法。
為減少異常點(diǎn)的作用,對不同的點(diǎn)施加不同的權(quán)重,殘差小的點(diǎn)權(quán)重大,殘差大的店權(quán)重小。2、變系數(shù)回歸 地理位置加權(quán)3、偏最小二乘回歸長期以來,模型式的方法和認(rèn)識性的方法之間的界限分得十分清楚。
而偏最小二乘法則把它們有機(jī)的結(jié)合起來了,在一個(gè)算法下,可以同時(shí)實(shí)現(xiàn)回歸建模(多元線性回歸)、數(shù)據(jù)結(jié)構(gòu)簡化(主成分分析)以及兩組變量之間的相關(guān)性分析(典型相關(guān)分析)。偏最小二乘法在統(tǒng)計(jì)應(yīng)用中的重要性體現(xiàn)在以下幾個(gè)方面:偏最小二乘法是一種多因變量對多自變量的回歸建模方法。
偏最小二乘法可以較好的解決許多以往用普通多元回歸無法解決的問題。偏最小二乘法之所以被稱為第二代回歸方法,還由于它可以實(shí)現(xiàn)多種數(shù)據(jù)分析方法的綜合應(yīng)用。
能夠消除自變量選取時(shí)可能存在的多重共線性問題。普通最小二乘回歸方法在自變量間存在嚴(yán)重的多重共線性時(shí)會(huì)失效。
自變量的樣本數(shù)與自變量個(gè)數(shù)相比過少時(shí)仍可進(jìn)行預(yù)測。4、支持向量回歸 能較好地解決小樣本、非線性、高維數(shù)和局部極小點(diǎn)等實(shí)際問題。
傳統(tǒng)的化學(xué)計(jì)量學(xué)算法處理回歸建模問題在擬合訓(xùn)練樣本時(shí),要求“殘差平方和”最小,這樣將有限樣本數(shù)據(jù)中的誤差也擬合進(jìn)了數(shù)學(xué)模型,易產(chǎn)生“過擬合”問題,針對傳統(tǒng)方法這一不足之處,SVR采用“ε不敏感函數(shù)”來解決“過擬合”問題,即f(x)用擬合目標(biāo)值yk時(shí),取:f(x) =∑SVs(αi-α*i)K(xi,x) 上式中αi和α*i為支持向量對應(yīng)的拉格朗日待定系數(shù),K(xi,x)是采用的核函數(shù)[18],x為未知樣本的特征矢量,xi為支持向量(擬合函數(shù)周圍的ε“管壁”上的特征矢量),SVs為支持向量的數(shù)目.目標(biāo)值yk擬合在yk-∑SVs(αi-α*i)K(xi,xk)≤ε時(shí),即認(rèn)為進(jìn)一步擬合是無意義的。5、核回歸 核函數(shù)回歸的最初始想法是用非參數(shù)方法來估計(jì)離散觀測情況下的概率密度函數(shù)(pdf)。
為了避免高維空間中的內(nèi)積運(yùn)算 由Mercer條件,存在映射函數(shù)a和核函數(shù)K(?,?),使得:=K(xi ,x)采用不同的函數(shù)作為SVM的核函數(shù)K (x i,x),可以實(shí)現(xiàn)多種從輸入空間到特征空間的非線性映射形式6、嶺回歸 嶺回歸分析是一種專用于共線性數(shù)據(jù)分析的有偏估計(jì)回歸方法,實(shí)質(zhì)上是一種改良的最小二乘估計(jì)法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價(jià)獲得回歸系數(shù)更為符合實(shí)際、更可靠的回歸方法,對病態(tài)數(shù)據(jù)的耐受性遠(yuǎn)遠(yuǎn)強(qiáng)于最小二乘法。7、半?yún)?shù)回歸 模型既含有參數(shù)分量又含有非參數(shù)分量,其參數(shù)部分用來解釋函數(shù)關(guān)系已知的部分,它是觀測值中的主要成分,而其非參數(shù)部分則描述函數(shù)關(guān)系未知,無法表達(dá)為待定參數(shù)的函數(shù)部分。
8、自回歸例1.Yt = α+β0Xt +β1Xt-1 +……+βsXt-s + ut,例2.Yt = f (Yt-1, Yt-2, … , X2t, X3t, … ) ,滯后的因變量(內(nèi)生變量)作為解釋變量出現(xiàn)在方程的右端。這種包含了內(nèi)生變量滯后項(xiàng)的模型稱為自回歸模型。
9、正交回歸 因素水平值在區(qū)間[Zj1, Zj2]內(nèi)變化,經(jīng)編碼之后,編碼值xi在區(qū)間[-1,+1]間變化,將響應(yīng)值y原來對Z1, Z2……Zm的回歸問題,轉(zhuǎn)化為y對x1,x2……xm的回歸問題。它的主要優(yōu)點(diǎn)是可以把實(shí)驗(yàn)或計(jì)算的安排、數(shù)據(jù)的處理和回歸方程的精度統(tǒng)一起來加以考慮,根據(jù)實(shí)驗(yàn)?zāi)康暮蛿?shù)據(jù)分析來選擇實(shí)驗(yàn)或計(jì)算點(diǎn),不僅使得在每個(gè)實(shí)驗(yàn)或計(jì)算點(diǎn)上獲得的數(shù)據(jù)含有最大的信息,從而減少實(shí)驗(yàn)或計(jì)算次數(shù),而且使數(shù)據(jù)的統(tǒng)計(jì)分析具有一些較好的性質(zhì),以較少的實(shí)驗(yàn)或計(jì)算建立精度較高的回歸方程。
10、逐步回歸 實(shí)際問題中影響因變量的因素可能很多,我們希望從中挑選出影響顯著的自變量來建立回歸模型,這就涉及到變量選擇的問題,逐步回歸是一種從眾多變量中有效地選擇重要變量的方法。基本思路為,先確定一初始子集,然后每次從子集外影響顯著的變量中引入一個(gè)對y 影響最大的,再對原來子集中的變量進(jìn)行檢驗(yàn),從變得不顯著的變量中剔除一個(gè)影響最小的,直到不能引入和剔除為止。
11、主成分回歸 在統(tǒng)計(jì)學(xué)中,主成分分析是一種簡化數(shù)據(jù)集的技術(shù)。它是一個(gè)線性變換。
這個(gè)變換把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依次類推。 首先對X陣進(jìn)行主成份分析,T陣的維數(shù)可以與X陣相同,如果使用整個(gè)T陣參加回歸,這樣得到的結(jié)果與多元線性回歸沒有多大的差別。
因?yàn)橹鞒煞郑ㄐ伦兞浚┦窃兞康木€性組合。前面的k個(gè)主成份包含了X矩陣的絕大部分有用信息,而后面的主成份則往往與噪聲和干擾因素有關(guān)。
因此參與回歸的是少數(shù)主成分組成的矩陣。在維數(shù)上遠(yuǎn)小于X。
主成分回歸通過對參與回歸的主成份的合理選擇,可以去掉噪音。主成份間相互正交,解決了多元線性回歸中的共線性問題。
主成分回歸能夠充分利用數(shù)據(jù)信息,有效地提高模型的抗干擾能力。
聲明:本網(wǎng)站尊重并保護(hù)知識產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時(shí)間:2.799秒