特征選擇是特征工程中的重要問(wèn)題(另一個(gè)重要的問(wèn)題是特征提取),坊間常說(shuō):數據和特征決定了機器學(xué)習的上限,而模型和算法只是逼近這個(gè)上限而已。
由此可見(jiàn),特征工程尤其是特征選擇在機器學(xué)習中占有相當重要的地位。通常而言,特征選擇是指選擇獲得相應模型和算法最好性能的特征集,工程上常用的方法有以下:1. 計算每一個(gè)特征與響應變量的相關(guān)性:工程上常用的手段有計算皮爾遜系數和互信息系數,皮爾遜系數只能衡量線(xiàn)性相關(guān)性而互信息系數能夠很好地度量各種相關(guān)性,但是計算相對復雜一些,好在很多toolkit里邊都包含了這個(gè)工具(如sklearn的MINE),得到相關(guān)性之后就可以排序選擇特征了;2. 構建單個(gè)特征的模型,通過(guò)模型的準確性為特征排序,借此來(lái)選擇特征,另外,記得JMLR'03上有一篇論文介紹了一種基于決策樹(shù)的特征選擇方法,本質(zhì)上是等價(jià)的。
當選擇到了目標特征之后,再用來(lái)訓練最終的模型;3. 通過(guò)L1正則項來(lái)選擇特征:L1正則方法具有稀疏解的特性,因此天然具備特征選擇的特性,但是要注意,L1沒(méi)有選到的特征不代表不重要,原因是兩個(gè)具有高相關(guān)性的特征可能只保留了一個(gè),如果要確定哪個(gè)特征重要應再通過(guò)L2正則方法交叉檢驗;4. 訓練能夠對特征打分的預選模型:RandomForest和Logistic Regression等都能對模型的特征打分,通過(guò)打分獲得相關(guān)性后再訓練最終模型;5. 通過(guò)特征組合后再來(lái)選擇特征:如對用戶(hù)id和用戶(hù)特征最組合來(lái)獲得較大的特征集再來(lái)選擇特征,這種做法在推薦系統和廣告系統中比較常見(jiàn),這也是所謂億級甚至十億級特征的主要來(lái)源,原因是用戶(hù)數據比較稀疏,組合特征能夠同時(shí)兼顧全局模型和個(gè)性化模型,這個(gè)問(wèn)題有機會(huì )可以展開(kāi)講。6. 通過(guò)深度學(xué)習來(lái)進(jìn)行特征選擇:目前這種手段正在隨著(zhù)深度學(xué)習的流行而成為一種手段,尤其是在計算機視覺(jué)領(lǐng)域,原因是深度學(xué)習具有自動(dòng)學(xué)習特征的能力,這也是深度學(xué)習又叫unsupervised feature learning的原因。
從深度學(xué)習模型中選擇某一神經(jīng)層的特征后就可以用來(lái)進(jìn)行最終目標模型的訓練了。整體上來(lái)說(shuō),特征選擇是一個(gè)既有學(xué)術(shù)價(jià)值又有工程價(jià)值的問(wèn)題,目前在研究領(lǐng)域也比較熱,值得所有做機器學(xué)習的朋友重視。
說(shuō)明方法 常見(jiàn)的說(shuō)明方法 常見(jiàn)的說(shuō)明方法有舉事例、分類(lèi)別、列數據、作比較、畫(huà)圖表、下定義、作詮釋、打比方、摹狀貌、引資料等10種。
寫(xiě)說(shuō)明文要根據說(shuō)明對象的特點(diǎn)及寫(xiě)作目的,選用最佳方法。下面分別加以說(shuō)明。
(1)舉例子。舉出實(shí)際事例來(lái)說(shuō)明事物,使所要說(shuō)明的事物具體化,以便讀者理解,這種說(shuō)明方法叫舉例法。
如: 一般人總以為,年齡稍大,記憶能力就一定要差,其實(shí)不然,請看實(shí)驗結果:國際語(yǔ)言學(xué)會(huì )曾對9至18歲的青年與35歲以上的成年人學(xué)習世界語(yǔ)作過(guò)一個(gè)比較,發(fā)現前者就不如后者的記憶力好。這是因為成年人的知識、經(jīng)驗比較豐富,容易在已有的知識基礎上,建立廣泛的聯(lián)系。
這種聯(lián)系,心理學(xué)上稱(chēng)為“聯(lián)想”。人的記憶就是以聯(lián)想為基礎的,知識經(jīng)驗越豐富,越容易建立聯(lián)想,記憶力就會(huì )相應提高。
馬克思五十多歲時(shí)開(kāi)始學(xué)俄文,六個(gè)月后,他就能津津有味地閱讀著(zhù)名詩(shī)人與作家普希金、果戈里和謝德林等人的原文著(zhù)作了。這是由于語(yǔ)言知識豐富,能夠通曉很多現代和古代的語(yǔ)言的緣故。
這段文章要說(shuō)明的是:年齡稍大,記憶力不一定就差。為了說(shuō)明這一點(diǎn),作者先提供了實(shí)驗結果,又分析了原因。
到此為止,未嘗不可,但不夠具體,也缺乏說(shuō)服力,于是,又舉出了一個(gè)實(shí)例:馬克思在五十多歲的時(shí)候,只用六個(gè)月時(shí)間便精通了俄語(yǔ)。這樣一來(lái),內容具體了,說(shuō)服力增強了。
說(shuō)明文中的舉事例的說(shuō)明方法和議論文中的例證法,都可以起到使內容具體、加強說(shuō)服力的作用。但二者又有區別。
議論文中的事例,是用來(lái)證明觀(guān)點(diǎn)的,說(shuō)明文的事例,是用來(lái)介紹知識的。 運用舉事例的說(shuō)明方法說(shuō)明事物或事理,一要注意例子的代表性,二要注意例子的適量性。
(2)分類(lèi)別。將被說(shuō)明的對象,按照一定的標準劃分成不同的類(lèi)別,一類(lèi)一類(lèi)地加以說(shuō)明,這種說(shuō)明方法,叫分類(lèi)別。
分類(lèi)別是將復雜的事物說(shuō)清楚的重要方法。 運用分類(lèi)別方法要注意分類(lèi)的標準,一次分類(lèi)只能用同一個(gè)標準,以免產(chǎn)生重疊交叉的現象。
例如:“圖書(shū)館的藏書(shū)有中國的、古典的、外國的、科技的、文學(xué)的、現代的以及政治經(jīng)濟方面的等。”這里用了不只一個(gè)標準,所以表達不清。
正確的說(shuō)法應該是: 圖書(shū)館的藏書(shū),按國別分,有中國的、外國的;按時(shí)代分,有古典的、現代的;按性質(zhì)分,有科技的、文學(xué)的以及政治經(jīng)濟方面的等。 這樣,每次分類(lèi)只用一個(gè)標準,就眉目清楚了。
有的事物的特征、本質(zhì)需要分成幾點(diǎn)或幾個(gè)方面來(lái)說(shuō),也屬于分類(lèi)別。 注意,運用分類(lèi)別方法,所列舉的種類(lèi)不能有遺漏。
(3)列數據。為了使所要說(shuō)明的事物具體化,還可以采用列數據的方法,以便讀者理解。
需要注意的是,引用的數字,一定要準確無(wú)誤,不準確的數字絕對不能用,即使是估計的數字,也要有可靠的根據,并力求近似。 (4)作比較。
說(shuō)明某些抽象的或者是人們比較陌生的事物,可以用具體的或者大家已經(jīng)熟悉的事物和它比較,使讀者通過(guò)比較得到具體而鮮明的印象。事物的特征也往往在比較中顯現出來(lái)。
在作比較的時(shí)候,可以是同類(lèi)相比,也可以是異類(lèi)相比,可以對事物進(jìn)行“橫比”,也可以對事物進(jìn)行“縱比”。 (5)畫(huà)圖表。
為了把復雜的事物說(shuō)清楚,還可以采用圖表法,來(lái)彌補單用文字表達的缺欠,對有些事物解說(shuō)更直接、更具體。 (6)下定義。
用簡(jiǎn)明的語(yǔ)言對某一概念的本質(zhì)特征作規定性的說(shuō)明叫下定義。下定義能準確揭示事物的本質(zhì),是科技說(shuō)明文常用的方法。
下定義的時(shí)候,可以根據說(shuō)明的目的需要,從不同的角度考慮。有的著(zhù)重說(shuō)明特性,如關(guān)于“人”的定義;有的著(zhù)重說(shuō)明作用,如關(guān)于“肥料”的定義;有的既說(shuō)明特性又說(shuō)明作用,如關(guān)于“統籌方法”和“應用科學(xué)”的定義。
①人是能制造工具并使用工具進(jìn)行勞動(dòng)的高級動(dòng)物。 ②肥料是能供給養分使植物生長(cháng)的物質(zhì)。
③統籌方法,是一種安排工作進(jìn)程的數學(xué)方法。 ④工程技術(shù)的科學(xué)叫做應用科學(xué),它是應用自然科學(xué)的基礎理論來(lái)解決生產(chǎn)實(shí)踐中出現的問(wèn)題的學(xué)問(wèn)。
無(wú)論從什么角度考慮,無(wú)論采用什么方式,只要是下定義,就必須揭示事物的本質(zhì),只有這樣的定義才是科學(xué)的。比如,有人說(shuō):“人是兩足直立的動(dòng)物。”
這個(gè)定義就是不科學(xué)的,因為它沒(méi)能揭示事物的本質(zhì)。“人是能制造工具并使用工具進(jìn)行勞動(dòng)的高級動(dòng)物。”
這才是科學(xué)的定義,因為它揭示了人的本質(zhì)。 (7)作詮釋。
從一個(gè)側面,就事物的某一個(gè)特點(diǎn)做些解釋?zhuān)@種方法叫詮釋法。 定義法和詮釋法常采用“某某是什么”的語(yǔ)言形式。
形式相同,如何區分呢?一般來(lái)說(shuō),“是”字兩邊的話(huà)能夠互換,就是定義;如果不能互換,就是詮釋。 例如,“人是能制造工具并使用工具進(jìn)行勞動(dòng)的高級動(dòng)物”這句話(huà),改成“能制造工具并使用工具進(jìn)行勞動(dòng)的高級動(dòng)物是人”,意思不變。
“雪是在云中形成的一種固態(tài)降水物”這句話(huà),如果改為“云中形成的固態(tài)降水物是雪”就不成。由此可以辨別,前一句是定義說(shuō)明,后一句是詮釋說(shuō)明。
(8)打比方。利用兩種不同事物之間的相似之處作比較,以突出事物的性狀特點(diǎn),增強說(shuō)明的形象性和生動(dòng)性的說(shuō)明方法叫做打比方。
說(shuō)明文中的打比方的說(shuō)明方法,同修辭格上的比喻是一致的。不同的是,比喻。
在A(yíng)utoCAD中,選擇對象的方法很多。例如,可以通過(guò)單擊對象逐個(gè)拾取,也可利用矩形窗口或交叉窗口選擇;可以選擇最近創(chuàng )建的對象、前面的選擇集或圖形中的所有對象,也可以向選擇集中添加對象或從中刪除對象。
過(guò)濾選擇
在命令行提示下輸入FILTER命令,將打開(kāi)“對象選擇過(guò)濾器”對話(huà)框。可以以對象的類(lèi)型(如直線(xiàn)、圓及圓弧等)、圖層、顏色、線(xiàn)型或線(xiàn)寬等特性作為條件,過(guò)濾選擇符合設定條件的對象。此時(shí)必須考慮圖形中對象的這些特性是否設置為隨層。
快速選擇
在A(yíng)utoCAD中,當需要選擇具有某些共同特性的對象時(shí),可利用“快速選擇”對話(huà)框,根據對象的圖層、線(xiàn)型、顏色、圖案填充等特性和類(lèi)型,創(chuàng )建選擇集。單擊“菜單瀏覽器”按鈕,在彈出的菜單中選擇“工具”|“快速選擇”命令,或在“功能區”選項板中選擇“常用”選項卡,在“實(shí)用程序”面板中單擊“快速選擇”按鈕,都可打開(kāi)“快速選擇”對話(huà)框。
以下為你檢索了一些國內頂級刊物的相關(guān)文章。
希望對你有用。[1]姚旭,王曉丹,張玉璽,權文. 特征選擇方法綜述[J]. 控制與決策,2012,02:161-166+192.[2]單麗莉,劉秉權,孫承杰. 文本分類(lèi)中特征選擇方法的比較與改進(jìn)[J]. 哈爾濱工業(yè)大學(xué)學(xué)報,2011,S1:319-324.[3]武建華,宋擒豹,沈均毅,謝建文. 基于關(guān)聯(lián)規則的特征選擇算法[J]. 模式識別與人工智能,2009,02:256-262.[4]張麗新,王家廞,趙雁南,楊澤紅. 基于Relief的組合式特征選擇[J]. 復旦學(xué)報(自然科學(xué)版),2004,05:893-898.[5]趙明淵,唐勇,傅翀,周明天. 基于帶特征染色體遺傳算法的支持向量機特征選擇和參數優(yōu)化[J]. 控制與決策,2010,08:1133-1138。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:3.532秒