1.統計知識
在做數據分析,統計的知識肯定是需要的,Excel、SPSS、R等是需要掌握的基本技能。如果我們做數據挖掘的話(huà),就要重視數學(xué)知識,數據挖掘要從海量數據中發(fā)現規律,這就需要一定的數學(xué)知識,最基本的比如線(xiàn)性代數、高等代數、凸優(yōu)化、概率論等。
2.概率知識
而樸素貝葉斯算法需要概率方面的知識,SKM算法需要高等代數或者區間論方面的知識。當然,我們可以直接套模型,R、Python這些工具有現成的算法包,可以直接套用。但如果我們想深入學(xué)習這些算法,最好去學(xué)習一些數學(xué)知識,也會(huì )讓我們以后的路走得更順暢。我們經(jīng)常會(huì )用到的語(yǔ)言包括Python、Java、C或者C++,我自己用Python或者Java比較多。有時(shí)用MapReduce寫(xiě)程序,再用Hadoop或者Hyp來(lái)處理數據,如果用Python的話(huà)會(huì )和Spark相結合。
3.數據挖掘的數據類(lèi)型
那么可以挖掘的數據類(lèi)型都有什么呢?關(guān)系數據庫、數據倉庫、事務(wù)數據庫、空間數據庫、時(shí)間序列數據庫、文本數據庫和多媒體數據庫。關(guān)系數據庫就是表的集合,每個(gè)表都賦予一個(gè)唯一的名字。每個(gè)表包含一組屬性列或字段,并通常存放大量元組,比如記錄或行。關(guān)系中的每個(gè)元組代表一個(gè)被唯一關(guān)鍵字標識的對象,并被一組屬性值描述。
4.數據倉庫
什么是數據倉庫呢?數據倉庫就是通過(guò)數據清理、數據變換、數據集成、數據裝入和定期數據刷新構造 。數據挖掘的工作內容是什么呢?數據分析更偏向統計分析,出圖,作報告比較多,做一些展示。數據挖掘更偏向于建模型。比如,我們做一個(gè)電商的數據分析。萬(wàn)達電商的數據非常大,具體要做什么需要項目組自己來(lái)定。電商數據能給我們的業(yè)務(wù)什么樣的推進(jìn),我們從這一點(diǎn)入手去思考。我們從中挑出一部分進(jìn)行用戶(hù)分群。
關(guān)于數據挖掘需要學(xué)習哪些知識,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關(guān)于數據分析師、大數據工程師的技巧及素材等內容,可以點(diǎn)擊本站的其他文章進(jìn)行學(xué)習。
1. 工程能力
( 1 )編程基礎:需要掌握一大一小兩門(mén)語(yǔ)言,大的指 C++ 或者 Java ,小的指Python 或者 shell 腳本;需要掌握基本的數據庫語(yǔ)言;
建議:MySQL + python + C++ ;語(yǔ)言只是一種工具,看看語(yǔ)法就好;
推薦書(shū)籍:《C++ primer plus 》
( 2 )開(kāi)發(fā)平臺: Linux ;
建議:掌握常見(jiàn)的命令,掌握 Linux 下的源碼編譯原理;
推薦書(shū)籍:《Linux 私房菜》
( 3 )數據結構與算法分析基礎:掌握常見(jiàn)的數據結構以及操作(線(xiàn)性表,隊,列,字符串,樹(shù),圖等),掌握常見(jiàn)的計算機算法(排序算法,查找算法,動(dòng)態(tài)規劃,遞歸等);
建議:多敲代碼,多刷題;
推薦書(shū)籍:《大話(huà)數據結構》《劍指 offer 》
( 4 )海量數據處理平臺: Hadoop ( mr 計算模型,java 開(kāi)發(fā))或者 Spark ( rdd 計算模型, scala開(kāi)發(fā)),重點(diǎn)推薦后者;
建議:主要是會(huì )使用,有精力的話(huà)可以看看源碼了解集群調度機制之類(lèi)的;
推薦書(shū)籍:《大數據 spark 企業(yè)級實(shí)戰》
2. 算法能力
( 1 )數學(xué)基礎:概率論,數理統計,線(xiàn)性代數,隨機過(guò)程,最優(yōu)化理論
建議:這些是必須要了解的,即使沒(méi)法做到基礎扎實(shí),起碼也要掌握每門(mén)學(xué)科的理論體系,涉及到相應知識點(diǎn)時(shí)通過(guò)查閱資料可以做到無(wú)障礙理解;
( 2 )機器學(xué)習 / 深度學(xué)習:掌握 常見(jiàn)的機器學(xué)習模型(線(xiàn)性回歸,邏輯回歸, SVM ,感知機;決策樹(shù),隨機森林, GBDT , XGBoost ;貝葉斯, KNN , K-means , EM 等);掌握常見(jiàn)的機器學(xué)習理論(過(guò)擬合問(wèn)題,交叉驗證問(wèn)題,模型選擇問(wèn)題,模型融合問(wèn)題等);掌握常見(jiàn)的深度學(xué)習模型( CNN ,RNN 等);
建議:這里的掌握指的是能夠熟悉推導公式并能知道模型的適用場(chǎng)景;
推薦書(shū)籍:《統計學(xué)習方法》《機器學(xué)習》《機器學(xué)習實(shí)戰》《 UFLDL 》
( 3 )自然語(yǔ)言處理:掌握常見(jiàn)的方法( tf-idf , word2vec ,LDA );
3. 業(yè)務(wù)經(jīng)驗
( 1 )了解推薦以及計算廣告相關(guān)知識;
推薦書(shū)籍:《推薦系統實(shí)踐》《計算廣告》
( 2 )通過(guò)參加數據挖掘競賽熟悉相關(guān)業(yè)務(wù)場(chǎng)景,常見(jiàn)的比賽有 Kaggle ,阿里天池, datacastle 等。
個(gè)人感覺(jué)數據挖掘是一個(gè)比較大的概念,可以理解為:
數據挖掘=業(yè)務(wù)知識+自然語(yǔ)言處理技術(shù)(NLP)+計算機視覺(jué)技術(shù)(CV)+機器學(xué)習/深度學(xué)習(ML/DL)
(1)其中業(yè)務(wù)知識具體指的是個(gè)性化推薦,計算廣告,搜索,互聯(lián)網(wǎng)金融等;NLP,CV分別是處理文本,圖像視頻數據的領(lǐng)域技術(shù),可以理解為是將非結構化數據提取轉換成結構化數據;最后的ml/dl技術(shù)則是屬于模型學(xué)習理論;
(2)在選擇崗位時(shí),各個(gè)公司都沒(méi)有一套標準的稱(chēng)呼,但是所做的事情無(wú)非2個(gè)大方向,一種是主要鉆研某個(gè)領(lǐng)域的技術(shù),比如自然語(yǔ)言處理工程師,計算機視覺(jué)工程師,機器學(xué)習工程師等;一種是將各種領(lǐng)域技術(shù)應用到業(yè)務(wù)場(chǎng)景中去解決業(yè)務(wù)需求,比如數據挖掘工程師,推薦系統工程師等;具體的稱(chēng)呼不重要,重要的是平時(shí)的工作內容;
PS:在互聯(lián)網(wǎng)行業(yè),數據挖掘相關(guān)技術(shù)應用比較成功的主要是推薦以及計算廣告領(lǐng)域,而其中涉及到的數據主要也是文本,所以NLP技術(shù)相對來(lái)講比較重要,至于CV技術(shù)主要還是在人工智能領(lǐng)域(無(wú)人車(chē),人臉識別等)應用較多,本人了解有限,相關(guān)的描述會(huì )較少;
3.根據之前的分析,也可以看到該崗位所需要的3種基本能力分別是業(yè)務(wù)經(jīng)驗,算法能力與工程能力;
入門(mén)
1.工程能力
(1)編程基礎:需要掌握一大一小兩門(mén)語(yǔ)言,大的指C++或者JAVA,小的指python或者shell腳本;需要掌握基本的數據庫語(yǔ)言;
建議:MySQL + python + C++;語(yǔ)言只是一種工具,看看語(yǔ)法就好;
(2)開(kāi)發(fā)平臺:Linux;
建議:掌握常見(jiàn)的命令,掌握Linux下的源碼編譯原理;
(3)數據結構與算法分析基礎:掌握常見(jiàn)的數據結構以及操作(線(xiàn)性表,隊,列,字符串,樹(shù),圖等),掌握常見(jiàn)的計算機算法(排序算法,查找算法,動(dòng)態(tài)規劃,遞歸等);
建議:多敲代碼,多上OJ平臺刷題;
(4)海量數據處理平臺:hadoop(mr計算模型,java開(kāi)發(fā))或者spark(rdd計算模型,scala開(kāi)發(fā)),重點(diǎn)推薦后者;
建議:主要是會(huì )使用,有精力的話(huà)可以看看源碼了解集群調度機制之類(lèi)的;
2.算法能力
(1)數學(xué)基礎:概率論,數理統計,線(xiàn)性代數,隨機過(guò)程,最優(yōu)化理論
建議:這些是必須要了解的,即使沒(méi)法做到基礎扎實(shí),起碼也要掌握每門(mén)學(xué)科的理論體系,涉及到相應知識點(diǎn)時(shí)通過(guò)查閱資料可以做到無(wú)障礙理解;
(2)機器學(xué)習/深度學(xué)習:掌握常見(jiàn)的機器學(xué)習模型(線(xiàn)性回歸,邏輯回歸,SVM,感知機;決策樹(shù),隨機森林,GBDT,XGBoost;貝葉斯,KNN,K-means,EM等);掌握常見(jiàn)的機器學(xué)習理論(過(guò)擬合問(wèn)題,交叉驗證問(wèn)題,模型選擇問(wèn)題,模型融合問(wèn)題等);掌握常見(jiàn)的深度學(xué)習模型(CNN,RNN等);
建議:這里的掌握指的是能夠熟悉推導公式并能知道模型的適用場(chǎng)景;
(3)自然語(yǔ)言處理:掌握常見(jiàn)的方法(tf-idf,word2vec,LDA);
3.業(yè)務(wù)經(jīng)驗
(1)了解推薦以及計算廣告相關(guān)知識;
(2)通過(guò)參加數據挖掘競賽熟悉相關(guān)業(yè)務(wù)場(chǎng)景,常見(jiàn)的比賽有Kaggle,阿里天池,datacastle等;
PS:以上都是一些入門(mén)級別的介紹,在長(cháng)期的學(xué)習中,應該多看頂會(huì )paper,多讀開(kāi)源代碼,多學(xué)習優(yōu)秀解決方案;
數據挖掘,在人工智能領(lǐng)域,習慣上又稱(chēng)為數據庫中知識發(fā)現(Knowledge Discovery in Database, KDD), 也有人把數據挖掘視為數據庫中知識發(fā)現過(guò)程的一個(gè)基本步驟。
知識發(fā)現過(guò)程以下三個(gè)階段組成:(1)數據準備,(2)數據挖掘,(3)結果表達和解釋。數據挖掘可以與用戶(hù)或知識庫交互。
并非所有的信息發(fā)現任務(wù)都被視為數據挖掘。例如,使用數據庫管理系統查找個(gè)別的記錄,或通過(guò)因特網(wǎng)的搜索引擎查找特定的Web頁(yè)面,則是信息檢索(information retrieval)領(lǐng)域的任務(wù)。
雖然這些任務(wù)是重要的,可能涉及使用復雜的算法和數據結構,但是它們主要依賴(lài)傳統的計算機科學(xué)技術(shù)和數據的明顯特征來(lái)創(chuàng )建索引結構,從而有效地組織和檢索信息。盡管如此,數據挖掘技術(shù)也已用來(lái)增強信息檢索系統的能力。
數據挖掘,在人工智能領(lǐng)域,習慣上又稱(chēng)為數據庫中知識發(fā)現(Knowledge Discovery in Database, KDD), 也有人把數據挖掘視為數據庫中知識發(fā)現過(guò)程的一個(gè)基本步驟。
知識發(fā)現過(guò)程以下三個(gè)階段組成:(1)數據準備,(2)數據挖掘,(3)結果表達和解釋。數據挖掘可以與用戶(hù)或知識庫交互。
并非所有的信息發(fā)現任務(wù)都被視為數據挖掘。例如,使用數據庫管理系統查找個(gè)別的記錄,或通過(guò)因特網(wǎng)的搜索引擎查找特定的Web頁(yè)面,則是信息檢索(information retrieval)領(lǐng)域的任務(wù)。
雖然這些任務(wù)是重要的,可能涉及使用復雜的算法和數據結構,但是它們主要依賴(lài)傳統的計算機科學(xué)技術(shù)和數據的明顯特征來(lái)創(chuàng )建索引結構,從而有效地組織和檢索信息。盡管如此,數據挖掘技術(shù)也已用來(lái)增強信息檢索系統的能力。
把數學(xué)看懂才是王道,你是做軟件開(kāi)發(fā)的,干嘛用R語(yǔ)言,R語(yǔ)言是統計語(yǔ)言,還不如用python。
真正的數據挖掘不是畫(huà)幾張圖那么簡(jiǎn)單。看《數據挖掘導論》,然后用C/C++/Java/Python等這些語(yǔ)言編程實(shí)現。
理解了算法然后去實(shí)現。經(jīng)過(guò)一段時(shí)間你理解了算法之后再去想有什么地方可以運用的,就是你有什么需求,數據是用來(lái)發(fā)現知識的,而知識可以幫助企業(yè)獲得經(jīng)濟效益。
因此,如果你數學(xué)不好,在看《數據挖掘導論》的時(shí)候可以看看統計學(xué)的東西,結合起來(lái)。經(jīng)過(guò)一年半載的學(xué)習之后,你可以看更高階的比如統計學(xué)習理論之類(lèi)的,學(xué)著(zhù)學(xué)著(zhù)你就上路了。
1. 統計學(xué)統計學(xué)雖然是一門(mén)“古老的”學(xué)科,但它依然是最基本的數據挖掘技術(shù),特別是多元統計分析,如判別分析、主成分分析、因子分析、相關(guān)分析、多元回歸分析等。
2. 聚類(lèi)分析和模式識別聚類(lèi)分析主要是根據事物的特征對其進(jìn)行聚類(lèi)或分類(lèi),即所謂物以類(lèi)聚,以期從中發(fā)現規律和典型模式。這類(lèi)技術(shù)是數據挖掘的最重要的技術(shù)之一。
除傳統的基于多元統計分析的聚類(lèi)方法外,近些年來(lái)模糊聚類(lèi)和神經(jīng)網(wǎng)絡(luò )聚類(lèi)方法也有了長(cháng)足的發(fā)展。3. 決策樹(shù)分類(lèi)技術(shù)決策樹(shù)分類(lèi)是根據不同的重要特征,以樹(shù)型結構表示分類(lèi)或決策集合,從而產(chǎn)生規則和發(fā)現規律。
4. 人工神經(jīng)網(wǎng)絡(luò )和遺傳基因算法人工神經(jīng)網(wǎng)絡(luò )是一個(gè)迅速發(fā)展的前沿研究領(lǐng)域,對計算機科學(xué) 人工智能、認知科學(xué)以及信息技術(shù)等產(chǎn)生了重要而深遠的影響,而它在數據挖掘中也扮演著(zhù)非常重要的角色。人工神經(jīng)網(wǎng)絡(luò )可通過(guò)示例學(xué)習,形成描述復雜非線(xiàn)性系統的非線(xiàn)性函數,這實(shí)際上是得到了客觀(guān)規律的定量描述,有了這個(gè)基礎,預測的難題就會(huì )迎刃而解。
目前在數據挖掘中,最常使用的兩種神經(jīng)網(wǎng)絡(luò )是BP網(wǎng)絡(luò )和RBF網(wǎng)絡(luò ) 不過(guò),由于人工神經(jīng)網(wǎng)絡(luò )還是一個(gè)新興學(xué)科,一些重要的理論問(wèn)題尚未解決。5. 規則歸納規則歸納相對來(lái)講是數據挖掘特有的技術(shù)。
它指的是在大型數據庫或數據倉庫中搜索和挖掘以往不知道的規則和規律,這大致包括以下幾種形式:IF … THEN …6. 可視化技術(shù)可視化技術(shù)是數據挖掘不可忽視的輔助技術(shù)。數據挖掘通常會(huì )涉及較復雜的數學(xué)方法和信息技術(shù),為了方便用戶(hù)理解和使用這類(lèi)技術(shù),必須借助圖形、圖象、動(dòng)畫(huà)等手段形象地指導操作、引導挖掘和表達結果等,否則很難推廣普及數據挖掘技術(shù)。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:3.009秒