學習要根據(jù)自身情況來定,如果你是零基礎,那就必須先從基礎Java開始學起(大數(shù)據(jù)支持很多開發(fā)語言,但企業(yè)用的最多的還是JAVA),接下來學習數(shù)據(jù)結構、Linux系統(tǒng)操作、關系型數(shù)據(jù)庫,夯實基礎之后,再進入大數(shù)據(jù)的學習,具體可以按照如下體系:第一階段CORE JAVA (加**的需重點熟練掌握,其他掌握)Java基礎**數(shù)據(jù)類型,運算符、循環(huán),算法,順序結構程序設計,程序結構,數(shù)組及多維數(shù)組面向對象**構造方法、控制符、封裝繼承**多態(tài)**抽象類、接口**常用類集合Collection、list**HashSet、TreeSet、Collection集合類Map**異常,F(xiàn)ile文件/流**數(shù)據(jù)流和對象流**線程(理解即可)網(wǎng)絡通信(理解即可)第二階段數(shù)據(jù)結構關系型數(shù)據(jù)庫Linux系統(tǒng)操作Linux操作系統(tǒng)概述,安裝Linux操作系統(tǒng),圖形界面操作基礎,Linux字符界面基礎,字符界面操作進階,用戶、組群和權限管理,文件系統(tǒng)管理,軟件包管理與系統(tǒng)備份,Linux網(wǎng)絡配置 (主要掌握Linux操作系統(tǒng)的理論基礎和服務器配置實踐知識,同時通過大量實驗,著重培養(yǎng)動手能力。
了解Linux操作系統(tǒng)在行業(yè)中的重要地位和廣泛的使用范圍。在學習Linux的基礎上,加深對服務器操作系統(tǒng)的認識和實踐配置能力。
加深對計算機網(wǎng)絡基礎知識的理解,并在實踐中加以應用。掌握Linux操作系統(tǒng)的安裝、命令行操作、用戶管理、磁盤管理、文件系統(tǒng)管理、軟件包管理、進程管理、系統(tǒng)監(jiān)測和系統(tǒng)故障排除。
掌握Linux操作系統(tǒng)的網(wǎng)絡配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服務的配置與管理。為更深一步學習其它網(wǎng)絡操作系統(tǒng)和軟件系統(tǒng)開發(fā)奠定堅實的基礎。
與此同時,如果大家有時間把javaweb及框架學習一番,會讓你的大數(shù)據(jù)學習更自由一些)重點掌握:常見算法數(shù)據(jù)庫表設計,SQL語句,Linux常見命令第三階段Hadoop階段離線分析階段實時計算階段重點掌握:Hadoop基礎,HDFS,MapReduce,分布式集群,Hive,Hbase,Sqoop,Pig,Storm實時數(shù)據(jù)處理平臺,Spark平臺。
學科知識:從數(shù)據(jù)分析涉及到的專業(yè)知識點上看,主要是這些:
(1)統(tǒng)計學:參數(shù)檢驗、非參檢驗、回歸分析等
(2)數(shù)學:線性代數(shù)、微積分等
(3)社會學:主要是一些社會學量化統(tǒng)計的知識,如問卷調查與統(tǒng)計分析;還有就是一些社會學的知識,這些對于從事營銷類的數(shù)據(jù)分析人員比較有幫助
(4)經(jīng)濟金融:如果是從事這個行業(yè)的數(shù)據(jù)分析人員,經(jīng)濟金融知識是必須的,這里就不多說了
(5)計算機:從事數(shù)據(jù)分析工作的人必須了解你使用的數(shù)據(jù)是怎么處理出來的,要了解數(shù)據(jù)庫的結構和基本原理,同時如果條件充足的話,你還能有足夠的能力從數(shù)據(jù)庫里提取你需要的數(shù)據(jù),這種提取數(shù)據(jù)分析原材料的能力是每個數(shù)據(jù)從業(yè)者必備的。
說到大數(shù)據(jù),肯定少不了分析軟件,這應該是大數(shù)據(jù)工作的根基,但市面上很多各種分析軟件,如果不是過來人,真的很難找到適合自己或符合企業(yè)要求的。
小編通過各大企業(yè)對大數(shù)據(jù)相關行業(yè)的崗位要求,總結了以下幾點:(1)SQL數(shù)據(jù)庫的基本操作,會基本的數(shù)據(jù)管理(2)會用Excel/SQL做基本的數(shù)據(jù)分析和展示(3)會用腳本語言進行數(shù)據(jù)分析,Python or R(4)有獲取外部數(shù)據(jù)的能力,如爬蟲(5)會基本的數(shù)據(jù)可視化技能,能撰寫數(shù)據(jù)報告(6)熟悉常用的數(shù)據(jù)挖掘算法:回歸分析、決策樹、隨機森林、支持向量機等對于學習大數(shù)據(jù),總體來說,先學基礎,再學理論,最后是工具。基本上,每一門語言的學習都是要按照這個順序來的。
1、學習數(shù)據(jù)分析基礎知識,包括概率論、數(shù)理統(tǒng)計。基礎這種東西還是要掌握好的啊,基礎都還沒扎實,知識大廈是很容易倒的哈。
2、你的目標行業(yè)的相關理論知識。比如金融類的,要學習證券、銀行、財務等各種知識,不然到了公司就一臉懵逼啦。
3、學習數(shù)據(jù)分析工具,軟件結合案列的實際應用,關于數(shù)據(jù)分析主流軟件有(從上手度從易到難):Excel,SPSS,stata,R,Python,SAS等。4、學會怎樣操作這些軟件,然后是利用軟件從數(shù)據(jù)的清洗開始一步步進行處理,分析,最后輸出結果,檢驗及解讀數(shù)據(jù)。
當然,學習數(shù)學與應用數(shù)學、統(tǒng)計學、計算機科學與技術等理工科專業(yè)的人確實比文科生有著客觀的優(yōu)勢,但能力大于專業(yè),興趣才會決定你走得有多遠。畢竟數(shù)據(jù)分析不像編程那樣,需要你天天敲代碼,要學習好多的編程語言,數(shù)據(jù)分析更注重的是你的實操和業(yè)務能力。
如今的軟件學習都是非常簡單便捷的,我們真正需要提升的是自己的邏輯思維能力,以及敏銳的洞察能力,還得有良好的溝通表述能力。這些都是和自身的努力有關,而不是單純憑借理工科背景就可以啃得下來的。
相反這些能力更加傾向于文科生,畢竟好奇心、創(chuàng)造力也是一個人不可或缺的。
學習大數(shù)據(jù)要有一定的編程基礎,這是大數(shù)據(jù)大部分崗位都需要的。
目前從事大數(shù)據(jù)方向的程序員比較普遍使用的語言有四種,分別是Python、Java、Scala和R,這四種語言都有一定的應用場景,不同崗位的程序員使用的語言也稍有不同。Python目前主要是應用在數(shù)據(jù)分析、數(shù)據(jù)挖掘和算法實現(xiàn)上,可以說大數(shù)據(jù)領域Python的應用是比較普遍的。
Java目前在大數(shù)據(jù)領域的應用還是跟平臺有直接關系,通常在需要高性能的數(shù)據(jù)處理部分采用Java開發(fā)。Scala和R主要是基于場景的應用多一些,Scala構建在Java基礎之上,代碼結構要比Java簡潔一些,同時Scala是Spark的實現(xiàn)語言,在與Spark相關的開發(fā)中使用Scala是比較方面的選擇。
R語言本身的特點就是統(tǒng)計分析,語法簡單且功能強大,是做大數(shù)據(jù)統(tǒng)計分析的一把利器。
學科知識:從數(shù)據(jù)分析涉及到的專業(yè)知識點上看,主要是這些:(1)統(tǒng)計學:參數(shù)檢驗、非參檢驗、回歸分析等(2)數(shù)學:線性代數(shù)、微積分等(3)社會學:主要是一些社會學量化統(tǒng)計的知識,如問卷調查與統(tǒng)計分析;還有就是一些社會學的知識,這些對于從事營銷類的數(shù)據(jù)分析人員比較有幫助(4)經(jīng)濟金融:如果是從事這個行業(yè)的數(shù)據(jù)分析人員,經(jīng)濟金融知識是必須的,這里就不多說了(5)計算機:從事數(shù)據(jù)分析工作的人必須了解你使用的數(shù)據(jù)是怎么處理出來的,要了解數(shù)據(jù)庫的結構和基本原理,同時如果條件充足的話,你還能有足夠的能力從數(shù)據(jù)庫里提取你需要的數(shù)據(jù),這種提取數(shù)據(jù)分析原材料的能力是每個數(shù)據(jù)從業(yè)者必備的。
看你做哪個方面的大數(shù)據(jù)工作,如果是統(tǒng)籌方面(比如數(shù)據(jù)建模(分析)之類)的,那么數(shù)學的功底是一定要有的,不然怎么做建模和分析。
如果是數(shù)據(jù)篩選一類的,那么邏輯學和社會學是一定要有所基礎的,不一定要很精通,但是基礎一定要有。大數(shù)據(jù)的數(shù)據(jù)本身是無意義的,能從大數(shù)據(jù)中提取出想要的數(shù)據(jù),就是數(shù)據(jù)篩選要做的,那么如果邏輯學和社會學不過關或者不扎實,那么可能這部分數(shù)據(jù)與需要的數(shù)據(jù)有關,但是察覺不到,可能這部分數(shù)據(jù)和需要的數(shù)據(jù)無關,但是又被放在了里面(等于增加了無用功),這都不是好現(xiàn)象。而這部分就需要邏輯學和社會學。
如果是具體的操作,比如數(shù)據(jù)可視化,那就沒什么說的了,編程能力,理解能力,這些是大頭。
還有數(shù)據(jù)治理等等(這個是數(shù)據(jù)倉庫的概念,放到大數(shù)據(jù)中也可以),這里需要數(shù)據(jù)的敏感度,其實還是和數(shù)學有關,邏輯學社會學等其實也和數(shù)據(jù)有關,編程等等也和數(shù)學有關,所以我覺得大數(shù)據(jù)需要的基礎是數(shù)學,當然職位(或者說崗位不同)需要的基礎也不同,僅僅操作的話,就簡單一些,項往上走的話,數(shù)學的功底就要更扎實一些。不過都是需要的。
大數(shù)據(jù)技術專業(yè)屬于交叉學科:以統(tǒng)計學、數(shù)學、計算機為三大支撐性學科;生物、醫(yī)學、環(huán)境科學、經(jīng)濟學、社會學、管理學為應用拓展性學科。
此外還需學習數(shù)據(jù)采集、分析、處理軟件,學習數(shù)學建模軟件及計算機編程語言等,知識結構是二專多能復合的跨界人才(有專業(yè)知識、有數(shù)據(jù)思維)。
以中國人民大學為例:
基礎課程:數(shù)學分析、高等代數(shù)、普通物理數(shù)學與信息科學概論、數(shù)據(jù)結構、數(shù)據(jù)科學導論、程序設計導論、程序設計實踐。
必修課:離散數(shù)學、概率與統(tǒng)計、算法分析與設計、數(shù)據(jù)計算智能、數(shù)據(jù)庫系統(tǒng)概論、計算機系統(tǒng)基礎、并行體系結構與編程、非結構化大數(shù)據(jù)分析。
選修課:數(shù)據(jù)科學算法導論、數(shù)據(jù)科學專題、數(shù)據(jù)科學實踐、互聯(lián)網(wǎng)實用開發(fā)技術、抽樣技術、統(tǒng)計學習、回歸分析、隨機過程。
擴展資料:
大數(shù)據(jù)崗位:
1、大數(shù)據(jù)系統(tǒng)架構師
大數(shù)據(jù)平臺搭建、系統(tǒng)設計、基礎設施。
技能:計算機體系結構、網(wǎng)絡架構、編程范式、文件系統(tǒng)、分布并行處理等。
2、大數(shù)據(jù)系統(tǒng)分析師
面向實際行業(yè)領域,利用大數(shù)據(jù)技術進行數(shù)據(jù)安全生命周期管理、分析和應用。
技能:人工智能、機器學習、數(shù)理統(tǒng)計、矩陣計算、優(yōu)化方法。
3、hadoop開發(fā)工程師。
解決大數(shù)據(jù)存儲問題。
4、數(shù)據(jù)分析師
不同行業(yè)中,專門從事行業(yè)數(shù)據(jù)搜集、整理、分析,并依據(jù)數(shù)據(jù)做出行業(yè)研究、評估和預測的專業(yè)人員。在工作中通過運用工具,提取、分析、呈現(xiàn)數(shù)據(jù),實現(xiàn)數(shù)據(jù)的商業(yè)意義。
5、數(shù)據(jù)挖掘工程師
做數(shù)據(jù)挖掘要從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,這就需要一定的數(shù)學知識,最基本的比如線性代數(shù)、高等代數(shù)、凸優(yōu)化、概率論等。經(jīng)常會用到的語言包括Python、Java、C或者C++,我自己用Python或者Java比較多。有時用MapReduce寫程序,再用Hadoop或者Hyp來處理數(shù)據(jù),如果用Python的話會和Spark相結合。
參考資料來源:中國人民大學信息學院-數(shù)據(jù)科學與大數(shù)據(jù)技術
參考資料來源:百度百科-大數(shù)據(jù)采集與管理專業(yè)
大數(shù)據(jù)學習入門都需要學習和具備的基礎知識:
1. 數(shù)學知識:數(shù)學知識是數(shù)據(jù)分析師的基礎知識。
①對于初級數(shù)據(jù)分析師,了解一些描述統(tǒng)計相關的基礎內容,有一定的公式計算能力即可,了解常用統(tǒng)計模型算法則是加分。
②對于高級數(shù)據(jù)分析師,統(tǒng)計模型相關知識是必備能力,線性代數(shù)(主要是矩陣計算相關知識)最好也有一定的了解。
③而對于數(shù)據(jù)挖掘工程師,除了統(tǒng)計學以外,各類算法也需要熟練使用,對數(shù)學的要求是最高的。
2. 分析工具
①對于初級數(shù)據(jù)分析師,玩轉Excel是必須的,數(shù)據(jù)透視表和公式使用必須熟練,VBA是加分。另外,還要學會一個統(tǒng)計分析工具,SPSS作為入門是比較好的。
②對于高級數(shù)據(jù)分析師,使用分析工具是核心能力,VBA基本必備,SPSS/SAS/R至少要熟練使用其中之一,其他分析工具(如Matlab)視情況而定。
③對于數(shù)據(jù)挖掘工程師……嗯,會用用Excel就行了,主要工作要靠寫代碼來解決呢。
3. 編程語言
①對于初級數(shù)據(jù)分析師,會寫SQL查詢,有需要的話寫寫Hadoop和Hive查詢,基本就OK了。
②對于高級數(shù)據(jù)分析師,除了SQL以外,學習Python是很有必要的,用來獲取和處理數(shù)據(jù)都是事半功倍。當然其他編程語言也是可以的。
③對于數(shù)據(jù)挖掘工程師,Hadoop得熟悉,Python/Java/C++至少得熟悉一門,Shell得會用……總之編程語言絕對是數(shù)據(jù)挖掘工程師的最核心能力了。
4. 業(yè)務理解
業(yè)務理解說是數(shù)據(jù)分析師所有工作的基礎也不為過,數(shù)據(jù)的獲取方案、指標的選取、乃至最終結論的洞察,都依賴于數(shù)據(jù)分析師對業(yè)務本身的理解。
①對于初級數(shù)據(jù)分析師,主要工作是提取數(shù)據(jù)和做一些簡單圖表,以及少量的洞察結論,擁有對業(yè)務的基本了解就可以。
②對于高級數(shù)據(jù)分析師,需要對業(yè)務有較為深入的了解,能夠基于數(shù)據(jù),提煉出有效觀點,對實際業(yè)務能有所幫助。
③對于數(shù)據(jù)挖掘工程師,對業(yè)務有基本了解就可以,重點還是需要放在發(fā)揮自己的技術能力上。
5. 邏輯思維
①對于初級數(shù)據(jù)分析師,邏輯思維主要體現(xiàn)在數(shù)據(jù)分析過程中每一步都有目的性,知道自己需要用什么樣的手段,達到什么樣的目標。
②對于高級數(shù)據(jù)分析師,邏輯思維主要體現(xiàn)在搭建完整有效的分析框架,了解分析對象之間的關聯(lián)關系,清楚每一個指標變化的前因后果,會給業(yè)務帶來的影響。
③對于數(shù)據(jù)挖掘工程師,邏輯思維除了體現(xiàn)在和業(yè)務相關的分析工作上,還包括算法邏輯,程序邏輯等,所以對邏輯思維的要求也是最高的。
6. 數(shù)據(jù)可視化
數(shù)據(jù)可視化說起來很高大上,其實包括的范圍很廣,做個PPT里邊放上數(shù)據(jù)圖表也可以算是數(shù)據(jù)可視化,所以我認為這是一項普遍需要的能力。
①對于初級數(shù)據(jù)分析師,能用Excel和PPT做出基本的圖表和報告,能清楚的展示數(shù)據(jù),就達到目標了。
②對于高級數(shù)據(jù)分析師,需要探尋更好的數(shù)據(jù)可視化方法,使用更有效的數(shù)據(jù)可視化工具,根據(jù)實際需求做出或簡單或復雜,但適合受眾觀看的數(shù)據(jù)可視化內容。
③對于數(shù)據(jù)挖掘工程師,了解一些數(shù)據(jù)可視化工具是有必要的,也要根據(jù)需求做一些復雜的可視化圖表,但通常不需要考慮太多美化的問題。
7. 協(xié)調溝通
①對于初級數(shù)據(jù)分析師,了解業(yè)務、尋找數(shù)據(jù)、講解報告,都需要和不同部門的人打交道,因此溝通能力很重要。
②對于高級數(shù)據(jù)分析師,需要開始獨立帶項目,或者和產(chǎn)品做一些合作,因此除了溝通能力以外,還需要一些項目協(xié)調能力。
③對于數(shù)據(jù)挖掘工程師,和人溝通技術方面內容偏多,業(yè)務方面相對少一些,對溝通協(xié)調的要求也相對低一些。
8. 快速學習
無論做數(shù)據(jù)分析的哪個方向,初級還是高級,都需要有快速學習的能力,學業(yè)務邏輯、學行業(yè)知識、學技術工具、學分析框架……數(shù)據(jù)分析領域中有學不完的內容,需要大家有一顆時刻不忘學習的心。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據(jù)《信息網(wǎng)絡傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個月內通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:3.525秒