大數據技術(shù)由淺入深依次掌握:
Java語(yǔ)言基礎:
Java語(yǔ)言基礎、Java流程控制、Java字符串、Java數組與類(lèi)和對象、數字處理類(lèi)與核心技術(shù)、I/O與反射,多線(xiàn)程、Swing程序與集合類(lèi);
HTML、CSS與JavaScript:
PC端網(wǎng)站布局、HTML5+CSS3基礎、WebAPP頁(yè)面布局、原生javascript交互功能開(kāi)發(fā)、Ajax異步交互、jQuery應用;
JavaWeb和數據庫:
數據庫、javaWeb開(kāi)發(fā)核心、JavaWeb開(kāi)發(fā)內幕;
Linux基礎:
Linux安裝與配置、系統管理與目錄管理、用戶(hù)與用戶(hù)組管理、Shell編程、服務(wù)器配置、Vi編輯器與Emacs編輯器;
Hadoop生態(tài)體系:
Hadoop起源與安裝、MapReduce快速入門(mén)、Hadoop分布式文件系統、Hadoop文件I/O詳解、MapReduce工作原理、MapReduce編程開(kāi)發(fā)、Hive數據倉庫工具、開(kāi)源數據庫HBase、Sqoop與Oozie;
Spark生態(tài)體系:
Spark部署和運行、Spark程序開(kāi)發(fā)、Spark編程模型、作業(yè)執行解析、Spark SQL與DataFrame、深入Spark Streaming、Spark MLlib與機器學(xué)習、GraphX與SparkR、spark項目實(shí)戰、scala編程、Python編程;
Storm實(shí)時(shí)開(kāi)發(fā):
storm基本知識、拓撲詳解與組件詳解、Hadoop分布式系統、spout詳解與bolt詳解、zookeeper詳解、storm安裝與集群搭建、storm-starter詳解、開(kāi)源數據庫HBase、trident詳解;
首先是基礎階段。
這一階段包括:關(guān)系型數據庫原理、LINUX操作系統原理及應用。在掌握了這些基礎知識后,會(huì )安排這些基礎課程的進(jìn)階課程,即:數據結構與算法、MYSQL數據庫應用及開(kāi)發(fā)、SHELL腳本編程。
在掌握了這些內容之后,大數據基礎學(xué)習階段才算是完成了。接下來(lái)是大數據專(zhuān)業(yè)學(xué)習的第二階段:大數據理論及核心技術(shù)。
第二階段也被分為了基礎和進(jìn)階兩部分,先理解基礎知識,再進(jìn)一步對知識內容做深入的了解和實(shí)踐。基礎部分包括:布式存儲技術(shù)原理與應用、分布式計算技術(shù)、HADOOP集群搭建、運維;進(jìn)階內容包括:HDFS高可靠、ZOOKEEPER、CDH、Shuffle、HADOOP源碼分析、HIVE、HBASE、Mongodb、HADOOP項目實(shí)戰。
完成了這部分內容的學(xué)習,學(xué)員們就已經(jīng)掌握了大數據專(zhuān)業(yè)大部分的知識,并具有了一定的項目經(jīng)驗。但為了學(xué)員們在大數據專(zhuān)業(yè)有更好的發(fā)展,所學(xué)知識能更廣泛地應用到大數據相關(guān)的各個(gè)崗位,有個(gè)更長(cháng)遠的發(fā)展前景。
第三階段叫做數據分析挖掘及海量數據高級處理技術(shù)。基礎部分有:PYTHON語(yǔ)言、機器學(xué)習算法、FLUME+KAFKA;進(jìn)階部分有:機器學(xué)習算法庫應用、實(shí)時(shí)分析計算框架、SPARK技術(shù)、PYTHON高級語(yǔ)言應用、分布式爬蟲(chóng)與反爬蟲(chóng)技術(shù)、實(shí)時(shí)分析項目實(shí)戰、機器學(xué)習算法項目實(shí)戰。
前言,學(xué)大數據要先換電腦:
保證電腦4核8G內存64位操作系統,盡量有ssd做系統盤(pán),否則卡到你喪失信心。硬盤(pán)越大越好。
1,語(yǔ)言要求
java剛入門(mén)的時(shí)候要求javase。
scala是學(xué)習spark要用的基本使用即可。
后期深入要求:
java NIO,netty,多線(xiàn)程,ClassLoader,jvm底層及調優(yōu)等,rpc。
2,操作系統要求
linux 基本的shell腳本的使用。
crontab的使用,最多。
cpu,內存,網(wǎng)絡(luò ),磁盤(pán)等瓶頸分析及狀態(tài)查看的工具。
scp,ssh,hosts的配置使用。
telnet,ping等網(wǎng)絡(luò )排查命令的使用
3,sql基本使用
sql是基礎,hive,sparksql等都需要用到,況且大部分企業(yè)也還是以數據倉庫為中心,少不了sql。
sql統計,排序,join,group等,然后就是sql語(yǔ)句調優(yōu),表設計等。
4,大數據基本了解
Zookeeper,hadoop,hbase,hive,sqoop,flume,kafka,spark,storm等這些框架的作用及基本環(huán)境的搭建,要熟練,要會(huì )運維,瓶頸分析。
5,mapreduce及相關(guān)框架hive,sqoop
深入了解mapreduce的核心思想。尤其是shuffle,join,文件輸入格式,map數目,reduce數目,調優(yōu)等。
6,hive和hbase等倉庫
hive和hbase基本是大數據倉庫的標配。要回用,懂調優(yōu),故障排查。
hbase看浪尖hbase系列文章。hive后期更新。
7,消息隊列的使用
kafka基本概念,使用,瓶頸分析。看浪尖kafka系列文章。
8,實(shí)時(shí)處理系統
storm和spark Streaming
9,spark core和sparksql
spark用于離線(xiàn)分析的兩個(gè)重要功能。
10,最終方向決策
a),運維。(精通整套系統及故障排查,會(huì )寫(xiě)運維腳本啥的。)
b),數據分析。(算法精通)
c),平臺開(kāi)發(fā)。(源碼精通)
自學(xué)還是培訓?
無(wú)基礎的同學(xué),培訓之前先搞到視頻通學(xué)一遍,防止盲目培訓跟不上講師節奏,浪費時(shí)間,精力,金錢(qián)。
有基礎的盡量搞點(diǎn)視頻學(xué)基礎,然后跟群里大牛交流,前提是人家愿意,
想辦法跟大牛做朋友才是王道。
學(xué)習要根據自身情況來(lái)定,如果你是零基礎,那就必須先從基礎Java開(kāi)始學(xué)起(大數據支持很多開(kāi)發(fā)語(yǔ)言,但企業(yè)用的最多的還是JAVA),接下來(lái)學(xué)習數據結構、Linux系統操作、關(guān)系型數據庫,夯實(shí)基礎之后,再進(jìn)入大數據的學(xué)習,具體可以按照如下體系:第一階段CORE JAVA (加**的需重點(diǎn)熟練掌握,其他掌握)Java基礎**數據類(lèi)型,運算符、循環(huán),算法,順序結構程序設計,程序結構,數組及多維數組面向對象**構造方法、控制符、封裝繼承**多態(tài)**抽象類(lèi)、接口**常用類(lèi)集合Collection、list**HashSet、TreeSet、Collection集合類(lèi)Map**異常,File文件/流**數據流和對象流**線(xiàn)程(理解即可)網(wǎng)絡(luò )通信(理解即可)第二階段數據結構關(guān)系型數據庫Linux系統操作Linux操作系統概述,安裝Linux操作系統,圖形界面操作基礎,Linux字符界面基礎,字符界面操作進(jìn)階,用戶(hù)、組群和權限管理,文件系統管理,軟件包管理與系統備份,Linux網(wǎng)絡(luò )配置 (主要掌握Linux操作系統的理論基礎和服務(wù)器配置實(shí)踐知識,同時(shí)通過(guò)大量實(shí)驗,著(zhù)重培養動(dòng)手能力。
了解Linux操作系統在行業(yè)中的重要地位和廣泛的使用范圍。在學(xué)習Linux的基礎上,加深對服務(wù)器操作系統的認識和實(shí)踐配置能力。
加深對計算機網(wǎng)絡(luò )基礎知識的理解,并在實(shí)踐中加以應用。掌握Linux操作系統的安裝、命令行操作、用戶(hù)管理、磁盤(pán)管理、文件系統管理、軟件包管理、進(jìn)程管理、系統監測和系統故障排除。
掌握Linux操作系統的網(wǎng)絡(luò )配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服務(wù)的配置與管理。為更深一步學(xué)習其它網(wǎng)絡(luò )操作系統和軟件系統開(kāi)發(fā)奠定堅實(shí)的基礎。
與此同時(shí),如果大家有時(shí)間把javaweb及框架學(xué)習一番,會(huì )讓你的大數據學(xué)習更自由一些)重點(diǎn)掌握:常見(jiàn)算法數據庫表設計,SQL語(yǔ)句,Linux常見(jiàn)命令第三階段Hadoop階段離線(xiàn)分析階段實(shí)時(shí)計算階段重點(diǎn)掌握:Hadoop基礎,HDFS,MapReduce,分布式集群,Hive,Hbase,Sqoop,Pig,Storm實(shí)時(shí)數據處理平臺,Spark平臺。
第一階段:linux基礎入門(mén)
Linux基礎入門(mén)主要包括: Linux硬件基礎、Linux發(fā)展歷史、Linux系統安裝、xshell連接、xshell優(yōu)化、SSH遠程連接故障問(wèn)題排查、L inux基礎優(yōu)化、Linux目錄結構知識、Linux文件屬性、Linux通配符、正則表達式、Linux系統權限等
第二階段:linux系統管理進(jìn)階
linux系統管理進(jìn)階包括:Linux定時(shí)任務(wù)、Linux用戶(hù)管理、Linux磁盤(pán)與文件系統、Linux三劍客之sed命令等。
第三階段:Linux Shell基礎
Linux Shell基礎包括:Shell編程基礎、Linux三劍客之a(chǎn)wk命令等。
第四階段:Linux網(wǎng)絡(luò )基礎
第五階段:Linux網(wǎng)絡(luò )服務(wù)
Linux網(wǎng)絡(luò )服務(wù)包括:集群實(shí)戰架構開(kāi)始及環(huán)境準備、rsync數據同步服務(wù)、Linux全網(wǎng)備份項目、nfs網(wǎng)絡(luò )存儲服務(wù)精講、inotify/sersync實(shí)時(shí)數據同步/nfs存儲實(shí)時(shí)備份項目等。
第六階段:Linux重要網(wǎng)絡(luò )服務(wù)
Linux重要網(wǎng)絡(luò )服務(wù)包括:http協(xié)議/www服務(wù)基礎、nginx web介紹及基礎實(shí)踐、nginx web、lnmp環(huán)境部署/數據庫異機遷移/共享數據異機遷移到NFS系統、nginx負載均衡、keepalived高可用等。
第七階段:Ansible自動(dòng)化運維與Zabbix監控
Ansible自動(dòng)化運維與Zabbix監控包括: SSH服務(wù)秘鑰認證、ansible批量自動(dòng)化管理集群、zabbix監控等。
第九階段:大規模集群高可用服務(wù)(Lvs、Keepalived)
第十階段:Java Tomcat服務(wù)及防火墻Iptables
第十一階段:MySQL DBA高級應用實(shí)踐
MySQL DBA高級應用實(shí)踐包括:MySQL數據庫入門(mén)基礎命令、MySQL數據庫進(jìn)階備份恢復、MySQL數據庫深入事務(wù)引擎、MySQL數據庫優(yōu)化SQL語(yǔ)句優(yōu)化、MySQL數據庫集群主從復制/讀寫(xiě)分離、MySQL數據庫高可用/mha/keepalved等。
第十二階段:高性能數據庫Redis和Memcached課程
第十三階段:Linux大規模集群架構構建(200臺)
第十四階段:Linux Shell編程企業(yè)案例實(shí)戰
第十五階段:企業(yè)級代碼發(fā)布上線(xiàn)方案(SVN和Git)
第十六階段企業(yè)級Kvm虛擬化與OpenStack云計算
第十七階段公有云阿里云8大組件構建集群實(shí)戰
第十八階段:Docker技術(shù)企業(yè)應用實(shí)踐
第十九階段:Python自動(dòng)化入門(mén)及進(jìn)階
第二十階段:職業(yè)規劃與高薪就業(yè)指導
在平臺方面,hadoop環(huán)境需要搭建在linux服務(wù)器上,首先需要了解Linux的基礎知識與命令;
開(kāi)發(fā)方面,hadoop首先是個(gè)提供大數據存儲的平臺,因此我們要使用其存儲功能,因此需要掌握其數據操作的api(scala api 或者 java api);其次是hadoop是大數據分析的數據源,熟悉對大數據的 分析/使用 方法(spark/map-reduce技術(shù),都有scala 和 java兩種api)。
因此,學(xué)習hadoop必須掌握scala或者java中的一門(mén)開(kāi)發(fā)語(yǔ)言,然后在學(xué)習hadoop數據操作命令,api,spark/map-reduce分析技術(shù)。
另外,還可以學(xué)習hbase這種基于hdfs的結構化大數據存儲技術(shù),和flume大數據采集技術(shù)。
學(xué)習大數據要有一定的編程基礎,這是大數據大部分崗位都需要的。
目前從事大數據方向的程序員比較普遍使用的語(yǔ)言有四種,分別是Python、Java、Scala和R,這四種語(yǔ)言都有一定的應用場(chǎng)景,不同崗位的程序員使用的語(yǔ)言也稍有不同。Python目前主要是應用在數據分析、數據挖掘和算法實(shí)現上,可以說(shuō)大數據領(lǐng)域Python的應用是比較普遍的。
Java目前在大數據領(lǐng)域的應用還是跟平臺有直接關(guān)系,通常在需要高性能的數據處理部分采用Java開(kāi)發(fā)。Scala和R主要是基于場(chǎng)景的應用多一些,Scala構建在Java基礎之上,代碼結構要比Java簡(jiǎn)潔一些,同時(shí)Scala是Spark的實(shí)現語(yǔ)言,在與Spark相關(guān)的開(kāi)發(fā)中使用Scala是比較方面的選擇。
R語(yǔ)言本身的特點(diǎn)就是統計分析,語(yǔ)法簡(jiǎn)單且功能強大,是做大數據統計分析的一把利器。
第一階段:linux基礎入門(mén)Linux基礎入門(mén)主要包括: Linux硬件基礎、Linux發(fā)展歷史、Linux系統安裝、xshell連接、xshell優(yōu)化、SSH遠程連接故障問(wèn)題排查、L inux基礎優(yōu)化、Linux目錄結構知識、Linux文件屬性、Linux通配符、正則表達式、Linux系統權限等第二階段:linux系統管理進(jìn)階linux系統管理進(jìn)階包括:Linux定時(shí)任務(wù)、Linux用戶(hù)管理、Linux磁盤(pán)與文件系統、Linux三劍客之sed命令等。
第三階段:Linux Shell基礎Linux Shell基礎包括:Shell編程基礎、Linux三劍客之a(chǎn)wk命令等。第四階段:Linux網(wǎng)絡(luò )基礎第五階段:Linux網(wǎng)絡(luò )服務(wù)Linux網(wǎng)絡(luò )服務(wù)包括:集群實(shí)戰架構開(kāi)始及環(huán)境準備、rsync數據同步服務(wù)、Linux全網(wǎng)備份項目、nfs網(wǎng)絡(luò )存儲服務(wù)精講、inotify/sersync實(shí)時(shí)數據同步/nfs存儲實(shí)時(shí)備份項目等。
第六階段:Linux重要網(wǎng)絡(luò )服務(wù)Linux重要網(wǎng)絡(luò )服務(wù)包括:http協(xié)議/www服務(wù)基礎、nginx web介紹及基礎實(shí)踐、nginx web、lnmp環(huán)境部署/數據庫異機遷移/共享數據異機遷移到NFS系統、nginx負載均衡、keepalived高可用等。第七階段:Ansible自動(dòng)化運維與Zabbix監控Ansible自動(dòng)化運維與Zabbix監控包括: SSH服務(wù)秘鑰認證、ansible批量自動(dòng)化管理集群、zabbix監控等。
第九階段:大規模集群高可用服務(wù)(Lvs、Keepalived)第十階段:Java Tomcat服務(wù)及防火墻Iptables第十一階段:MySQL DBA高級應用實(shí)踐MySQL DBA高級應用實(shí)踐包括:MySQL數據庫入門(mén)基礎命令、MySQL數據庫進(jìn)階備份恢復、MySQL數據庫深入事務(wù)引擎、MySQL數據庫優(yōu)化SQL語(yǔ)句優(yōu)化、MySQL數據庫集群主從復制/讀寫(xiě)分離、MySQL數據庫高可用/mha/keepalved等。第十二階段:高性能數據庫Redis和Memcached課程第十三階段:Linux大規模集群架構構建(200臺)第十四階段:Linux Shell編程企業(yè)案例實(shí)戰第十五階段:企業(yè)級代碼發(fā)布上線(xiàn)方案(SVN和Git)第十六階段企業(yè)級Kvm虛擬化與OpenStack云計算第十七階段公有云阿里云8大組件構建集群實(shí)戰第十八階段:Docker技術(shù)企業(yè)應用實(shí)踐第十九階段:Python自動(dòng)化入門(mén)及進(jìn)階第二十階段:職業(yè)規劃與高薪就業(yè)指導。
Linux是一種自由和開(kāi)放源代碼的類(lèi)Unix操作系統,以Unix為原型改造的,一個(gè)多用戶(hù)多任務(wù)的操作系統,任何人都可以修改其代碼和頁(yè)面,主要的目的就是為了不收商業(yè)化的限制,服務(wù)器部署在linux系統上會(huì )更加高效穩定、安全。
嚴格來(lái)講,Linux只是操作系統內核本身,但通常采用“Linux內核”來(lái)表達該意思。而Linux則常用來(lái)指基于Linux內核的完整操作系統,它包括GUI組件和許多其他實(shí)用工具。
云計算、大數據的發(fā)展是基于開(kāi)源軟件的平臺,Linux占據優(yōu)勢, 大數據的分布式集群( Hadoop,Spark )都是搭建在多臺 Linux 系統上,對集群的執行命令都是在 Linux 終端窗口輸入的。
大數據也是產(chǎn)業(yè)互聯(lián)網(wǎng)重要的技術(shù)組成部分,而且大數據自身的產(chǎn)業(yè)生態(tài)規模也比較大,涉及到的崗位類(lèi)型也比較多,包括數據采集、數據整理(清洗、歸并)、數據存儲、數據安全、數據分析、數據呈現、數據應用等,這些崗位也需要各種不同類(lèi)型的人才。如果對于數據比較敏感,同時(shí)具有一定的數學(xué)基礎,那么選擇大數據方向也完全可以
以上就是我的回答,希望對你有所幫助
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:3.397秒