如果是掌握hadoop的使用,java基礎好就可以,看看hadoop權威指南。
想深入學(xué)習源碼的話(huà),就需要些網(wǎng)絡(luò )編程的知識了。具體步驟:1.選擇一個(gè)Hadoop的版本,然后閱讀文檔了解Hadoop:What's Hadoop, Why Hadoop exists;2.安裝Hadoop,三種方式都試下;3.在Hadoop文檔里面有Hadoop Command的資料,I.hdfs command,盡量試試這兩方面的命令;4.Hadoop Files,看看Hadoop文件的概念,關(guān)注它的分布式特點(diǎn),然后看Reduce函數輸出文件;5.自己寫(xiě)WordCount與Advanced WordCount;6.寫(xiě)Sort程序;7.使用RandomTextWriter;8.模仿、、寫(xiě)自己的;9.yahoo有一個(gè)Hadoop的教程,英文版的,里面的內容很好;10.《hadoop權威指南》當參考書(shū),自己就可以實(shí)戰了。
如果是掌握hadoop的使用,java基礎好就可以,看看hadoop權威指南。
想深入學(xué)習源碼的話(huà),就需要些網(wǎng)絡(luò )編程的知識了。
具體步驟:
1.選擇一個(gè)Hadoop的版本,然后閱讀文檔了解Hadoop:What's Hadoop, Why Hadoop exists;
2.安裝Hadoop,三種方式都試下;
3.在Hadoop文檔里面有Hadoop Command的資料,I.hdfs command,盡量試試這兩方面的命令;
4.Hadoop Files,看看Hadoop文件的概念,關(guān)注它的分布式特點(diǎn),然后看Reduce函數輸出文件;
5.自己寫(xiě)WordCount與Advanced WordCount;
6.寫(xiě)Sort程序;
7.使用RandomTextWriter;
8.模仿、、寫(xiě)自己的;
9.yahoo有一個(gè)Hadoop的教程,英文版的,里面的內容很好;
10.《hadoop權威指南》當參考書(shū),自己就可以實(shí)戰了!
在平臺方面,hadoop環(huán)境需要搭建在linux服務(wù)器上,首先需要了解Linux的基礎知識與命令;
開(kāi)發(fā)方面,hadoop首先是個(gè)提供大數據存儲的平臺,因此我們要使用其存儲功能,因此需要掌握其數據操作的api(scala api 或者 java api);其次是hadoop是大數據分析的數據源,熟悉對大數據的 分析/使用 方法(spark/map-reduce技術(shù),都有scala 和 java兩種api)。
因此,學(xué)習hadoop必須掌握scala或者java中的一門(mén)開(kāi)發(fā)語(yǔ)言,然后在學(xué)習hadoop數據操作命令,api,spark/map-reduce分析技術(shù)。
另外,還可以學(xué)習hbase這種基于hdfs的結構化大數據存儲技術(shù),和flume大數據采集技術(shù)。
HBase – Hadoop Database,是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術(shù)可在廉價(jià)PC Server上搭建起大規模結構化存儲集群。
HBase是Google Bigtable的開(kāi)源實(shí)現,類(lèi)似Google Bigtable利用GFS作為其文件存儲系統,HBase利用Hadoop HDFS作為其文件存儲系統;Google運行MapReduce來(lái)處理Bigtable中的海量數據,HBase同樣利用Hadoop MapReduce來(lái)處理HBase中的海量數據;Google Bigtable利用 Chubby作為協(xié)同服務(wù),HBase利用Zookeeper作為對應。 [1] 上圖描述了Hadoop EcoSystem中的各層系統,其中HBase位于結構化存儲層,Hadoop HDFS為HBase提供了高可靠性的底層存儲支持,Hadoop MapReduce為HBase提供了高性能的計算能力,Zookeeper為HBase提供了穩定服務(wù)和failover機制。
此外,Pig和Hive還為HBase提供了高層語(yǔ)言支持,使得在HBase上進(jìn)行數據統計處理變的非常簡(jiǎn)單。 Sqoop則為HBase提供了方便的RDBMS數據導入功能,使得傳統數據庫數據向HBase中遷移變的非常方便。
在平臺方面,hadoop環(huán)境需要搭建在linux服務(wù)器上,首先需要了解Linux的基礎知識與命令;開(kāi)發(fā)方面,hadoop首先是個(gè)提供大數據存儲的平臺,因此我們要使用其存儲功能,因此需要掌握其數據操作的api(scala api 或者 java api);其次是hadoop是大數據分析的數據源,熟悉對大數據的 分析/使用 方法(spark/map-reduce技術(shù),都有scala 和 java兩種api)。
因此,學(xué)習hadoop必須掌握scala或者java中的一門(mén)開(kāi)發(fā)語(yǔ)言,然后在學(xué)習hadoop數據操作命令,api,spark/map-reduce分析技術(shù)。另外,還可以學(xué)習hbase這種基于hdfs的結構化大數據存儲技術(shù),和flume大數據采集技術(shù)。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:3.888秒