Hadoop分布式辦理框架

【簡介】Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。
1、講解下啥子是Apache基金會?
答:Apache軟件基金會(也就是Apache Software Foundation,略稱為ASF),是專門為支持開源軟件項目而辦的一個非贏利性幫會。在它所支持的Apache項目與子項目中,所發行的軟件產品都遵循Apache允許證(Apache License)。
【效用】
Hadoop實行了一個分布式文件系統HDFS。HDFS有高容錯性的特點,而且設計用來部署在低價的硬件上,而且它提供高吞吐量來過訪應用手續數據,適應超大數據集的應用手續。
Hadoop的框架嘴和新的設計師:HDFS(海量數據存儲)和MapReduce(為海量數據存儲提供計算)。
Hadoop分布式辦理框架
Hadoop分布式辦理框架
【核心】
①Hadoop最底部是HDFS,它存儲Hadoop集群中所有階段上的文件。
②HDFS的上一層是MapReduce,由job 和task組成。
③經過HDFS和MapReduce辦理過程,以及數據倉庫工具Hive和分布式數據庫Hbase。
2、講解下HDFS?
答:對於外部客戶機而言,HDFS像傳統的分級文件系統,可以開創、刪除、移動或重命名文件等。Hadoop分布式辦理框架
HDFS的架構基於一組特定的節點構建的,這些節點涵蓋 :
NameNode(僅一個),它在 HDFS 內部提供元數據服務,是一個通常在 HDFS 范例中的單獨機器上運行的軟件,掌管文件系統名稱空間和扼制外部客戶機的過訪。它表決是否將恩建映射到同一架構的不一樣節點上。
DataNode,它為 HDFS 提供存儲塊。存儲在其中的文件被分成塊,而後將這些塊復制到多個計算機中(DataNode)。內部所有的通信都基於標准TCP/IP協議。DataNode也是一個通常在HDFS范例中單獨機器上運行的軟件。Hadoop集群包含一個NameNode和大量的DataNode。DataNode以機架的儀式幫會,機架經過一個交換機將所有的系統連署起來。
Hadoop分布式辦理框架
3、講解一下,利用HDFS施行文件操作?
答:
①HDFS並不是一個萬能的文件系統,它主要目標是以流的儀式過訪寫入的大型文件。
②假如客戶機將文件寫入到HDFS上,首先需要將文件緩存到本地的臨時存儲位置。
③假如緩存的數據大於所需的HDFS塊體積,開創文件的煩請將發送給NameNode。NameNode將以DataNode標識和目標塊響應客戶機。
④同時也報信即將保管文件塊副本的DataNode。當客戶機起始臨時文件發送給第一個DataNode時,將迅即經過管道形式將塊內容轉發給副本DataNode。
⑤客戶機負責開創保管相同HDFS名稱空間的校驗和文件。在最終的文件塊發送然後,NameNode將文件開創提交到它的持久化元數據存儲。
4、Hadoop在實際中的而應用?
答:Hadoop技術廣泛應用於互聯網,如雅虎使役4000個節點的Hadoop集群來支持廣告系統和web搜索;
Facebook使役1000個節點的Hadoop集群來存儲日式,支持數據剖析和機器學習;
百度用Hadoop辦理每周200Tb的數據,從而施行搜索日記剖析和網頁數據開鑿;
淘寶的Hadoop系統用於存儲並辦理電子商務交易相關的數據。
5、MapReduce與Hadoop比較?
答:
Hadoop是一種分布式數據和計算的框架。它很拿手存儲大量的半結構化的數據集。數據可以隨機儲存,所以一個磁盤的敗績並不會帶來數據亡失。Hadoop也十分拿手分布式計算——快速地跨多臺機器辦理大型數據聚齊 。
MapReduce是辦理大量半結構化數據聚齊的編程板型。編程板型是一種辦理並結構化特定問題的形式。
6、HDFS基本原理是啥子?
答:
①HDFS存儲數據時,先將數據切成塊,並為塊分配一個有序編號;
②施行數據備案;
③將復制的備案放在不一樣的DataNode中;
④當DataNode宕機時,NameNode獎DataNode上儲存的副本復制;
⑤從而使NameNode保持對DataNode的管理(是心動【節點面貌】啊,糟糕眼神【節點存儲的數據】躲不掉,對你莫名的心跳);


發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *