hadoop的分布式文件系統操作 hdfs文件系統

大數據需要學習的框架有很多,而Hadoop作為大數據開發的核心模塊,就需要多加了解 。HDFS是基于Java的分布式文件系統,對于理解Hadoop分布式文件系統很有幫助,今天我們就一起來深入解析大數據Hadoop中的HDFS 。

hadoop的分布式文件系統操作 hdfs文件系統

文章插圖
一、什么是HDFS?
HDFS負責數據文件的存儲,為整個Hadoop生態圈提供了基礎的存儲服務 。提供了一個低成本、高性能、高容錯、高可靠的分布式文件系統 。
HDFS是一個主/從(Master/Slave)體系架構,由于分布式存儲的性質,集群擁有兩類節點NameNode和DataNode 。NameNode(名字節點):系統中通常只有一個,中心服務器的角色,管理存儲和檢索多個DataNode的實際數據所需的所有元數據 。
【hadoop的分布式文件系統操作 hdfs文件系統】二、HDFS的特點
1、低成本:搭建HDFS主要是通過橫向擴展機器數量而非花高價錢購進昂貴的服務器 。
2、高性能:處理大型任務上集群處理效率,多臺機器分塊并行處理要比單臺機器串行處理要快很多
3、高容錯:數據自動保存多個副本 。它通過增加副本的形式,提高容錯性 。數據自動保存多個副本,副本丟失后,自動恢復 。
4、高可靠:HDFS解決了單點問題,HDFS集群中心節點是非常重要的,如果中心節點宕機整個集群將無法使用,所以中心節點NameNode會有主要節點(Primary)和備份節點(Stand By) 。如果Primary出現問題Stand By可以自動接替Primary工作 。
三、HDFS如何存儲數據?
HDFS 采用Master/Slave的架構來存儲數據,這種架構主要由四個部分組成,分別為HDFS Client(客戶端)、NameNode(主管、管理者)、DataNode(slave)和Secondary NameNode 。可以看看下面這張圖:
以上就是關于HDFS的部份解析了,希望對大家能有多幫助 。HDFS作為Hadoop主要的核心,在數據存儲方面為我們提供了保證,是非常優秀的分布式文件系統 。如果想了解更多詳情,請點擊成都加米谷大數據官網吧!

    推薦閱讀