簡述什么是hadoop hadoop是什么

大數(shù)據(jù)簡介:
大數(shù)據(jù)是指通過全球各種平臺產(chǎn)生的所有數(shù)據(jù) 。
大數(shù)據(jù)類別:
結(jié)構(gòu)化的非結(jié)構(gòu)化半結(jié)構(gòu)化
大數(shù)據(jù)的例子:
1)紐約證券交易所每天產(chǎn)生大約1TB的新交易數(shù)據(jù) 。
2)社交媒體:統(tǒng)計(jì)數(shù)據(jù)顯示，每天有超過500 TB的數(shù)據(jù)被攝入社交媒體網(wǎng)站臉書的數(shù)據(jù)庫。
【簡述什么是hadoop hadoop是什么】數(shù)據(jù)主要根據(jù)以下幾個(gè)方面生成:
照片和視頻上傳信息交流注釋
3)噴氣發(fā)動(dòng)機(jī)/旅游門戶:
恩格爾噴氣發(fā)動(dòng)機(jī)產(chǎn)生10兆(TB是每天飛行30分鐘的數(shù)據(jù)) 。數(shù)據(jù)的生成量高達(dá)幾PB(PB) 。
Hadoop是什么？
Hadoop是由Apache So深圳生活網(wǎng)的ftware Foundation管理的開源框架。開源是指免費(fèi)提供，其源代碼可以根據(jù)用戶要求更改。Apache Hadoop旨在有效存儲和處理大數(shù)據(jù) 。Hadoop用于數(shù)據(jù)存儲、處理、分析、訪問、治理、運(yùn)營和安全。
擁有大量數(shù)據(jù)的大型組織使用Hadoop ，并在大型商業(yè)硬件集群的幫助下進(jìn)行處理。集群是指一組通過局域網(wǎng)連接的系統(tǒng) ，集群上的多個(gè)節(jié)點(diǎn)幫助執(zhí)行Hadoop作業(yè) 。Hadoop在管理大數(shù)據(jù)方面已經(jīng)風(fēng)靡全球，目前已經(jīng)占據(jù)了近90%的市場份額。
Hadoop的功能
經(jīng)濟(jì)高效：Hadoop系統(tǒng)非常經(jīng)濟(jì)高效，因?yàn)樗恍枰魏螌Ｓ糜布?nbsp;，因此投資少。對于系統(tǒng)而言，使用稱為商品硬件的簡單硬件就足夠了。支持大型節(jié)點(diǎn)集群：Hadoop結(jié)構(gòu)可以由構(gòu)成大型集群的數(shù)千個(gè)節(jié)點(diǎn)組成。大型集群有助于擴(kuò)展存儲系統(tǒng)并提供更多的計(jì)算能力。數(shù)據(jù)的并行處理：Hadoop系統(tǒng)支持跨集群中所有節(jié)點(diǎn)的數(shù)據(jù)并行處理，因此減少了存儲和處理時(shí)間。數(shù)據(jù)分配（分布式處理）：Hadoop可以在集群中的所有節(jié)點(diǎn)之間高效地分配數(shù)據(jù) 。此外，如果特定節(jié)點(diǎn)正忙或無法運(yùn)行，它會(huì)在整個(gè)群集上復(fù)制數(shù)據(jù)以便檢索其他節(jié)點(diǎn)的數(shù)據(jù) 。自動(dòng)故障轉(zhuǎn)移管理（容錯(cuò)）：Hadoop的一個(gè)重要功能是，如果群集中的節(jié)點(diǎn)發(fā)生故障，它可以自動(dòng)解決問題。框架本身將故障系統(tǒng)替換為另一個(gè)系統(tǒng) ，并在新計(jì)算機(jī)上配置復(fù)制的設(shè)置和數(shù)據(jù) 。支持異構(gòu)群集：異構(gòu)群集是一種用于說明來自不同供應(yīng)商，不同操作系統(tǒng) ，并在不同版本上運(yùn)行的節(jié)點(diǎn)或計(jì)算機(jī)的群集。例如，如果Hadoop集群具有三個(gè)系統(tǒng) ，一個(gè)在RHEL Linux上運(yùn)行的Lenovo計(jì)算機(jī) ，第二個(gè)是在Ubuntu Linux上運(yùn)行的Intel計(jì)算機(jī) ，第三個(gè)是在Fedora Linux上運(yùn)行的AMD計(jì)算機(jī) ，則所有這些不同的系統(tǒng)都能夠同時(shí)運(yùn)行在單個(gè)群集上運(yùn)行。可伸縮性：Hadoop系統(tǒng)具有從群集中添加或刪除節(jié)點(diǎn)/節(jié)點(diǎn)和硬件組件的能力，而不會(huì)影響群集的操作。這是指可擴(kuò)展性，這是Hadoop系統(tǒng)的重要功能之一。
Hadoop生態(tài)系統(tǒng)概述
包括:
HDFS（Hadoop分布式文件系統(tǒng)）Apache MapReduceApache PigApache HBaseApache HiveApache SqoopApache FlumeApache ZookeeperApache kafkaApache Oozie
HDFS(Hadoop分布式文件系統(tǒng)):HDFS執(zhí)行Hadoop框架中最重要的工作。它同時(shí)分發(fā)數(shù)據(jù)并將其存儲在集群中的每個(gè)節(jié)點(diǎn)上。這個(gè)過程減少了在磁盤上存儲數(shù)據(jù)的總時(shí)間。
MapReduce(將大數(shù)據(jù)集讀入Hadoop/使用MR從Hadoop中寫入大數(shù)據(jù)集):Hadoop MapReduce是系統(tǒng)的另一個(gè)重要部分，它處理存儲在集群中的大量數(shù)據(jù) 。它允許并行處理HDFS存儲的所有數(shù)據(jù) 。而且通過集群中的大規(guī)模可擴(kuò)展性解決了處理成本高的問題。
Apache Pig (Pig是Hadoop生態(tài)系統(tǒng)的ETL):是一種高級腳本語言，用于編寫Hadoop集群中大型數(shù)據(jù)集的數(shù)據(jù)分析程序。Pig使開發(fā)人員能夠生成查詢執(zhí)行例程來分析大型數(shù)據(jù)集。腳本語言叫豬拉丁， p一個(gè)深圳生活網(wǎng)ig的關(guān)鍵部分，第二個(gè)關(guān)鍵部分是編譯器。
Apache HBase(OLTP/NoSQL)來源:這是一個(gè)面向列的數(shù)據(jù)庫，支持實(shí)時(shí)運(yùn)行HDFS 。它可以處理大型數(shù)據(jù)庫表，即包含數(shù)百萬行和列的文件。HBase的一個(gè)重要目的就是有效利用主節(jié)點(diǎn)管理區(qū)域服務(wù)器。
Apache Hive(Hive是Hadoop上的SQL引擎):Hive允許通過類似于SQL的接口對HDFS的數(shù)據(jù)進(jìn)行平方。SQL語言的Hive版本叫做HiveQL 。
Apache Sqoop(從RDBMS [SQL Source]到Hadoop的數(shù)據(jù)導(dǎo)入/導(dǎo)出):它是一個(gè)應(yīng)用程序，可以幫助從Hadoop向其他關(guān)系數(shù)據(jù)庫管理系統(tǒng)導(dǎo)入和導(dǎo)出數(shù)據(jù) 。它可以傳輸大量數(shù)據(jù) 。Sqoop基于連接器架構(gòu) ，支持插件與新的外部系統(tǒng)建立連接。
Apache Flume(從非結(jié)構(gòu)化數(shù)據(jù)(社交媒體網(wǎng)站)導(dǎo)入數(shù)據(jù)/構(gòu)建到Hadoop的數(shù)據(jù)):這是深圳生活網(wǎng)的一個(gè)應(yīng)用程序，允許流式數(shù)據(jù)存儲在Hadoop集群中。例如，將數(shù)據(jù)寫入日志文件就是流式數(shù)據(jù)的一個(gè)很好的例子。
Apache Zookeeper(集群環(huán)境中使用的協(xié)調(diào)工具):它的作用是管理上述應(yīng)用之間的協(xié)調(diào) ，使它們能夠在Hadoop生態(tài)系統(tǒng)中高效運(yùn)行。
Hadoop的特性–HDFS守護(hù)進(jìn)程
Hadoop系統(tǒng)基于主從架構(gòu)原理工作。
名稱:它是主節(jié)點(diǎn) ，是單個(gè)實(shí)體。它負(fù)責(zé)存儲HDFS元數(shù)據(jù) ，該元數(shù)據(jù)跟蹤存儲在HDFS的所有文件。存儲在元數(shù)據(jù)上的信息類似于文件名、文件的權(quán)限、文件的授權(quán)用戶和文件的存儲位置。這些信息存儲在RAM中，通常稱為文件系統(tǒng)元數(shù)據(jù) 。
數(shù)據(jù)節(jié)點(diǎn):是從節(jié)點(diǎn) ，有多個(gè)號。數(shù)據(jù)節(jié)點(diǎn)負(fù)責(zé)根據(jù)名稱節(jié)點(diǎn)的指令存儲和檢索數(shù)據(jù) 。數(shù)據(jù)節(jié)點(diǎn)會(huì)間歇性地向名稱節(jié)點(diǎn)報(bào)告其當(dāng)前狀態(tài)以及存儲的所有文件。數(shù)據(jù)節(jié)點(diǎn)在其中存儲每個(gè)文件的多個(gè)副本。
次名節(jié)點(diǎn):次名節(jié)點(diǎn)的存在是為了支持主名節(jié)點(diǎn)存儲元數(shù)據(jù) 。當(dāng)名稱節(jié)點(diǎn)由于元數(shù)據(jù)損壞或任何其他原因出現(xiàn)故障時(shí) ，輔助名稱節(jié)點(diǎn)可以防止整個(gè)集群出現(xiàn)故障。
輔助名稱節(jié)點(diǎn)指示名稱節(jié)點(diǎn)創(chuàng)建并發(fā)送fsimage和editlog文件，然后輔助名稱節(jié)點(diǎn)創(chuàng)建壓縮的fsimage文件。然后，將壓縮文件傳輸回tge name節(jié)點(diǎn) ，并對其進(jìn)行重命名。這個(gè)過程每小時(shí)重復(fù)一次，或者在editlog文件的大小超過64MB時(shí)重復(fù)一次。

簡述什么是hadoop hadoop是什么

推薦閱讀

如何找尋自我

縫紉機(jī)調(diào)線器怎么安裝平車方法如何

強(qiáng)組詞強(qiáng)字組詞

火筍雞翅的做法（增肥食譜）

閨女生日快樂祝福語朋友圈

LV請來潮牌設(shè)計(jì)師做藝術(shù)總監(jiān)，看中的是啥

老虎豆怎么做好吃老虎豆圖片怎樣弄來吃

暖氣有流水聲是什么原因

皮球是什么體

手機(jī)怎樣開通QQ空間

男生發(fā)mua說明 mua是什么意思

手指蓋凹陷怎么回事

對自己的生活失去掌控咋調(diào)整

小米10s怎么沒有月亮模式

我想找個(gè)偏僻的地方搞養(yǎng)殖！有沒有推薦的地方？

南京養(yǎng)老金認(rèn)證上門服務(wù)怎么申請南京市養(yǎng)老金認(rèn)證

如何評價(jià)豬場閹割豬？

最后一個(gè)字是豹的成語

泰山散酒怎么樣

貓發(fā)情的聲音(貓發(fā)情的叫聲)