91精品国产手机在线-白筒袜嫩萝双腿之间乳白液体-青青操手机在线视频观看-日本中文字幕人妻日韩-日韩精品在线观看视频网站-天堂资源中文最新版在线一区-欧美专区一区二区三区-国产综合亚洲欧美在线-国产精品久久久久久福利69堂

簡述什么是hadoop hadoop是什么

大數(shù)據(jù)簡介:
大數(shù)據(jù)是指通過全球各種平臺產(chǎn)生的所有數(shù)據(jù) 。
大數(shù)據(jù)類別:
結(jié)構(gòu)化的非結(jié)構(gòu)化半結(jié)構(gòu)化
大數(shù)據(jù)的例子:
1)紐約證券交易所每天產(chǎn)生大約1TB的新交易數(shù)據(jù) 。
2)社交媒體:統(tǒng)計(jì)數(shù)據(jù)顯示 , 每天有超過500 TB的數(shù)據(jù)被攝入社交媒體網(wǎng)站臉書的數(shù)據(jù)庫 。
【簡述什么是hadoop hadoop是什么】數(shù)據(jù)主要根據(jù)以下幾個(gè)方面生成:
照片和視頻上傳信息交流注釋
3)噴氣發(fā)動(dòng)機(jī)/旅游門戶:
恩格爾噴氣發(fā)動(dòng)機(jī)產(chǎn)生10兆(TB是每天飛行30分鐘的數(shù)據(jù)) 。數(shù)據(jù)的生成量高達(dá)幾PB(PB) 。
Hadoop是什么?
Hadoop是由Apache So深圳生活網(wǎng)的ftware Foundation管理的開源框架 。開源是指免費(fèi)提供 , 其源代碼可以根據(jù)用戶要求更改 。Apache Hadoop旨在有效存儲和處理大數(shù)據(jù) 。Hadoop用于數(shù)據(jù)存儲、處理、分析、訪問、治理、運(yùn)營和安全 。
擁有大量數(shù)據(jù)的大型組織使用Hadoop , 并在大型商業(yè)硬件集群的幫助下進(jìn)行處理 。集群是指一組通過局域網(wǎng)連接的系統(tǒng) , 集群上的多個(gè)節(jié)點(diǎn)幫助執(zhí)行Hadoop作業(yè) 。Hadoop在管理大數(shù)據(jù)方面已經(jīng)風(fēng)靡全球 , 目前已經(jīng)占據(jù)了近90%的市場份額 。
Hadoop的功能
經(jīng)濟(jì)高效:Hadoop系統(tǒng)非常經(jīng)濟(jì)高效 , 因?yàn)樗恍枰魏螌S糜布?nbsp;, 因此投資少 。對于系統(tǒng)而言 , 使用稱為商品硬件的簡單硬件就足夠了 。支持大型節(jié)點(diǎn)集群:Hadoop結(jié)構(gòu)可以由構(gòu)成大型集群的數(shù)千個(gè)節(jié)點(diǎn)組成 。大型集群有助于擴(kuò)展存儲系統(tǒng)并提供更多的計(jì)算能力 。數(shù)據(jù)的并行處理:Hadoop系統(tǒng)支持跨集群中所有節(jié)點(diǎn)的數(shù)據(jù)并行處理 , 因此減少了存儲和處理時(shí)間 。數(shù)據(jù)分配(分布式處理):Hadoop可以在集群中的所有節(jié)點(diǎn)之間高效地分配數(shù)據(jù) 。此外 , 如果特定節(jié)點(diǎn)正忙或無法運(yùn)行 , 它會(huì)在整個(gè)群集上復(fù)制數(shù)據(jù)以便檢索其他節(jié)點(diǎn)的數(shù)據(jù) 。自動(dòng)故障轉(zhuǎn)移管理(容錯(cuò)):Hadoop的一個(gè)重要功能是 , 如果群集中的節(jié)點(diǎn)發(fā)生故障 , 它可以自動(dòng)解決問題 。框架本身將故障系統(tǒng)替換為另一個(gè)系統(tǒng) , 并在新計(jì)算機(jī)上配置復(fù)制的設(shè)置和數(shù)據(jù) 。支持異構(gòu)群集:異構(gòu)群集是一種用于說明來自不同供應(yīng)商 , 不同操作系統(tǒng) , 并在不同版本上運(yùn)行的節(jié)點(diǎn)或計(jì)算機(jī)的群集 。例如 , 如果Hadoop集群具有三個(gè)系統(tǒng) , 一個(gè)在RHEL Linux上運(yùn)行的Lenovo計(jì)算機(jī) , 第二個(gè)是在Ubuntu Linux上運(yùn)行的Intel計(jì)算機(jī) , 第三個(gè)是在Fedora Linux上運(yùn)行的AMD計(jì)算機(jī) , 則所有這些不同的系統(tǒng)都能夠同時(shí)運(yùn)行在單個(gè)群集上運(yùn)行 。可伸縮性:Hadoop系統(tǒng)具有從群集中添加或刪除節(jié)點(diǎn)/節(jié)點(diǎn)和硬件組件的能力 , 而不會(huì)影響群集的操作 。這是指可擴(kuò)展性 , 這是Hadoop系統(tǒng)的重要功能之一 。
Hadoop生態(tài)系統(tǒng)概述
包括:
HDFS(Hadoop分布式文件系統(tǒng))Apache MapReduceApache PigApache HBaseApache HiveApache SqoopApache FlumeApache ZookeeperApache kafkaApache Oozie
HDFS(Hadoop分布式文件系統(tǒng)):HDFS執(zhí)行Hadoop框架中最重要的工作 。它同時(shí)分發(fā)數(shù)據(jù)并將其存儲在集群中的每個(gè)節(jié)點(diǎn)上 。這個(gè)過程減少了在磁盤上存儲數(shù)據(jù)的總時(shí)間 。
MapReduce(將大數(shù)據(jù)集讀入Hadoop/使用MR從Hadoop中寫入大數(shù)據(jù)集):Hadoop MapReduce是系統(tǒng)的另一個(gè)重要部分 , 它處理存儲在集群中的大量數(shù)據(jù) 。它允許并行處理HDFS存儲的所有數(shù)據(jù) 。而且通過集群中的大規(guī)模可擴(kuò)展性解決了處理成本高的問題 。
Apache Pig (Pig是Hadoop生態(tài)系統(tǒng)的ETL):是一種高級腳本語言 , 用于編寫Hadoop集群中大型數(shù)據(jù)集的數(shù)據(jù)分析程序 。Pig使開發(fā)人員能夠生成查詢執(zhí)行例程來分析大型數(shù)據(jù)集 。腳本語言叫豬拉丁 , p一個(gè)深圳生活網(wǎng)ig的關(guān)鍵部分 , 第二個(gè)關(guān)鍵部分是編譯器 。
Apache HBase(OLTP/NoSQL)來源:這是一個(gè)面向列的數(shù)據(jù)庫 , 支持實(shí)時(shí)運(yùn)行HDFS 。它可以處理大型數(shù)據(jù)庫表 , 即包含數(shù)百萬行和列的文件 。HBase的一個(gè)重要目的就是有效利用主節(jié)點(diǎn)管理區(qū)域服務(wù)器 。
Apache Hive(Hive是Hadoop上的SQL引擎):Hive允許通過類似于SQL的接口對HDFS的數(shù)據(jù)進(jìn)行平方 。SQL語言的Hive版本叫做HiveQL 。
Apache Sqoop(從RDBMS [SQL Source]到Hadoop的數(shù)據(jù)導(dǎo)入/導(dǎo)出):它是一個(gè)應(yīng)用程序 , 可以幫助從Hadoop向其他關(guān)系數(shù)據(jù)庫管理系統(tǒng)導(dǎo)入和導(dǎo)出數(shù)據(jù) 。它可以傳輸大量數(shù)據(jù) 。Sqoop基于連接器架構(gòu) , 支持插件與新的外部系統(tǒng)建立連接 。
Apache Flume(從非結(jié)構(gòu)化數(shù)據(jù)(社交媒體網(wǎng)站)導(dǎo)入數(shù)據(jù)/構(gòu)建到Hadoop的數(shù)據(jù)):這是深圳生活網(wǎng)的一個(gè)應(yīng)用程序 , 允許流式數(shù)據(jù)存儲在Hadoop集群中 。例如 , 將數(shù)據(jù)寫入日志文件就是流式數(shù)據(jù)的一個(gè)很好的例子 。
Apache Zookeeper(集群環(huán)境中使用的協(xié)調(diào)工具):它的作用是管理上述應(yīng)用之間的協(xié)調(diào) , 使它們能夠在Hadoop生態(tài)系統(tǒng)中高效運(yùn)行 。
Hadoop的特性–HDFS守護(hù)進(jìn)程
Hadoop系統(tǒng)基于主從架構(gòu)原理工作 。
名稱:它是主節(jié)點(diǎn) , 是單個(gè)實(shí)體 。它負(fù)責(zé)存儲HDFS元數(shù)據(jù) , 該元數(shù)據(jù)跟蹤存儲在HDFS的所有文件 。存儲在元數(shù)據(jù)上的信息類似于文件名、文件的權(quán)限、文件的授權(quán)用戶和文件的存儲位置 。這些信息存儲在RAM中 , 通常稱為文件系統(tǒng)元數(shù)據(jù) 。
數(shù)據(jù)節(jié)點(diǎn):是從節(jié)點(diǎn) , 有多個(gè)號 。數(shù)據(jù)節(jié)點(diǎn)負(fù)責(zé)根據(jù)名稱節(jié)點(diǎn)的指令存儲和檢索數(shù)據(jù) 。數(shù)據(jù)節(jié)點(diǎn)會(huì)間歇性地向名稱節(jié)點(diǎn)報(bào)告其當(dāng)前狀態(tài)以及存儲的所有文件 。數(shù)據(jù)節(jié)點(diǎn)在其中存儲每個(gè)文件的多個(gè)副本 。
次名節(jié)點(diǎn):次名節(jié)點(diǎn)的存在是為了支持主名節(jié)點(diǎn)存儲元數(shù)據(jù) 。當(dāng)名稱節(jié)點(diǎn)由于元數(shù)據(jù)損壞或任何其他原因出現(xiàn)故障時(shí) , 輔助名稱節(jié)點(diǎn)可以防止整個(gè)集群出現(xiàn)故障 。
輔助名稱節(jié)點(diǎn)指示名稱節(jié)點(diǎn)創(chuàng)建并發(fā)送fsimage和editlog文件 , 然后輔助名稱節(jié)點(diǎn)創(chuàng)建壓縮的fsimage文件 。然后 , 將壓縮文件傳輸回tge name節(jié)點(diǎn) , 并對其進(jìn)行重命名 。這個(gè)過程每小時(shí)重復(fù)一次 , 或者在editlog文件的大小超過64MB時(shí)重復(fù)一次 。

    推薦閱讀