
大數據入門學習知識點匯總
一、大數據究竟指的是什么?
大數據是指在一定時間內無法用常規軟件工具對其內容進行抓取、管理和處理的數據集合。
二、適用于大數據的技術有哪些?
1、數據挖掘;
2、分布式文件系統;
3、大規模并行處理(MPP)數據庫;
4、分布式數據庫;
5、云計算平臺;
6、互聯網和可擴展的存儲系統;
三、大數據組件
大數據的組件有很多,且隨著時間的推移有些組件不再流行,我這里不能一一列舉,只列舉一些常見的組件:
Hadoop:一種分布式系統基礎架構包含Hdfs、MapReduce、Yarn三大組件;
Hadoop-Hdfs:一種分布式文件系統,具有高容錯、高伸縮的特點;
Hadoop-MapReduce:一種分布式編程模型,是基于Yarn的大數據并行處理系統;
Hadoop-Yarn:是一種用于作業調度和集群資源管理的框架;
Hive:一種基于Hadoop的數據倉庫系統,它實現了使用類SQL的查詢語言,能夠方便地進行數據匯總、特定查詢和分析文件系統中的大數據,在大數據平臺中Hive主要主要解決數據處理和計算問題,一般是配合其他組件使用;
Hbase:一種分布的、可伸縮的大數據存儲庫(注意,Hive不能算存儲庫),通常Hdfs為其提供高可靠性的底層存儲支持,它主要被用來解決實時數據查詢問題,支持隨機、實時的讀寫訪問;
Pig:是一個平臺,用來分析大數據集,Pig平臺是由一種表達數據分析程序的高級語言和對這些程序進行評估的基礎設施一起組成;
Sqoop:是一種高效傳輸批量數據的工具,主要用于Hadoop和結構化數據庫之間的數據傳輸;
Kettle:是一種完成數據抽取、轉換、裝載(ETL)過程的工具,它支持圖形化的GUI設計界面,然后可以以工作流的形式流轉,在做一些簡單或復雜的數據抽取、質量檢測、數據清洗、數據轉換、數據過濾等方面有著比較穩定的表現;
Flume:是一種分布式、有用且可靠的服務,該服務常用于高效收集、匯總、移動大量數日志數據;
Logstash:一個開源數據收集引擎,具有實時管道功能,它可以動態地將來自不同數據源的數據統一起來,并將數據標準化到你所選擇的目的地,與ElasticSearch、Kibana并稱ELK;
Zookeeper:一個分布式的、開放源碼的分布式應用程序協調服務,該服務用于維護配置信息、提供分布式同步以及分組等事務;
Mahout:一種基于Hadoop的機器學習和數據挖掘的分布式計算框架算法集,實現了多種MapReduce模式的數據挖掘算法;
Spark:一種開源的數據分析集群計算框架,建立與分布式文件系統(Hdfs)只上(常與Hive相結合),與Hadoop一樣,用語構建大規模、低延遲的數據分析應用,Spark采用scala語言實現,使用scala作為應用框架;
Storm:一種分布式的、高容錯的實時計算系統,它屬于流處理平臺,多用于實時計算并更新數據庫;
Shark:即前面提到的Hive On Spark,一個專為Spark打造的大規模數據倉庫系統,兼容Hive,無需修改現有的數據或者查詢,就可以用100倍的速度執行HiveSql,Shark支持Hive查詢語言、無存儲、序列化格式及自定義函數,與現有的數據倉庫系統(Hive)無縫集成,是一個更快、更強大的替代方案;
Hue:一個開源的Hadoop UI系統,能夠做HiveSql編輯器、搜索引擎Solr的各種圖表以及與Oozie集成,可進行workflow的編輯、查看;
Oozie:一種任務調度框架,可與Hue集成,用來完成工作流的設計、錄入、觸發與監控等;
Phoenix:一個構建在大數據存儲庫(Hbase)只上的Sql中間層,完全使用java編寫,提供了一個客戶端可嵌入的JDBC(數據庫連接,由java編寫的類及接口組成)驅動,它的查詢引擎會將Sql轉換成一個或多個Hbase scan,并編排執行以生成標準的數據庫連接(JDBC)結果集,Phoenix直接使用Hbase API、協同處理器與自定義過濾器,對于簡單的查詢來說,其性能量級是毫秒,對于百萬級別的行數來說,其性能量級是秒;
Tez:一個基于作業調度和集群資源管理的框架(Yarn)之上的DAG(有向無環圖)計算框架,他把MapReduce拆分成若干個子過程,同時又把若干個MapReduce組合成一個較大的DAG(有向無環圖)任務,減少了MapReduce之間的文件存儲(落地),同時合理組合其子過程,減少任務運行時間;
Kafka:一個分布式、支持分區的(partition)、多副本的(replica),基于zookeeper協調的分布式消息系統,它的的特性就是可以實時的處理大量數據以滿足各種需求場景;
Ambari:作為Hadoop集群的一個供應、管理和監視的開源框架,該開源框架提供一個直觀的操作工具和一系列健壯的Hadoop API,可吟唱負責的Hadoop相關操作,使集群操作大大簡化;
CDH:是Hadoop眾多分支中的一種,由Cloudera維護,基于穩定版本的Apache Hadoop構建,提供了Hadoop的核心可擴展存儲(HDFS)和分布式計算(MR),還提供了WEB頁面進行管理、監控。
以上就是關于“大數據入門學習知識點匯總”的內容介紹,希望對大家學習有所幫助。想要了解更多關于大數據入門學習培訓的相關資訊歡迎來咨詢。