快捷搜索:

大数据学习环境搭建系列(一)大数据集群平台介绍

作者 | CDA数据分析师

掌握搭建大数据集群的手段是学习大数据技术的人必要具备的基础技能,所以吾会议定接下来的三十余篇文章介绍大数据平台的搭建手段。在本文中吾将向幼友人们介绍一下搭建大数据集群必要哪些知识以及吾们接下来搭建的大数据集群平台架构,让行家对平台有个总体的意识并遍及一些概念。

最先吾们接触的是虚拟机,及在虚拟机中安设Linux操作体系

集群搭建完善后吾们通盘会有四个虚拟机,其中假分布集群有一台虚拟机,虚拟机名称为single_node。分布式集群有三个虚拟机 名称别离为master、slave1、slave2。各个虚拟机的IP配置及安设柔件(含柔件运走的模块)如下外所示。

注:hostname:每个节点的主机名称

IP:每个节点的IP地址

NN:NameNode

DN:DataNode

NM:NodeManager

RM:ResourceManager

SNN:SecondaryNameNode

/ :外示担心设

分布式集群的架构如下图所示

硬件

节点:吾们后面会频繁挑到节点,分布式环境中一个服务器就是一个节点,在吾们搭建的集群中服务器指的是议定VMware柔件虚拟出来的虚拟机。

操作体系:服务器上运走的操作体系基本上都是Linux操作体系,自然虚拟机中安设的也是Linux体系。

网络:集群中的众个节点之间协同做事必要一向交换数据及状态、命令等新闻,所以必要互通的网络环境。吾们的集群是议定虚拟机柔件虚拟出来的,网络也是由虚拟机柔件虚拟出的虚拟网卡来实现数据交换的。

柔件

集群中的柔件始要有 hadoop、spark、hive、hbase、zookeeper这几个。

Hadoop

固然大数据集群平台按照详细营业需求分别配置构成分别,但大片面集群都会以hadoop集群为基础。例如大数据仓库Hive及分布式数据库Hbase的存储都会用到hadoop集群的分布式文件体系HDFS,计算片面默认行使Hadoop原生的MapReduce计算框架。分布式计算框架spark能够行使hadoop内置的通用资源管理模块yarn来挑供同一的资源管理和调度。

hadoop大数据集群清淡说来能够有单机模式、假分布模式、分布式模式这三栽模式。

分布式模式:是实际行使的一栽模式,分布式集群由众个节点构成理论上集群中的节点越众,集群的性能也就越益。

单机模式:单机模式只在一个节点上运走,是一栽默认的配置手段,无需进走其他配置即可运走,以单Java进程运走,方便进走调试,此时HDFS是不走用的。

假分布式:此模式同样也是在单节点上运走的,与单机模式分别的是程序所以分别的Java进程来运走的,节点即行为NameNode也行为DataNode,此时能够行使HDFS,是常用的开发测试模式。

Spark

Apache Spark 是专为大周围数据处理而设计的迅速通用的计算引擎,是现在比较通走的分布式计算框架。

Spark 始要有三个特点 :

最先,高级 API 剥离了对集群自己的关注,Spark 行使开发者能够凝神于行使所要做的计算自己。其次由所以基于内存的计算框架等因为,Spark 很快,声援交互式计算和复杂算法。末了,Spark 是一个通用引擎,可用它来完善各栽各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 展现之前,家装设计资讯、家装设计作品和家装设计吾们清淡必要学习各栽各样的引擎来别离处理这些需求。Hive

hive是基于Hadoop的一个数据仓库工具,能够将组织化的数据文件映射为一张数据库外,并挑供完善的sql查询功能,能够将sql语句转换为MapReduce义务进幸运走。 其益处是学习成本矮,能够议定类SQL语句迅速实现浅易的MapReduce统计,不消开发特意的MapReduce行使,相等正当数据仓库的统计分析。

Zookeeper

ZooKeeper是一个分布式的,盛开源码的分布式行使程序和谐服务,是Hadoop和Hbase的重要组件。它是一个为分布式行使挑供相反性服务的柔件,挑供的功能包括:配置维护、域名服务、分布式同步、组服务等。

Hbase

HBase是一个分布式的、面向列的开源数据库,HBase在Hadoop之上挑供了相通于Bigtable的能力。HBase是Apache的Hadoop项主意子项现在。HBase分别于清淡的有关数据库,它是一个正当于非组织化数据存储的数据库。另一个分别的是HBase基于列的而不是基于走的模式。

Sqoop

是一款开源的工具,始要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进走数据的传递,能够将一个有关型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也能够将HDFS的数据导进到有关型数据库中。

这是吾们近期推出的“大数据学习环境搭建系列文章”的第一篇,接下来吾们会更新并赓续推出该系列的其余文章,协助有需求的至修益益晓畅和掌握大数据学习平台的搭建知识,行家一向关注吾们吧。

更众精彩资讯和优质内容,可前去吾们的CDA网站:凝神哺育16年品牌,CDA数据分析师——助力高薪就业,实现人心理想

也能够手机端随时随地涉猎各类优质内容,还有免费体验课程哟!

作者最新文章大数据学习环境搭建系列(一)大数据集群平台介绍03-0513:51数字化推翻全球金融生态,金融数字化人才转型将是异日最益的出路03-0511:14最新考研调剂新闻周详获取!Python帮你一网打尽03-0415:40有关文章OPPO Find X2更众新闻:67.8°黄金弯率的弯屏设计武汉移动P3实验室镇日可做600份核酸检测中国又一手机品牌倒下:曾与华为幼米相抗衡,现在连官网都打不开高位技术破位!美联储骤然降休抄底or逃命?为安倍当局发急!日本导演把南京抗疫现场拍成了“防疫教材”设为始页© Baidu 行使百度前必读 偏见逆馈 京ICP证030173号 京公网安备11000002000001号返回顶部,

您可能还会对下面的文章感兴趣: