在CGFT中大数据课程中,HBase是重要知识点。下文是对HBase的介绍,一起了解一下!
HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌bigtable的开源实现。主要用来存储非结构化和半结构化的松散数据。
HBase的目标是处理很庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。
下图主要描述了Hadoop生态系统中HBase与其他部分的关系。HBase利用Hadoop MapReduce来处理HBase中的海量数据,实现高性能计算。
利用zookeeper作为协同服务,实现稳定服务和失败恢复,利用HDFS作为高可靠的底层存储,利用廉价集群提供海量数据存储能力。当然,HBase也可以直接使用本地文件系统而不用HDFS作为底层数据存储方式。
不过,为了提高数据可靠性和系统的健壮性,发挥HBase处理大数据量等功能,一般都使用HDFS作为HBase的底层数据存储方式。此外,为了方便在HBase上进行数据梳理,sqoop为HBase提供了高效、便捷地RDBMS数据导入功能,pig和hive为HBase提供了高层语言支持。
HBase是bigtable的开源实现,下图主要给出了HBase和bigtable的底层技术对应关系!

声明:本文章为学习相关信息展示文章,非课程及服务内容文章,产品及服务详情可咨询网站客服微信。
文章转载须注明来源,文章素材来源于网络,若侵权请与我们联系,我们将及时处理。