CGFT中大数据课程中,HBase是重要知识点。下文是对HBase的介绍,一起了解一下!

HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌bigtable的开源实现。主要用来存储非结构化和半结构化的松散数据。

HBase的目标是处理很庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。

下图主要描述了Hadoop生态系统中HBase与其他部分的关系。HBase利用Hadoop MapReduce来处理HBase中的海量数据,实现高性能计算。

特许全球金融科技师CGFT一级

利用zookeeper作为协同服务,实现稳定服务和失败恢复,利用HDFS作为高可靠的底层存储,利用廉价集群提供海量数据存储能力。当然,HBase也可以直接使用本地文件系统而不用HDFS作为底层数据存储方式。

不过,为了提高数据可靠性和系统的健壮性,发挥HBase处理大数据量等功能,一般都使用HDFS作为HBase的底层数据存储方式。此外,为了方便在HBase上进行数据梳理,sqoop为HBase提供了高效、便捷地RDBMS数据导入功能,pig和hive为HBase提供了高层语言支持。

HBase是bigtable的开源实现,下图主要给出了HBase和bigtable的底层技术对应关系!

CGFT