新版ACCA备考资料下载
  • 考纲对比
  • 学习计划
  • 思维导图
  • 复习资料
  • 历年真题
  • 词典及公式

CGFT知识点:《大数据技术原理和应用》中HDFS体系结构?

HDFS采用了主从(MasterSlave)结构模型、一个HDFS集群包括一个名称节点和若干个数节点(如下图)。名称节点作为中心服务器、负责管理文件系统的命名空间及客户端对文件请问,集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数实际上是保存在本地Linux文件系统中的,每个数据节点会周期性地向名称节点发送“心跳”息、报告自己的状态,没有按时发送心跳信息的数据节点会被标记为“岩机”,不会再给它分配何10请求。

CGFT

HDFS命名空间管理

HDFS的命名空间包含目录、文件和块。命名空间管理是指命名空间支持对HDFS中的目录、件和块做类似文件系统的创建、修改、删除等基本操作。在当前的HDPS体系结构中,在整个HDFS集群中只有一个命名空间,并且只有*个名称节点,该节点负责对这个命名空间进行管理。

HDFS使用的是传统的分级文件体系,因此,用户可以像使用普通文件系统一样,创建、除目录和文件,在目录间转移文件,重命名文件等。但是,HDFS还没有实现磁盘配额和文件访间权限等功能,也不支持文件的硬连接和软连接(快捷方式)。

通信协议

HDFS是一个部署在集群上的分布式文件系统,因此,很多数据需要通过网络进行传输。

有的HDFS通信协议都是构建在TCP/P协议基础之上的。客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互。名称节点和数据节点之间则使用数据节点协议进行交互。客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的。在设计上,名称节点不会主动发起RPC,而是响应来自客户端和数据节点的RPC请求。

cgft

客户端

客户端是用户操作HDFS*常用的方式,HDFS在部署时都提供了客户端。不过需要说明的是,严格来说,客户端并不算是HDFS的一部分。客户端可以支持打开、读取、写人等常见的操作,并且提供了类似Shell的命令行方式来访问HDFS中的数据。此外,HDFS也提供了JavaAPI,作为应用程序访问文件系统的客户端编程接口。

HDFS体系结构的局限性

HDFS只设置*一个名称节点,这样做虽然大大简化了系统设计,但也带来了一些明显的局限性,具体如下:

(1)命名空间的限制。名称节点是保存在内存中的,因此,名称节点能够容纳对象(文件、块)的个数会受到内存空间大小的限制。

(2)性能的瓶颈。整个分布式文件系统的吞吐量,受限于单个名称节点的吞吐量。

(3)隔离问题。由于集群中只有一个名称节点,只有一个命名空间,因此,无法对不同应用程序进行隔离。

(4)集群的可用性。一旦这个*的名称节点发生故障,会导致整个集群变得不可用。

本文章为学习相关信息展示文章,非课程及服务广告文章,产品及服务详情可咨询网站客服微信。 文章转载须注明来源,文章素材来源于网络,若侵权请与我们联系,我们将及时处理。
添加老师领取学习资料
ACCA考试倒计时

距2024年6月考季倒计时

考期已过

考试日期:2024年6月3日

点击查看全年报考时间