CGFT大数据课程中,HDFS体系结构是很重要的知识点。具体什么是HDFS,下文作详细介绍!

HDFS采用了主从结构模型,一个HDFS集群包括一个名称节点和若干个数据节点。名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问。

集群中的数据节点一般是一个节点运行一个数据节点运行一个数据节点进行,负责处理文件系统客户端的读写请求。在名称节点的统一调度下进行数据块的创建、删除和复制等操作。

每个数据节点的数据实际上是保存在本地Linux文件系统中的,每个数据节点会周期性地想名称节点发送“心跳”信息,报告自己的状态,没有按时发送心跳信息的数据节点会被标记为“宕机”,不会再给它分配任何I/O请求。

特许全球金融科技师CGFT一级

在用户使用HDFS时,仍然可以像在普通文件系统中那样,使用文件名去存储和访问文件,实际上,在系统内部,一个文件会被切分成若干个数据块,这些数据块被分布存储到若干个数据节点上。

当客户端需要访问一个文件时,首先把文件名发送给名称节点,名称节点根据文件名找到对应的数据块,干根据每个数据块信息找到实际存储各个数据块的数据节点的文职,并把数据节点位置发送给客户端。

然后,客户端直接访问这些数据节点获取数据,在整个访问过程中,名称节点并不参与数据的传输,这种设计方式,使得一个文件的数据能够在不同的数据节点上实现并发访问,大大提高了数据访问速度。