在学习CGFT大数据时,数据存储策略主要包含哪些内容是很重要的。下文是对它的详细介绍,一起了解一下!
数据存储策略包括数据存放、数据读取和数据复制等方面,它在很大程度上会影响到整个分布式文件系统的读写性能,是分布式文件系统的核心内容。
1、数据存放
为了提高数据的可靠性与系统的可用性,以及充分利用网络宽带,HDFS采用了以机架为基础的数据存放策略。
2、数据读取
HDFS提供了一个API可以确定一个数据节点所属的机架ID,客户端也可以调用API获取自己所属的机架ID。
3、数据复制
HDFS的数据复制采用了流水线复制的策略,大大提高了数据复制过程的效率。当客户端要往HDFS中写入一个文件时,这个文件会首先被写入本地,并被切分成若干个块,每个块的大小是由HDFS的设定值来决定的。
每个块都向HDFS集群中的名称节点发起写请求,名称节点会根据系统中各个数据节点的使用情况,选择一个数据节点列表返回给客户端。

声明:本文章为学习相关信息展示文章,非课程及服务内容文章,产品及服务详情可咨询网站客服微信。
文章转载须注明来源,文章素材来源于网络,若侵权请与我们联系,我们将及时处理。