什么是数据存放?在学习知识的过程中基础知识很重要,今天小编给你说说CGFT考试中考的内容!

为了提高数据的可靠性与系统的可用性,以及充分利用网络带宽,HDFS采用了以机架(Rack)为基础的数据存放策略。

一个HDFS集群通常包含多个机架,不同机架之间的数据通讯需要经过交换机或者路由器,同一个机架中不同机器之间的通讯则不需要经过交换机和路由器,这意味着同一个机架中不同机器之间的通讯要比不同机架之间机器的通讯带宽大。


HDFS默认每个数据节点都是在不同的机架上,这种方法会存在一个缺点,那就是写入数据的时候不能充分利用同一机架内部机器之间的带宽。

但是,与这点缺点相比,这种方法也带来了更多很显著的优点:首先,可以获得很高的数据可靠性,即使一个机架发生故障,位于其他机架上的数据副本仍然是可用的;其次,在读取数据的时候,可以在多个机架并行读取数据,大大提高了数据读取速度;*后,可以更容易实现系统内部负载均衡和错误处理。

HDFS默认的阮余复制因子是3,每一个文件块会被同时保存到3个地方,其中,有两份副本放在同一个机架的不同机器上面,第三个副本放在不同机架的机器上面,这样既可以*机架导堂时的数据恢复,也可以提高数据读写性能。