当前位置:首页 >  站长 >  编程技术 >  正文

Hadoop大数据存算分离下,XSKY星辰天合如何解决新旧存储共存

 2020-07-09 14:46  来源: 互联网   我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

在传统的Apache Hadoop集群系统中,计算和存储资源是紧密耦合的,HDFS为大数据存储带来便利的同时,也面临着一些挑战:

当存储空间或计算资源不足时,只能同时对两者进行扩容。假设用户对存储资源的需求远大于对计算资源的需求,那么同时扩容计算和存储后,新扩容的计算资源就被浪费了,反之,存储资源被浪费。

这导致扩容的经济效率较低,额外增加成本。而独立扩展的计算和存储则更加灵活,同时可显著降低成本。

现在Hadoop采用存算分离的架构的趋势越来越明显。

XSKY HDFS Client是为XEOS存储集群和Hadoop计算集群量身打造的连接器。通过XSKY HDFS Client,Hadoop应用可以访问存储在XEOS中的所有数据。

但是,在引入XEOS存储后,会出现原有HDFS与XEOS共存的情况,如何将两套存储集群都利用起来是需要解决的问题。

01数据跨集群拷贝

一般情况下,计算应用需要访问的数据,如果保存在不同的集群中,那么应该将其中一个集群的数据拷贝到另一个集群上。一般情况下使用Hadoop自带的DistCp工具,对数据进行跨集群的拷贝。

这种方式虽然在一定程度上可以解决数据合并的问题,但如果数据量比较大,并且机房带宽有限制的情况下,可能拷贝数据的时间会非常长。还有一个就是在拷贝过程中原始数据发生改动,就还需要考虑增量同步的问题。

02联邦HDFS和ViewFS

在Hadoop 2.x发行版中引入了联邦HDFS功能,期望可以解决NameNode的内存问题。联邦HDFS允许系统通过添加多个NameNode来实现扩展,其中每个NameNode管理文件系统命名空间中的一部分。

但是,在实际应用中,系统管理员需要维护多个NameNodes(所有NameNode都需要高可用)和负载均衡服务,这又增加了管理成本。所以HDFS的联邦方案并没有被生产环境所采用。

在提供联邦HDFS方案同时,Hadoop 2.x还提供了ViewFS,用来管理所有多个命名空间视图。

虽然联邦HDFS方案并没有被大规模应用,但ViewFS却可以用来解决XEOS与HDFS共存问题。

03ViewFS的实现

ViewFS全称是ViewFileSystem,它不是一个新的文件系统,只是逻辑上的一个视图文件系统,它实现了标准的Hadoop FileSystem接口。但是,真实的请求处理还是在各自真实的存储集群上。

ViewFS会维护一个mount-table,主要是viewfs的逻辑目录与实际底层存储的映射关系。在接收到应用的调用时,ViewFS会解析用户的访问请求,并通过mount-table找到对应的底层存储目录,转发相应的请求到底层存储。

ViewFS会把所有应用层的FileSystem调用透传到底层真实文件系统中。由于ViewFs实现了Hadoop文件系统接口,因此使用它透明地运行Hadoop工具。例如,所有shell命令都可以与HDFS和本地文件系统一起使用ViewFS。

在集群的core-site配置中,fs.defaultFS被设置为ViewFS的root目录,也就是指定的mount-table。

挂载表的挂载点在标准Hadoop配置文件中指定。ViewFS的所有mount-table配置条目均以“fs.viewfs.mounttable”为前缀,使用“link“标记指定链接其他文件系统的mount点。建议使用与“link”文件系统目标位置相同的mount点名称。对于未在安装表中配置的所有名称空间,我们可以通过linkFallback将它们回退到默认文件系统。

在集群的配置中增加ViewFS的mount-table配置,示例如下:

Hadoop系统将在Hadoop配置文件中查找名称为 “ClusterX” 的mount-table。将所有gateway和server配置包含“ClusterX”,如上示例。

04ViewFS的应用场景

ViewFS可以在如下场景中使用:

非结构化的原始数据可以通过DistCp等工具直接存储在XEOS上,业务数据库结构化数据和应用买点数据可以通过ETL以Hive的外部表方式存储到XEOS中。HBase和Hive继续在原有的HDFS上面运行,也就是HBase表数据和Hive内部表数据仍然通过HDFS来存储。

这样的好处是海量非结构化数据,甚至是海量小文件都可以用XEOS来承载,减轻HBase的压力,同时Hive新增数据全部通过XEOS来存储,后续扩容容量仅扩展XEOS存储集群即可。

05XEOS配置ViewFS

大数据平台基于CDH 6.3.2。HDFS core-site.xml 增加如下配置:

Hadoop FS命令行:

执行wordcount测试结果如下:

06小结

XSKY通过ViewFS的方式,在不改变用户使用习惯的前提下,将原有HDFS数据与新增XEOS数据打通,解决了原有HDFS集群与新XEOS集群的共存问题。原有的HDFS数据可以继续使用,而XEOS可以用于承载新生成的数据。

这种方式不仅可以充分利用旧有设备,达到节约成本的目的。同时,能够借助XEOS横向扩展能力,实现存储单独扩容。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
数据存储
云存储

相关文章

  • 鹏云网络分布式块存储社区版问世,首发开源存储解决方案

    2023年1月,南京鹏云网络科技有限公司(简称:鹏云网络)正式宣布开源ZettaStorDBS分布式块存储系统,开放了自研10余年的分布式块存储技术,自此踏上了“自研”与“开源”一体并行的生态闭环之路。研发十年,挑战块存技术上限成本、效率、高可用,一直都是企业IT系统建设所追求的重要关键点,这三点在

    标签:
    数据存储
  • 智能加速 算力先行 | 坤前计算机闪耀安博会

    6月10日,2023中国国际社会公共安全产品博览会(以下简称“安博会”)在北京圆满落幕,此次安防盛典时隔一年强势回归,新技术、新产品层出不穷,吸引数万观众齐聚一堂,坤前计算机受邀出席,携明星机型及多系列一体化解决方案惊艳亮相。算力:AI落地的动力之源随着生成式人工智能(AIGC)的快速发展与创新应用

    标签:
    云存储
  • “效能再进化,数据更安全”威联通举行QTS 5.1.0及次世代NAS发布会

    2023年5月9日,以“效能再进化,数据更安全”为主题,威联通2023年新品发布会在上海隆重举行,多家媒体、合作伙伴及威联通爱好者莅临现场,共同见证NAS网络存储行业朝向更高品质、更强性能、更好安全性的再次启航。威联通QTS5.1.0系统发布时下,网络存储行业已从萌芽时代步入增速发展关键期,用户对数

    标签:
    数据存储
  • 面向海量非结构化数据存储,QingStor U10000帮助企业解锁数据价值

    随着经济社会数字化转型的加速,各行各业产生的非结构化数据持续呈现井喷增长态势。而为了科学高效地利用这些非结构化数据,为企业加速数字化转型打牢基础,在实现数据稳定、专业的存储的前提下,推动数据的合理流动是关键。作为业内技术领先的企业级云服务商与数字化解决方案提供商,青云科技(qingcloud.com

    标签:
    数据存储
  • 得一微对话Arm,打造计算型存储新生态

    高可靠存储控制芯片、高端汽车存储芯片等领域都已成为备受瞩目的黄金赛道,被持续加大研发投入,颇受市场认可。在这样的市场背景下,得一微电子CEO吴大畏与Arm物联网事业部业务拓展副总裁马健展开生态对话,围绕存储控制技术及应用市场展开了探讨,双方将在ComputationalStorage计算存储领域芯片

    标签:
    数据存储

热门排行

信息推荐