数据全生命周期管理解决方案
对于数据管理,也许很多人都存在一个认知误区,认为数据管理即是“将数据保存起来”。如果想要更好地挖掘数据价值,仅仅做到存放是远远不够的,需要涵盖数据的上收、分层管理、检索调用、归档存放全流程,即实现数据的“全生命周期管理”。
作为面向下一代数据中心设计的存储产品,分布式存储EDS要解决的问题不仅局限于存储的“存”,而是围绕着业务数据的“汇、存、管、用”提供数据全生命周期管理解决方案,帮助用户更高效、更轻松的应对海量数据的管理挑战,激发数据价值。
从整体来看,EDS数据管理解决方案可以分为“数据汇集”和“数据管理”两大部分。
1、数据汇集:安全与效率并驾齐驱
数据从“出生”到数据中心,再到内部的数据迁移,我们将其统称为“数据的流动”,而在数字化时代,这一流动的过程既需要保障安全性,也要保障高效性。
上收:终端数据统一汇聚,自动化采集
当前很多拥有分支机构或子公司的用户存在数据采集的需求,目前主流的做法是通过定期U盘邮寄、IM软件发送、邮箱附件发送等方式,这些方式存在上收效率低、数据泄漏风险大等明显缺陷。
易云科技提供的深信服EDS可提供aDMT客户端工具,可实现终端数据自动采集,安全上收至统一的存储资源池内,有效解决边缘/分支数据上收难、安全性差的问题。
● 根据所配置固定的时间间隔,自动识别所选定的文件目录中该时间段内增量数据和发起数据上收传输;
● 传输过程采用https加密协议,保证数据的安全性;
● 传输过程支持断点续传,保证传输的时效性;
● 传输完成后支持灵活配置策略,可选择继续保留或删除已传输的数据。
迁移:面向多类型业务数据提供迁移方案
除了数据收集以外,上收后的数据由于业务场景变更或者设备更替,还将面临复杂的迁移工作,由于业务数据量较大,手动迁移往往效率低且面临较大风险。EDS提供面向多种业务场景的数据迁移方案或服务,实现数据的高效自动迁移。
比如虚拟机数据热迁移方案、数据库迁移服务等,在共享文件数据迁移上,分布式存储EDS提供基于文件同步管理(File Sync Management,简称FSM)软件实现的数据自动化迁移方案,使用户存储在老旧存储设备、物理服务器上的数据可以高效迁移到由EDS组建的存储资源池中。
2、数据管理:多重策略的全面覆盖
相较于初期的数据收集,数据后期的管理会涉及更多的挑战,如何存?怎样管?怎么用?分布式存储EDS为数据管理提供丰富的策略,对分层存储、自动归档、版本处理、快速检索、统一管理、数据互访等方面进行了全方位的覆盖。
多级存储:降低海量数据归档成本
就好比我们的个人衣柜,衣服虽多,但是不同时段需要经常穿的就那么几件。日常的穿着衣物我们会挂在便于拿取的位置,不合时令的衣物则往往被存放在收纳箱,对于数据存储同样如此。在数据的生命周期中,不同阶段对数据存储的性能、可用性、成本要求也不一样,所以数据存储方案应遵守以下原则:
● 初期产生:在数据产生初期,数据访问频率高,数据量较小,需提供高性能存储方案,并确保数据具备高可用性;
● 中期管理:随着时间推移,数据的访问频率和价值下降,需提供不同级别的存储方案,为数据提供适当的性能和可恢复性;
● 后期处理:大部分数据不会被使用,需要进行删除或归档(部分行业数据有相关要求,需要半永久或永久保存)。
因此,EDS根据以上基本原理区分存储软件、硬件和介质的配置,划分出高性能生产型存储、标准生产型存储、低频访问存储和冷归档型存储,各自特点如下:
● 高性能生产型存储:承载需要实时高速访问数据的业务系统,如大型数据库、广电视频制作、航测建模等,可提供单虚拟磁盘5万+IOPS或单目录GB级吞吐能力;
● 标准生产型存储:承载普通业务系统、日常文件共享等数据,提供单虚拟磁盘1万+IOPS或单目录300MB级吞吐能力;
● 低频访问型存储:承载低频访问的业务归档数据,存储成本更低;
● 冷归档型存储:承载因相关法规要求需要半永久或永久保存的业务数据,长期保存成本更低。
根据实际数据情况选择对应的分级配置,可大幅降低海量数据存储成本。
归档:数据自动归档到多类型归档存储
由于业务发展需要,数据上云已经成为众多企业级用户的必然选择,然而这一过程并不是一成不变的,数据需要面临频繁的归档和回迁,用户也面临高频率的归档操作。分布式存储EDS提供基于FSM软件实现的数据自动化归档方案,可以轻松将保留在EDS生产存储资源池的数据库归档到公有云、EDS归档资源池、其它存储介质等,方案特点如下:
● 源端支持NAS存储,目的端支持NAS及S3,支持归档上云;
● 归档策略支持手动触发,也支持自动策略,支持分钟级触发自动扫描发现源端的增量数据,归档至目的端存储上;
● 对于归档数据的访问,支持应用直接挂载归档目录,或将归档数据迁回源端存储进行访问。
检索:数据秒级检索
与常规意义上的检索不同,当数据量达到上亿规模时,将会涉及更多的元数据,检索会变得异常困难。为了解决海量文件规模下传统检索方案数据检索慢的问题,分布式存储EDS通过内置数据检索引擎,使得用户可以直接在EDS平台上直接对文件存储及对象存储内的数据文件进行检索,全面提升检索效率。
● EDS对文件和对象元数据建立索引信息,存放在EDS自研的分布式PhxKV元数据中心;
● 快速检索,十亿级别文件和对象规模,能够在秒级别快速检索出数据所在位置;
● 支持通过文件名前缀直接在存储上进行检索。
访问:多协议数据互访,提升数据应用效率
随着Hadoop大数据应用被广泛采用,“大数据+AI”已经成为数据处理的新方向,而当前存在多种数据处理工具对于接口的要求不一致的问题,EDS分布式存储支持HDFS/ CIFS/FTP/ NFS多协议间数据互访,能够跨平台构建业务处理管线,让数据少跑腿,提升数据应用效率的同时,也减少了数据的空间占用,降低综合成本。
删除:数据多版本管理及过期自动删除
数据量的迸发和过长的时间跨度,会造成数据文件重复和版本众多,企业级数据更是如此。即难以区分哪些是无效数据,一刀切式的删除策略很容易造成误删。挤占空间且难以管理。针对以上问题,EDS对象存储提供数据多版本保护及过期删除策略。
● 开启多版本保护后,若数据产生后发生多次更改,在存储中仍保留多个版本,便于数据回溯;
● 结合数据过期删除策略,可灵活针对旧版本的数据和当前版本的数据分别设置是否超过规定天数,定期进行删除,释放存储空间。
可视化:提供面向终端用户的对象数据管理平台
相比于以前存储产品的内部不可知,用户当下更需要对数据存储状态有一个更清晰的掌握,以便做出下一步的业务决策。基于这一洞察,分布式存储EDS提供aDMT图形化Web应用程序,以便更轻松地访问和管理数据存储。
● 无需单独下载软件或工具进行安装部署, 终用户可以直接通过 Web 浏览器,可以轻松登录和可视化地管理对象存储中的文件数据;
● 支持用户自行完成桶管理和文件管理(上传、下载、删除)等操作;
● 支持全局文件检索,快速找到用户所需的文件。
从数据的收集汇聚、到数据的分级存储,再到丰富的管理策略,EDS通过完善的数据统一管理策略,为用户的业务提供坚实的数据保障。同时,EDS也秉持着为用户数据负责的态度,致力于为用户的数据价值挖掘打造坚实的存储基石。