非结构化数据大有可为,但任重道远
非结构化数据体量迅猛剧增已是不争的事实,于我们来说,还是那句老话:“机会与挑战并存”。海量非结构化数据暗藏宝藏,能够为我们提供前所未有的洞察力,甚至能够改变行业游戏规则。但与此同时,处理海量数据无异于大海捞针,尤其当我们还需要处理非结构化数据时,问题变得更加错综复杂。假如能够对非结构化数据进行合理利用,必将大有可为,也必将大有作为。
到底什么是非结构化数据?
简单地说,非结构化数据本质上是结构化数据之外的一切数据。非结构化数据具有内部结构,但不通过预定义的数据模型或模式进行结构化,不方便用数据库二维逻辑表来表现。可能是人为的或机器生成的,包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。它属于定性的数据,天生杂乱无章,难以管理、难以监控、难以维护。
非结构化数据暗藏宝藏,使其变得结构化是“寻宝”的关键一步。
目前,非结构化数据可以人工智能、机器学习、语义分析、图像识别等技术,变成结构化的数据,提炼出语义和各项特征,并进行多个维度的标记记录,之后用户可以根据需求对这些数据资源做出不同的应用。
个性化推荐就是一个很好的应用。“网红”直播带货大火的当下,借力算法可以检索到哪些视频中出现了哪些产品,然后进行标注,将视频这种非结构化数据变得结构化,再进行相应的广告投放,让感兴趣的观众能够收到个性化的商品广告推荐,从而让各位“金主”感受更高的广告转化率。
再以企业运营为例, 结构化数据包含收入表现和运营指标,但是非结构化数据触角伸得又多又长,譬如用户、员工在社交网络等自由发表的图片、文本,能够真实展示对公司产品的看法、员工信息和竞争优势。因此,渐渐的,传统的结构化数据已经不再是主流,越来越多的企业希望把原始数据以真实的初始状态保留下来,以便从多个维度进行更多洞察,以便可以对数据采取行动并做出重要的业务决策。
这也是为什么学者和专家愿意投入大量精力研究非结构数据的可用性开发,因为非结构化数据所提供的语境着实让大伙儿着迷。“分析结构化数据能够告诉我们什么正在发生,但是通过分析复杂的非结构化数据流才能知道为什么会发生。”*
“寻宝”路上,存储仍是一道坎。
对比结构化数据,非结构化数据通常由不容易搜索的数据组成,来源更广——客服、邮件、调查问卷、社交网络等都可以是非结构化数据的诞生地,而且产生的速度更快,这也导致非结构化数据的体量对比结构化数据的更大,可以相差十几倍甚至几十倍。
以上这些特点,使非结构化数据具有存储容量大、文件数量多、对吞吐要求高、总体存储低成本等多样化特点,这也给非结构化数据的应用之路设下一道道难关。譬如——
数据增长快,存储横向扩容能力差:随着数据的高速增长,传统存储Scale-up的扩展方式,会造成小马拉大车的困境,性能与容量无法灵活扩展。
海量小文件,性能下降严重:随着新技术的不断应用,如人脸识别、基因测序等,越来越多的场景会产生亿级至数十亿级的小文件。海量小文件对存储系统带来 大的危害在于它使得文件系统的元数据急剧膨胀,导致元数据管理低效、I/O访问流程复杂、机械磁盘对于随机小IO读写性能低,其在用户端的体验就是每次进行文件的读写,元数据的访问和操作都耗时耗力,效率低下。尤其是达到千万级的情况下,性能体验下降非常明显。
正视问题,才能有所作,非结构化数据的存储已然成为其能否被高效应用的关键前提条件。而分布式存储的出现,提供了一种高分的解题思路——可利用Scale-out架构轻松实现数千节点的横向扩展;通过优化元数据管理与数据组织方式、小文件合并、优化缓存命中率等方面,提升海量小文件的存储性能支撑,从而达到提升海量小文件访问效率的目的。
未来随着人工智能,IoT 等技术的推广普及,未来越来越多的海量非结构化数据还将不断涌现。据 IDC 预测,2018 年到 2025 年之间, 产生的数据量将会从 33 ZB 增长到 175 ZB, 复合增长率达到 27%,其中超过 80% 的数据都会是处理难度较大的非结构化数据。
对于各企事业单位来说,非结构化数据,大有可为,而突围非结构化数据,也将是成长路上的重担之一。
*摘自:https://channels.theinnovationenterprise.com/articles/why-we-need-data-visualization-to-understand-unstructured-data