当前位置:首页 >  互联网 >  考虑建立数据湖?是时候了

考虑建立数据湖?是时候了

发布时间:2021-04-15 19:48编辑:小狐阅读: 469次 手机阅读

如果企业曾经对数字化转型

持有观望态度的话

那么相信经历过去一年

这样的疑虑都已被打消

实践表明

数字化转型越成熟

受到的影响越小

考虑建立数据湖?是时候了(图1)

数字化转型的核心

就是以数据为中心

这也是为什么数据湖

在今天格外重要

在“十四五”规划纲要中,“数据”一词被提及几十次。从瓦特经济发展到比特经济,数据已经成为重要的生产资料。为了赢得未来竞争力、在突发事件到来时保持韧性,大数据时代企业需要借助数据湖挖掘全量数据价值。

考虑建立数据湖?是时候了(图2)

数据湖:数据价值的“聚宝盆”

距离数据湖(Data Lake)的提出已有十一年了,相信大家对这个概念并不陌生。近两年随着大数据、云计算等技术的发展,数据湖开始真正从技术概念一步步走向实际应用。

先来看一下数据湖概念的提出者,Pentaho创始人兼CTO—James Dixon对其的描述:

如果把数据集市(Data Mart)看成是一个经过清洗、包装、结构化以后便于饮用的瓶装水仓库,那么数据湖就是一个更自然状态下的大水体。数据湖中的内容从源头流进湖中,用户可以在湖中进行检查、潜入或采集样本。

由此可见,数据湖强调的是对于业务数据“原汁原味”的保存,确保了数据的真实性和准确性。

以往人们都在强调数据量的几何式式增长,其实,随着暴增的数据量, 需要存储的数据类型也愈来愈丰富

考虑建立数据湖?是时候了(图3)

多态数据结构:数据形态的多样性

传统的企业数据方案是建立数据仓库,相较于数据仓库只能处理结构化数据如关系型数据库中的表数据湖显得“包容”得多,它可以轻松收集各种数据,包括 存储结构化数据半结构化数据如CSV、日志、XML、JSON以及 非结构化数据如文本、图形、图像、音频、。

国际数据公司IDC预测,到2023年,中国的数据量将达到40ZB,其中 超过80%是非结构化数据。非结构化数据在共享、搜索和分析等使用过程中具有持续价值,它所反映的信息蕴含着诸多企业效益提高的机会。 数据湖这种对多态数据结构的容纳能力正是未来企业不可或缺的。

正是基于大数据时代客户对非结构数据需要的洞察,此前,戴尔科技针对预测性大数据分析发布了横向扩展数据湖方案,帮助客户真正捕获大数据的价值,实现存储空间和性能的线性增长,从而保持更低的获取与的成本。

通过旗下PowerScale和ECS(Elastic Cloud Storage)等文件和对象存储产品,戴尔易安信多年来持续为各行业客户完整、可靠的数据湖解决方案。

以医疗机构为例,戴尔易安信数据湖解决方案可以同时支持PACS影像应用、心电超声应用、文件应用、移动办公应用、大数据科研等多种业务,而 无需为每一种应用单独的存储平台,从而 除信息化建设过程中可能出现的数据孤岛

考虑建立数据湖?是时候了(图4)

医院数据湖平台示例图

除了把不同种类的数据汇聚到一起,数据湖的另一部分价值是不需要预定义的模型就能进行数据分析。

由于数据湖存储着来自业务线应用程序的关系数据,以及来自移动应用程序、IoT设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或Schema。这意味着企业可以对数据使用不同类型的分析(如SQL查询、大数据分析、全文搜索、实时分析和机器学习)来获得信息。

数据湖适合以一致的方式利用大量数据,并使用算法驱动实时分析。如今,数据传输以及通信都需要实时运行,特别是气象测控、金融服务、网络监控等领域会产生大量的实时动态数据, 对于持续生成动态新数据的大多数场景,采用流数据处理是有利的。

考虑建立数据湖?是时候了(图5)

因此,能否对流数据进行有效分析处理也是企业未来面临的考验。 戴尔科技流数据平台(Dell EMC Streaming Data Platform,简称SDP)的出现填补了流式数据领域的空缺。

SDP:流式数据领域的“垦荒者”

SDP是一套基于软件与参考硬件的弹性可伸缩平台,用于注入、存储和分析无界的流式数据。作为企业级的数据存储和计算一体化平台,SDP为用户了安全可扩展的平台,在平台内运行的每一个应用都同时支持实时数据和历史数据的访问,并且有统一的API支持。

考虑建立数据湖?是时候了(图6)

SDP的整体架构示意图

随着核心、云和边缘不断产生新的数据,依靠在分布式存储方面深耕多年的经验,戴尔科技技术专家进一步提出深度定制数据湖的想法。这些创新想法将为用户更加灵活地在存储和计算之间寻找平衡,以适应不同的场景带来新的方向。

考虑建立数据湖?是时候了(图7)

Flink×数据湖!干货先睹为快

4月17日,Apache Flink社区2021首场Meetup将于上海举行,技术大咖齐聚一堂全方位解析数据湖生产应用难题,届时戴尔科技技术专家也会带来关于数据湖的独家干货,亮点都为大家整理好了,一起来先睹为快!

考虑建立数据湖?是时候了(图8)

嘉宾议题及观点

Iceberg和对象存储构建数据湖方案

孙伟

戴尔科技集团 高级软件研发经理

考虑建立数据湖?是时候了(图9)

随着数据湖开始采用对象存储作为底层,戴尔科技技术专家发现 当前对象存储和Apache Iceberg结合中存在的痛点。

比如二者的结合都要基于Hive等第三方组件来完成对接,缺少和企业级对象存储直接对接的能力。同时, 结合方案在性能方面也存在瓶颈,在面对高性能场景时只能通过额外的缓存方案来弥补。

因此,戴尔科技技术专家研发出 “Iceburg+S3”对象存储对接方案,该方案解除了对第三方组件的依赖,并改善了其中一些文件上传的性能瓶颈。

而在通用S3对象存储方案的基础上,戴尔科技技术专家进一步提出了基于戴尔科技ECS/ObjectScale对象存储的商业接口方案,使更加高性能的数据湖得以实现。

END

动手指

本文相关词条概念解析:

数据

数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。数据作为信息的载体,当然要分析数据中包含的主要信息,及分析数据的主要特征。数据(Data)是载荷或记录信息的按一定规则排列组合的物理符号。

标签:
  • 网友评论

互联网本月排行

互联网精选