中关村商情网

搜索
中关村商情网 首页 IT业界 云计算 查看内容

2万字揭秘阿里巴巴数据治理平台DataWorks建设实践

2023-2-20 11:24| 发布者: admin| 查看: 10445| 评论: 0

摘要: 简介:阿里巴巴一直将数据作为自己的核心资产与能力之一,从最早的淘宝、天猫等电商业务,到后续的优酷、高德、菜鸟等板块,DataWorks、MaxCompute、Hologres等产品用一套技术体系来支持不同业务的发展与创新,为企 ...


针对多角色协作式的数据流程,基于DataWorks了提供统一的数据质量平台工具,能在一个平台上流水线式地完成所有协作过程。围绕开发、部署、运维和监控环节的工具能力提升,极大简化了数据团队各角色的日常工作流程。在持续监控的数据质量监控的基础上,加强事中防控质量问题,事前预防校正问题维度,让数据质量在每个环节起作用,各个角色侧都能高效落地。

1.事前:在研发过程中保障代码质量,提前规避质量问题,通过代码检测、质量自测的能力让研发可以提前消灭问题;

2.事前:让测试更有效地进行质量测试,提供上线前的冒烟测试、对比测试,从之前仅完成基础功能验证的测试,完善拓展其测试维度,不断积累围绕业务承诺要求的规则,从而让研发和运维都能够进行快速地自动化测试,持续进行数据链路的部署更新

3.事中:数据质量检测任务直接关联调度任务产出。做到数据即产出即检查,当高保障数据任务运行时,上游数据出现脏数据时,能及时阻断任务,规避质量问题数据对下游的影响,并通过告警机制及时提醒用户进行任务处理。



针对需要高保障的大批量数据表的质量管理需求,也能让质量责任人以低成本方式,提升规则覆盖率,减少人工配置负担,降低阈值设置难度和规则误报率。而在海量数据、多种数据种类情况下,由系统保障平台性能,做到大数据量下质量监控仍能高效运行,并且尽可能减少对业务数据链路产出的资源消耗影响,做到以最小成本执行。面向复杂数据架构的场景时,也能针对多种引擎下的数据,持续地保障数据的一致性及质量管理的延续性。

数据质量规则作为承载保障体系的重要载体,从人肉防控梳理,做到平台规则沉淀的自动检测,最终走向质量高效化的智能管理。这里面有大量的基础性工作:

  • 通过管理机制和平台体系,让每一张数据表都有负责人
  • 平台能自动追溯表与表之间的血缘关系
  • 末端表标注业务重要性,向上追溯链路中的表,以业务作为抓手来治理质量问题
  • ETL作业统一调度,质量监控与调度系统集成,做到事中即时智能管控



平台整个完成面向不同业务实体的质量治理过程,由平台侧和质量保障小组,不断沉淀通用平台侧和业务维度侧的质量规则模板。整个过程中,针对不断产生的新的数据表及相似业务,提供快速模板化规则配置、规则推荐,并根据历史的业务运行结果进行动态阈值的智能判定,减少新数据和新用户的配置成本,减少对需要关注指标及数据的质量治理的遗漏,全面提升数据可信度与价值密度。



最终沉淀为针对数据生产过程的质量稳定性全流程保障方案,从平台、规范、组织三方面完成了相应建设和沉淀,根据实际的业务流程和数据流程完成。

1.质量治理策略:建立线上数据质量问题管理处置机制

2.质量问题监控:建立全流程数据质量问题的监控和预防体系

3.质量协同处理:建立上下游协同的工作流程

4.质量度量评估:建立可复用的数据标准和统一的质量评估体系



最后,我们还是要从业务关注我们的治理效果,以开头举例的包裹质量问题为例,通过数据质量治理的建设,以及围绕业务对象的协作规则沉淀。

不仅从数据端,能够完成对数据的异常监控、推送和分析,使得可以及时对数据质量异常问题进行修复。

同时,从业务端,也针对测试的数据,通过规则进行了前置校验,在数据流入时就进行了限制和告警,也能让业务端小二也能进行异常情况的责任判定,通过标准质量数据修复动作进行数据修复。

整体包裹参数的数据准确率提升至99%以上,通过数据质量治理也推动了业务流程在质量保障环节的优化,最终为我们的业务高价值服务进行了更好地保障。



▌小结

数据生产端的治理除了规范性、稳定性,还包含了数据质量。数据质量问题往往能直接产生业务问题,所以数据质量管理,需要如同产品质量管理一样,贯穿于数据生命周期的各个阶段。在持续监控的数据质量监控的基础上,数据质量平台加强事前预防校正问题、事中防控质量问题的能力,以及各类用户智能配置、智能阈值判定等能力,让数据质量在每个环节起作用,各个角色侧都能高效落地。

四、数据应用提效治理

刚才的数据生产稳定性与质量稳定性,更多解决第一阶段“有”数据的治理问题,接下来进入第二阶段,进行数据应用的时候,一线的业务同学在使用数据时也会碰到众多难点。例如:

  • 找数难

想找的数据,不知道去哪找,特别是用业务术语去找的时候

相似表太多,不知道用哪个

搜索的结果太多,需要逐一点击查看

搜索的结果不准,很多和自己的业务不相关

  • 用数难

表命名奇怪,字段没有注释,缺少文档

表注释太简略,没有有效信息

人工问口径耗费大量时间

很多表的owner是被交接的,也不清楚业务逻辑

如何快速开放数据或者构建个性化数据应用

面对这些问题,用户找数/用数等应用场景的提效需要多管其下,比如最开始提到的数据规范,如果数据模型做好了,就可以在源头上提升数据的可读性,避免针对数据释义的多次频繁沟通,并消除数据指标的二义性。



基于元数管理的能力,DataWorks提供数据地图功能。在数据地图里,可以实现元数据的自动采集与数据目录能力,针对找数常用的检索功能,提供表/字段/模型/指标等多种检索能力,并提供数据血缘能力,例如业务同学检索到一张北京地区商品营收表时,想查看全国的营收数据,就可以通过血缘查看这张表的上游或者下游表,快速获取对应数据。部分新来的同学对企业内部数据情况不是很熟悉,数据地图还支持将各类常用表作为官方数据专辑给到所有用户,并且在搜索时会推荐信息更加完善的表。









数据建模与数据地图解决了大部分的找数问题,在用数阶段,DataWorks提供了统一的SQL查询分析工具,找到表后通过SQL的方式就可以直接进行快速查询,里面在今年更新了众多的体验优化能力。

  • 页面布局可以切换上下布局和左右布局,左右布局可以更好利用一些外接显示器场景,显示信息更多
  • SQL编辑器提供自动的代码补全,代码格式化、代码高亮等能力
  • 查询结果展示可以分为明细数据模式和图表模式,支持拖拉拽进行快速地图表编辑
  • 针对数据的上传和下载开通了快捷入口,也支持针对数据下载条数进行管控





数据分析是方便业务同学直接使用,但是面对更多复杂的业务需求,必须采用定制化的开发形式,在这个时候,数据治理平台也需要提供更多的开放性,来满足不同的需求。DataWorks除了0代码生成数据服务API的能力,还提供了整套开放平台能力,包含OpenAPI、开放事件以及扩展程序(插件),允许用户自有系统与DataWorks进行深度对接,以及对DataWorks的处理流程进行自定义,业务部门可以自定义数据治理需求与应用能力。



DataWorks与阿里巴巴集团内部多个部门合作,目前各个事业部累计模型表数超过1万张,核心表使用人数提升64%,开放平台API日均调用次数超过1500万次,平台月活跃小二超过万人,取得了一定的效果。



▌小结

数据应用提效治理从数据建模、数据地图、数据分析、数据服务、开放平台等方面进行多管齐下的治理,展开讲的话内容非常多,涉及了我们大数据平台用户可能使用到的各个角落,可以说是一个注重体验的系统性工程。另外面向应用,DataWorks还在构建一个数据资产平台的产品,从使用的维度对数据进行更好地整合,方便用户更高效地使用数据。



鲜花

握手

雷人

路过

鸡蛋

最新评论

返回顶部