针对多角色协作式的数据流程,基于DataWorks了提供统一的数据质量平台工具,能在一个平台上流水线式地完成所有协作过程。围绕开发、部署、运维和监控环节的工具能力提升,极大简化了数据团队各角色的日常工作流程。在持续监控的数据质量监控的基础上,加强事中防控质量问题,事前预防校正问题维度,让数据质量在每个环节起作用,各个角色侧都能高效落地。 1.事前:在研发过程中保障代码质量,提前规避质量问题,通过代码检测、质量自测的能力让研发可以提前消灭问题; 2.事前:让测试更有效地进行质量测试,提供上线前的冒烟测试、对比测试,从之前仅完成基础功能验证的测试,完善拓展其测试维度,不断积累围绕业务承诺要求的规则,从而让研发和运维都能够进行快速地自动化测试,持续进行数据链路的部署更新 3.事中:数据质量检测任务直接关联调度任务产出。做到数据即产出即检查,当高保障数据任务运行时,上游数据出现脏数据时,能及时阻断任务,规避质量问题数据对下游的影响,并通过告警机制及时提醒用户进行任务处理。 针对需要高保障的大批量数据表的质量管理需求,也能让质量责任人以低成本方式,提升规则覆盖率,减少人工配置负担,降低阈值设置难度和规则误报率。而在海量数据、多种数据种类情况下,由系统保障平台性能,做到大数据量下质量监控仍能高效运行,并且尽可能减少对业务数据链路产出的资源消耗影响,做到以最小成本执行。面向复杂数据架构的场景时,也能针对多种引擎下的数据,持续地保障数据的一致性及质量管理的延续性。 数据质量规则作为承载保障体系的重要载体,从人肉防控梳理,做到平台规则沉淀的自动检测,最终走向质量高效化的智能管理。这里面有大量的基础性工作:
平台整个完成面向不同业务实体的质量治理过程,由平台侧和质量保障小组,不断沉淀通用平台侧和业务维度侧的质量规则模板。整个过程中,针对不断产生的新的数据表及相似业务,提供快速模板化规则配置、规则推荐,并根据历史的业务运行结果进行动态阈值的智能判定,减少新数据和新用户的配置成本,减少对需要关注指标及数据的质量治理的遗漏,全面提升数据可信度与价值密度。 最终沉淀为针对数据生产过程的质量稳定性全流程保障方案,从平台、规范、组织三方面完成了相应建设和沉淀,根据实际的业务流程和数据流程完成。 1.质量治理策略:建立线上数据质量问题管理处置机制 2.质量问题监控:建立全流程数据质量问题的监控和预防体系 3.质量协同处理:建立上下游协同的工作流程 4.质量度量评估:建立可复用的数据标准和统一的质量评估体系 最后,我们还是要从业务关注我们的治理效果,以开头举例的包裹质量问题为例,通过数据质量治理的建设,以及围绕业务对象的协作规则沉淀。 不仅从数据端,能够完成对数据的异常监控、推送和分析,使得可以及时对数据质量异常问题进行修复。 同时,从业务端,也针对测试的数据,通过规则进行了前置校验,在数据流入时就进行了限制和告警,也能让业务端小二也能进行异常情况的责任判定,通过标准质量数据修复动作进行数据修复。 整体包裹参数的数据准确率提升至99%以上,通过数据质量治理也推动了业务流程在质量保障环节的优化,最终为我们的业务高价值服务进行了更好地保障。 ▌小结 数据生产端的治理除了规范性、稳定性,还包含了数据质量。数据质量问题往往能直接产生业务问题,所以数据质量管理,需要如同产品质量管理一样,贯穿于数据生命周期的各个阶段。在持续监控的数据质量监控的基础上,数据质量平台加强事前预防校正问题、事中防控质量问题的能力,以及各类用户智能配置、智能阈值判定等能力,让数据质量在每个环节起作用,各个角色侧都能高效落地。 四、数据应用提效治理 刚才的数据生产稳定性与质量稳定性,更多解决第一阶段“有”数据的治理问题,接下来进入第二阶段,进行数据应用的时候,一线的业务同学在使用数据时也会碰到众多难点。例如:
想找的数据,不知道去哪找,特别是用业务术语去找的时候 相似表太多,不知道用哪个 搜索的结果太多,需要逐一点击查看 搜索的结果不准,很多和自己的业务不相关
表命名奇怪,字段没有注释,缺少文档 表注释太简略,没有有效信息 人工问口径耗费大量时间 很多表的owner是被交接的,也不清楚业务逻辑 如何快速开放数据或者构建个性化数据应用 面对这些问题,用户找数/用数等应用场景的提效需要多管其下,比如最开始提到的数据规范,如果数据模型做好了,就可以在源头上提升数据的可读性,避免针对数据释义的多次频繁沟通,并消除数据指标的二义性。 基于元数管理的能力,DataWorks提供数据地图功能。在数据地图里,可以实现元数据的自动采集与数据目录能力,针对找数常用的检索功能,提供表/字段/模型/指标等多种检索能力,并提供数据血缘能力,例如业务同学检索到一张北京地区商品营收表时,想查看全国的营收数据,就可以通过血缘查看这张表的上游或者下游表,快速获取对应数据。部分新来的同学对企业内部数据情况不是很熟悉,数据地图还支持将各类常用表作为官方数据专辑给到所有用户,并且在搜索时会推荐信息更加完善的表。 数据建模与数据地图解决了大部分的找数问题,在用数阶段,DataWorks提供了统一的SQL查询分析工具,找到表后通过SQL的方式就可以直接进行快速查询,里面在今年更新了众多的体验优化能力。
数据分析是方便业务同学直接使用,但是面对更多复杂的业务需求,必须采用定制化的开发形式,在这个时候,数据治理平台也需要提供更多的开放性,来满足不同的需求。DataWorks除了0代码生成数据服务API的能力,还提供了整套开放平台能力,包含OpenAPI、开放事件以及扩展程序(插件),允许用户自有系统与DataWorks进行深度对接,以及对DataWorks的处理流程进行自定义,业务部门可以自定义数据治理需求与应用能力。 DataWorks与阿里巴巴集团内部多个部门合作,目前各个事业部累计模型表数超过1万张,核心表使用人数提升64%,开放平台API日均调用次数超过1500万次,平台月活跃小二超过万人,取得了一定的效果。 ▌小结 数据应用提效治理从数据建模、数据地图、数据分析、数据服务、开放平台等方面进行多管齐下的治理,展开讲的话内容非常多,涉及了我们大数据平台用户可能使用到的各个角落,可以说是一个注重体验的系统性工程。另外面向应用,DataWorks还在构建一个数据资产平台的产品,从使用的维度对数据进行更好地整合,方便用户更高效地使用数据。 |