2万字揭秘阿里巴巴数据治理平台DataWorks建设实践

2023-2-20 11:24| 发布者: admin| 查看: 10443| 评论: 0

摘要: 简介：阿里巴巴一直将数据作为自己的核心资产与能力之一，从最早的淘宝、天猫等电商业务，到后续的优酷、高德、菜鸟等板块，DataWorks、MaxCompute、Hologres等产品用一套技术体系来支持不同业务的发展与创新，为企 ...

ODPS-MaxCompute在2022年全新发布了弹性CU能力，在过去预留 CU 的基础上，可以设置不同的弹性策略，选择指定时间段的弹性规格。一方面降低使用成本，避免过去为了高峰期的执行效率，预留较多 CU，在低峰期浪费资源的情况，通过弹性实现削峰填谷。例如原先为了保障资源稳定性，购买100CU包年包月资源，但是这100CU使用效率是不一样的，凌晨高峰期使用率高，白天使用率低，资源有一定浪费。弹性CU的方式可以购买更多的分时弹性CU资源，例如高峰期300CU，低峰期50CU，实现资源的弹性分配。基于原先按量付费以及包年包月形式，ODPS-MaxCompute弹性CU可以让整体成本再降低25%，多种灵活的资源使用方式带来TCO的最低。

在传统的数据架构中，分为离线、实时、在线三种链路。

通过如Hive，Spark，MaxCompute等离线加工引擎处理大规模数据
通过如Flink、Spark Streaming等流式加工技术来实现计算前置，并将计算结果保存在HBase、Redis等系统提供快速访问
通过Clickhouse、Druid等实时系统，计算规模不如离线，但交互式分析能力比离线统计更灵活，支持数据的实时写入，以数据接近源时的状态直接灵活分析。这种纷繁芜杂的复杂架构带来的是极高的维护成本与技术成本。

这三种链路对应不同的技术架构及存储引擎，数据产生了割裂，割裂之后还需要补充联邦查询技术，对外提供一个统一的查询入口，但是数据散布在不同的系统里面，也许可以解决统一数据界面的问题，但性能和一致性很难保证，性能上联邦查询是和最慢的执行过程对齐，一致性上一个源头多条链路，加工逻辑很难保证处处一致，日常数据偏差和核对工作量很大。

ODPS-Hologres提供高性能的实时交互式计算引擎，基于一站式实时数仓的HSAP（Hybrid Serving & Analytical Processing，分析服务一体化）理念，同时满足OLAP分析、点查、交互式查询等多种实时需求。

在离线方面，通过统一存储，统一调度、统一元数据、和MaxCompute无缝打通，数据无需导出至Hologres，实现离线实时一体化架构。
在实时与在线部分，Hologres在存储层，既支持批量数据的导入，也支持在线的实时写入与更新，不管是离线的数据还是实时的数据都可以存储在一个系统，在服务层，支持多种负载，保证了高性能的在线点查应用，也支持灵活的多维分析，提供统一数据服务层，减少数据割裂。

通过这种全新的方式，Hologres将传统的离线、实时、在线三种链路进行最大的简化，通过1.3亿TPS写入，亿级数据亚秒级查询，打破TPC-H世界记录的极致性能，实现成本与性能的平衡。

2022年，Hologres发布一主多从的模式，通过共享存储再次降低实时数仓的成本，共享存储实时高可用，多Region部署数据自动复制，秒级灾备，当指定一个实例是写实例时，其他实例就是读实例，当写实例写好之后，其他实例实时可见做到了数据一致性。并且弹性计算层的实例实现物理隔离，当写入实例宕机后，不会影响只读实例。

▌小结

引擎降本核心是向技术要红利，不断突破技术的极限。阿里云ODPS（OpenData Platform and Service）自2009年开始建设至今，提供规模化批量计算、实时交互式计算、流式计算等可扩展的智能计算引擎，是目前中国最早自研，应用范围最大，能同时支持超过10万台服务器并行计算的大数据智能计算平台。

平台降本-DataWorks数据治理中心

有了良好的基础设施和引擎体系，再往研发平台和研发过程走一层，就是面向我们的成本治理目标的治理策略的落地，其实就是围绕着我们实际多角色、多业务、持续增长的数据需求带来的数据治理工作了。

业务高速增长往往配套着计算存储成本的增长，而当面对计算存储的扩容需求时，数据治理组、业务数据治理组、财务等多个团队，需要有一个通用的衡量标准，来判断是否是满足正常业务需求增长所需的资源消耗，还是存在大量资源使用不合理和浪费现象。
而对于技术团队来说，如果要进行面向成本领域的数据治理工作，那到底是业务领域的研发团队需要重点投入，哪些团队来负责治理效果，具体落实治理动作的责任人是谁，通过哪些措施和动作真正最大程度地提升了治理效果，获取了更高的业务ROI，这也需要有一个衡量标准来定义治理的效果。

DataWorks数据治理中心提供了数据治理的量化评估、数据治理问题自动发现和预防，数据治理问题快速处理等能力，将书面的数据治理规范落地成平台化的产品能力，让数据治理不再一个 “阶段性项目”，而是一个“可持续的运营项目”。

在阿里巴巴内部，我们做数据治理的时候，经常会参考一个健康分的概念。对于某个BU来说，比如我们今年的目标之一，就是把健康分从60分干到80分。健康分涉及的治理领域有计算、存储、研发、质量、安全等各个方面，围绕这些领域会形成具体的治理策略与方法，这些策略和方法有些事集团统一的规定，有些是部门基于自己的业务情况自己制定的，但基本也都是围绕分析、诊断、定位、优化、评估、建议等流程来进行。

这里面如果涉及产品化的需求就会提给DataWorks团队，例如治理中心、治理工作台、健康分等等。大家一起共同建设治理平台，DataWorks上很多数据治理的能力，也离不开我们这么多兄弟团队给我们提供的建议。围绕健康分这种考核指标，各个团队就会有一个统一的衡量标准，大家可以往一个目标共同努力，从组织层面，这也是健康分非常重要的价值。

DataWorks数据治理中心的健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据，用数据处理及机器学习等技术，对各类型数据进行综合处理和评估，在个人、工作空间的维度客观呈现数据资产状态的综合分值。健康分体系，以元数据建设为依托，建设集“存储、计算、研发、质量和安全”的五大健康度领域，构建“存储健康分、计算健康分、研发健康分、质量健康分和安全健康分”五大健康分指标。

健康分的分值范围为0至100，分值越大代表数据资产的健康度越好，较高的健康度可以帮助用户更放心、更高效、更稳定的使用数据，保障数据生产和业务运转。

而数据治理专家梳理日常通过人肉治理的问题和逻辑，沉淀为DataWorks数据治理中心的数据治理项，并在数据治理中心定义对应治理领域，让治理项落入对应领域进行综合评分，同时还进行：

在治理的过程中，不断丰富完善治理领域：比如在集团内部实践时，治理过程也是逐步迭代和专项拓展的。首期成本治理阶段，治理小组先选择「存储」治理维度进行攻坚，将基于目标治理业务中，关于「存储」维度相关的高ROI的存储治理项，进行规则定义和治理检查。

比如，数据治理中心需要针对数据表要求用户进行存储生命周期管理，不使用和访问的数据需要及时回收，释放存储空间。那首先定义存储管理是否进行，最明显的识别方式，即为是否为产出的数据表设置了生命周期，进而，在设置了生命周期的基础上，则需要判断设置的生命周期值是否合理，是否过度保存了项目空间中的无用数据。针对这几种情况，治理专家和平台侧，定义治理项及对应口径，并沉淀优化治理规则，比如：

1.未管理数据表：未设置生命周期的分区表进行识别，当同时满足以下条件，数据表是分区表，没有设置生命周期，且近30天没有访问时，就命中该治理项，并判定该表为未管理的数据表。治理小组也根据提供对应的处理操作建议，优先建议用户进行生命周期的快速设置。针对一些需要长期保留的数据，也可通过设置白名单或设置长生命周期的方式来处理。

2.无访问数据表：该治理项则是针对进行了初步管理，但是实际是无用数据进行识别。占用了大量存储但是无下游访问的数据表，通常情况下是僵尸数据或者冷数据，需要用户进行处理识别，进行合理生命周期设置，或者进行删除操作。

针对「存储」维度进行专项治理，通过明确的「治理项」发现问题，让资产负责人根据DataWorks数据治理中心提供的建议及治理手段完成治理，实现在存储维度的健康分提升。

这样在下个阶段，治理小组可以再进行阶段性工作的定义和该项领域的治理知识沉淀、深化，如在实际实践中，在完成首期存储治理后，治理小组：

1.重点开始攻坚「计算」维度，定义计算侧重点关注的治理项，进行落地推动，如增加对「数据倾斜」、「暴力扫描」的计算任务识别，逐步分析完成每阶段的成本优化工作的推进，以及最终成本节省效果的统计；

2.深化「存储」维度，增加对「空表」「90天内无读取使用表」等治理项，供下阶段治理计划识别，减少该类无效数据对于数据成本、数据使用的影响；

3.基于DataWorks数据全流程链路，平台工具化治理能力，并针对于不同的治理项，提供不同的直接可用的治理手段，并且为了预防，提供基于各个过程的提前检查项。做到从根本上进行提前规约。

当治理小组完成对治理项的制定后，实际的数据表及任务的责任人，则成为了最细粒度的数据成本治理的责任方。在长效机制上，DataWorks数据治理中心以个人治理的健康分提升，带动全局的持续治理优化，并面向管理员和普通成员提供不同层次的统计，简化治理推进的难度。当前我们在阿里云上已经为企业累计发现数据治理问题抄过100万+，数据治理问题处理率达60%，事前治理问题拦截率达到36%。

▌小结

平台工具层以数据治理健康分为抓手，从存储、计算、研发、质量、安全等五个维度给出评估与治理方案，帮助用户更快地发现并处理各类数据治理问题，引导用户逐步进行数据治理建设，将“书面化”的数据治理规范落地成“主动式、可量化、可持续”的全链路数据治理。

七、数据治理组织架构及文化建设

刚才说的大部分和技术相关一些，但是对于数据治理来说，人与技术同样重要。相比与以前专注与技术本身，数据治理和其他团队的协同关系更强，更需要一个紧密、完善的组织不断去计划、实施、优化数据治理的工作。

数据治理组织架构设计

阿里的数据治理组织架构分为三层，整个架构的整体好处，是保证工作总体目标和方法统一，各领域的子目标服从与所属的业务部门，并且能够贴近业务。包含

数据专业委员会。属于整个集团层面，主要是从宏观层面上的职能确认。CDO为该组织的牵头负责人，作为多个大部门共同执行落地的组织背书方。
数据治理专题小组。从属于集团专业委员会下，更专注于数据治理本身命题的，则是数据治理专题组：制定数据治理规范，协调各团队目标与进度，沉淀各类治理实践，组织数据治理运营等各项工作。
数据治理团队。各个功能部门下的领域数据治理部门，有专注于平台工具建设的数据平台团队、有专注自身业务领域下的对口业务数据治理团队、还有其他协同的财务、法务、安全团队，这些团队都有专人加入整个数据治理的工作中，以财年和季度为时间周期，确定各阶段的治理工作目标。

最终整个组织需要完成几件事情：

1.不断持续迭代企业级治理规范：如，阿里巴巴数据资产治理规范，随着业务的诉求和实际积累经验不断修订与迭代；

2.定期确定企业级和业务级的治理目标，确认年度/季度的总体目标和分拆目标，建立使用资产健康分作为集团统一普查衡量标准，进行短期和长期的标准评估方式，统一各方认知，降低沟通消耗。

3.不断配合治理目标达成的同时，也需要降低数据治理的成本，配套确认长期性、常态化的策略、工具、文化的建设内容和配合方式。

数据治理文化的建设

互联网公司本身是一个注重运营的企业。而成本治理过程本身，也是在帮助企业建立对数据资产的一种运营，通过对计算资源、存储资源、计算过程、治理人员、治理过程、业务产出都作为运营内容的一种，来实现最终业务价值的最大化。数据治理的建设目标是期望建立是一个通用框架，主动式治理、各个业务方可扩展，不影响业务的情况下，同样能推动业务方完成数据治理，真正各方实现获益。

针对于我们本身的数据团队人员的数据专业技能+职业素养能多阶梯的上升，也是适应日新月异的治理需求，现代化的云产品开发、财务管理、人才培养的的对应手段。所以治理文化的建设在我们内部实践时，也是一个非常重要的环节。它是让能够持续进行数据治理运营，让数据治理成为常态化工作的组成部分。例如治理大比武、治理培训、月刊/季刊/考试、部门预算管理、治理评选与激励。

治理培训。数据治理专题小组通过数据大学，制定一套通用的数据治理课程，分享一些通用的体系、规范、工具的课程，参与培训后还可以参加考试认证。

治理大比武。数据治理专题小组发起各事业部大比武评比活动，从数字结果、长期价值、团队合作、个人成长等各个方面进行PK和评选。有些事业部可能关心计算成本，有些关心稳定性、有些关心规范，项目类型丰富，也是一个非常适合大家互相交流学习的场合。

总结

通过以上的数据治理场景实践，我们可以看到，数据治理平台的建设不是一蹴而就的，是通过长时间的积累进行逐步演进的，DataWorks在阿里巴巴十几年大数据建设中沉淀了数百项核心能力，从全链路上，主要包含了智能数据建模、全域数据集成、高效数据生产、主动数据治理、全面数据安全、快速分析服务等能力，其中还有众多细节受限于篇幅无法一一讲述，例如一般的运维只提供成功、失败两种状态，DataWorks提供了运行慢、等资源等多种分析结果，甚至做到了孤立节点、成环节点这种非常精细的状态治理，这些都是在每个场景逐步深入后的成果。

对于未来的判断，目前我们可以明显看到的几个数据治理趋势有：

政策法规不断完善

国家发布了各类培育统一的数据要素市场指导建议与法律法规，我们相信未来数据产权制度、流动交易制度、收益分配制度、安全治理制度等将不断完善，指导数据治理平台在各个方面不断补充平台能力。

开发治理一体化

先开发后治理，这个肯定会逐步的迈出历史的舞台，所以后续所有治理工作应该事先融入开发的过程，而不是“先污染后治理”，生产运维、生产治理要实现一体化管理。

自动化数据治理

刚才我们提到的数据治理涉及多个模块，多个操作，如果未来我们将模块与模块之间，功能与功能之间、操作与操作之间，实现流程的自动化，例如：元数据自动发现、自动采集、自动打标、自动归类等，同时对应匹配一些智能化的数据治理策略或者模板，将会极大提高我们数据治理的效率。

DataWorks服务了阿里巴巴集团内部所有事业部，包含天猫、淘宝、1688、速卖通、优酷、高德、本地生活、盒马、菜鸟、钉钉等等，成为各个事业部通用的数据开发治理平台。同时还通过阿里云将阿里巴巴数据治理的最佳实践输出给云上客户，目前已经服务的企业客户数已经超过1万家，覆盖了工业制造、能源、汽车、金融、零售、政务、互联网等等行业，既有大型央企、国企、世界500强企业，也有刚开始创业1-2年的中小企业，从平台的通用性上，DataWorks可以满足不同行业，不同企业发展阶段的大数据开发治理需求。

国家电网大数据中心通过DataWorks实现总部+27家省（市）公司PB级数据的统一管理，通过全链路数据中台的治理与监测运营体系，加快电网整体数字化转型升级。
亿滋中国作为世界500强零食企业，通过DataWorks智能数据建模进行全链路的数据模型治理，极大提升数据中台的自服务能⼒，让企业数据决策实现下放，释放新零售的数字化力量。
友邦人寿基于阿里云搭建金融数据中台，承接了10倍业务流量的高峰，让数据处理效率提升20倍，企业整体算力成本节省达数百万。
“非洲之王”传音互联有力支撑集团互联网业务，数据治理效率提升2-3倍，为集团95%以上的业务增长赋能，带领更多中国企业品牌走向全球新兴市场。
哪吒汽车逐步完善数据治理与数据湖能力，依靠稳定可靠、性能卓越、弹性扩展的大数据平台，未来将支持超过60万+量汽车，数PB级别的数据分析。
三七互娱以DataOps理念激活数据价值，建设自动化、敏捷、价值导向的数据体系，解决数据获取难、业务响应慢、数据场景单一等数据消费的痛点，利用数据驱动运营精细化。
创梦天地基于开源的EMR引擎，用DataWorks替换自研调度系统，企业内部的技术人员可以更加专注业务，助力游戏行业的数据化运营。

数据治理是一个庞大的话题，涉及广泛，DataWorks作为工具型的产品，不变的是围绕用户为中心，让开发人员减少低效的重复劳动，全方位提升企业数据效率，为企业降本增效。如果想了解更多DataWorks及文中相关产品信息，可以在阿里云官网找到我们。最后，我们也非常感谢集团内各个兄弟部门及阿里云上各个行业的客户给我们提供了很多场景与建议，也欢迎与其他专家进行深度的交流探讨。

DataWorks官网：https://www.aliyun.com/product/bigdata/ide

1 2 3 45 / 5 页

鲜花

握手

雷人

路过

鸡蛋

收藏邀请

上一篇：立足全栈自主创新，联通云“一云多芯”铸强算力基础设施下一篇：阿里云Elasticsearch让搜索上云像使用“水电”一样简单

2万字揭秘阿里巴巴数据治理平台DataWorks建设实践

最新评论

相关分类