ODPS-MaxCompute在2022年全新发布了弹性CU能力,在过去预留 CU 的基础上,可以设置不同的弹性策略,选择指定时间段的弹性规格。一方面降低使用成本,避免过去为了高峰期的执行效率,预留较多 CU,在低峰期浪费资源的情况,通过弹性实现削峰填谷。例如原先为了保障资源稳定性,购买100CU包年包月资源,但是这100CU使用效率是不一样的,凌晨高峰期使用率高,白天使用率低,资源有一定浪费。弹性CU的方式可以购买更多的分时弹性CU资源,例如高峰期300CU,低峰期50CU,实现资源的弹性分配。基于原先按量付费以及包年包月形式,ODPS-MaxCompute弹性CU可以让整体成本再降低25%,多种灵活的资源使用方式带来TCO的最低。 在传统的数据架构中,分为离线、实时、在线三种链路。
这三种链路对应不同的技术架构及存储引擎,数据产生了割裂,割裂之后还需要补充联邦查询技术,对外提供一个统一的查询入口,但是数据散布在不同的系统里面,也许可以解决统一数据界面的问题,但性能和一致性很难保证,性能上联邦查询是和最慢的执行过程对齐,一致性上一个源头多条链路,加工逻辑很难保证处处一致,日常数据偏差和核对工作量很大。 ODPS-Hologres提供高性能的实时交互式计算引擎,基于一站式实时数仓的HSAP(Hybrid Serving & Analytical Processing,分析服务一体化)理念,同时满足OLAP分析、点查、交互式查询等多种实时需求。
通过这种全新的方式,Hologres将传统的离线、实时、在线三种链路进行最大的简化,通过1.3亿TPS写入,亿级数据亚秒级查询,打破TPC-H世界记录的极致性能,实现成本与性能的平衡。 2022年,Hologres发布一主多从的模式,通过共享存储再次降低实时数仓的成本,共享存储实时高可用,多Region部署数据自动复制,秒级灾备,当指定一个实例是写实例时,其他实例就是读实例,当写实例写好之后,其他实例实时可见做到了数据一致性。并且弹性计算层的实例实现物理隔离,当写入实例宕机后,不会影响只读实例。 ▌小结 引擎降本核心是向技术要红利,不断突破技术的极限。阿里云ODPS(OpenData Platform and Service)自2009年开始建设至今,提供规模化批量计算、实时交互式计算、流式计算等可扩展的智能计算引擎,是目前中国最早自研,应用范围最大,能同时支持超过10万台服务器并行计算的大数据智能计算平台。 平台降本-DataWorks数据治理中心 有了良好的基础设施和引擎体系,再往研发平台和研发过程走一层,就是面向我们的成本治理目标的治理策略的落地,其实就是围绕着我们实际多角色、多业务、持续增长的数据需求带来的数据治理工作了。
DataWorks数据治理中心提供了数据治理的量化评估、数据治理问题自动发现和预防,数据治理问题快速处理等能力,将书面的数据治理规范落地成平台化的产品能力,让数据治理不再一个 “阶段性项目”,而是一个“可持续的运营项目”。 在阿里巴巴内部,我们做数据治理的时候,经常会参考一个健康分的概念。对于某个BU来说,比如我们今年的目标之一,就是把健康分从60分干到80分。健康分涉及的治理领域有计算、存储、研发、质量、安全等各个方面,围绕这些领域会形成具体的治理策略与方法,这些策略和方法有些事集团统一的规定,有些是部门基于自己的业务情况自己制定的,但基本也都是围绕分析、诊断、定位、优化、评估、建议等流程来进行。 这里面如果涉及产品化的需求就会提给DataWorks团队,例如治理中心、治理工作台、健康分等等。大家一起共同建设治理平台,DataWorks上很多数据治理的能力,也离不开我们这么多兄弟团队给我们提供的建议。围绕健康分这种考核指标,各个团队就会有一个统一的衡量标准,大家可以往一个目标共同努力,从组织层面,这也是健康分非常重要的价值。 DataWorks数据治理中心的健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据,用数据处理及机器学习等技术,对各类型数据进行综合处理和评估,在个人、工作空间的维度客观呈现数据资产状态的综合分值。健康分体系,以元数据建设为依托,建设集“存储、计算、研发、质量和安全”的五大健康度领域,构建“存储健康分、计算健康分、研发健康分、质量健康分和安全健康分”五大健康分指标。 健康分的分值范围为0至100,分值越大代表数据资产的健康度越好,较高的健康度可以帮助用户更放心、更高效、更稳定的使用数据,保障数据生产和业务运转。 而数据治理专家梳理日常通过人肉治理的问题和逻辑,沉淀为DataWorks数据治理中心的数据治理项,并在数据治理中心定义对应治理领域,让治理项落入对应领域进行综合评分,同时还进行:
比如,数据治理中心需要针对数据表要求用户进行存储生命周期管理,不使用和访问的数据需要及时回收,释放存储空间。那首先定义存储管理是否进行,最明显的识别方式,即为是否为产出的数据表设置了生命周期,进而,在设置了生命周期的基础上,则需要判断设置的生命周期值是否合理,是否过度保存了项目空间中的无用数据。针对这几种情况,治理专家和平台侧,定义治理项及对应口径,并沉淀优化治理规则,比如: 1.未管理数据表:未设置生命周期的分区表进行识别,当同时满足以下条件,数据表是分区表,没有设置生命周期,且近30天没有访问时,就命中该治理项,并判定该表为未管理的数据表。治理小组也根据提供对应的处理操作建议,优先建议用户进行生命周期的快速设置。针对一些需要长期保留的数据,也可通过设置白名单或设置长生命周期的方式来处理。 2.无访问数据表:该治理项则是针对进行了初步管理,但是实际是无用数据进行识别。占用了大量存储但是无下游访问的数据表,通常情况下是僵尸数据或者冷数据,需要用户进行处理识别,进行合理生命周期设置,或者进行删除操作。 针对「存储」维度进行专项治理,通过明确的「治理项」发现问题,让资产负责人根据DataWorks数据治理中心提供的建议及治理手段完成治理,实现在存储维度的健康分提升。 这样在下个阶段,治理小组可以再进行阶段性工作的定义和该项领域的治理知识沉淀、深化,如在实际实践中,在完成首期存储治理后,治理小组: 1.重点开始攻坚「计算」维度,定义计算侧重点关注的治理项,进行落地推动,如增加对「数据倾斜」、「暴力扫描」的计算任务识别,逐步分析完成每阶段的成本优化工作的推进,以及最终成本节省效果的统计; 2.深化「存储」维度,增加对「空表」「90天内无读取使用表」等治理项,供下阶段治理计划识别,减少该类无效数据对于数据成本、数据使用的影响; 3.基于DataWorks数据全流程链路,平台工具化治理能力,并针对于不同的治理项,提供不同的直接可用的治理手段,并且为了预防,提供基于各个过程的提前检查项。做到从根本上进行提前规约。 当治理小组完成对治理项的制定后,实际的数据表及任务的责任人,则成为了最细粒度的数据成本治理的责任方。在长效机制上,DataWorks数据治理中心以个人治理的健康分提升,带动全局的持续治理优化,并面向管理员和普通成员提供不同层次的统计,简化治理推进的难度。当前我们在阿里云上已经为企业累计发现数据治理问题抄过100万+,数据治理问题处理率达60%,事前治理问题拦截率达到36%。 ▌小结 平台工具层以数据治理健康分为抓手,从存储、计算、研发、质量、安全等五个维度给出评估与治理方案,帮助用户更快地发现并处理各类数据治理问题,引导用户逐步进行数据治理建设,将“书面化”的数据治理规范落地成“主动式、可量化、可持续”的全链路数据治理。 七、数据治理组织架构及文化建设 刚才说的大部分和技术相关一些,但是对于数据治理来说,人与技术同样重要。相比与以前专注与技术本身,数据治理和其他团队的协同关系更强,更需要一个紧密、完善的组织不断去计划、实施、优化数据治理的工作。 数据治理组织架构设计 阿里的数据治理组织架构分为三层,整个架构的整体好处,是保证工作总体目标和方法统一,各领域的子目标服从与所属的业务部门,并且能够贴近业务。包含
最终整个组织需要完成几件事情: 1.不断持续迭代企业级治理规范:如,阿里巴巴数据资产治理规范,随着业务的诉求和实际积累经验不断修订与迭代; 2.定期确定企业级和业务级的治理目标,确认年度/季度的总体目标和分拆目标,建立使用资产健康分作为集团统一普查衡量标准,进行短期和长期的标准评估方式,统一各方认知,降低沟通消耗。 3.不断配合治理目标达成的同时,也需要降低数据治理的成本,配套确认长期性、常态化的策略、工具、文化的建设内容和配合方式。 数据治理文化的建设 互联网公司本身是一个注重运营的企业。而成本治理过程本身,也是在帮助企业建立对数据资产的一种运营,通过对计算资源、存储资源、计算过程、治理人员、治理过程、业务产出都作为运营内容的一种,来实现最终业务价值的最大化。数据治理的建设目标是期望建立是一个通用框架,主动式治理、各个业务方可扩展,不影响业务的情况下,同样能推动业务方完成数据治理,真正各方实现获益。 针对于我们本身的数据团队人员的数据专业技能+职业素养能多阶梯的上升,也是适应日新月异的治理需求,现代化的云产品开发、财务管理、人才培养的的对应手段。所以治理文化的建设在我们内部实践时,也是一个非常重要的环节。它是让能够持续进行数据治理运营,让数据治理成为常态化工作的组成部分。例如治理大比武、治理培训、月刊/季刊/考试、部门预算管理、治理评选与激励。
03 总结 通过以上的数据治理场景实践,我们可以看到,数据治理平台的建设不是一蹴而就的,是通过长时间的积累进行逐步演进的,DataWorks在阿里巴巴十几年大数据建设中沉淀了数百项核心能力,从全链路上,主要包含了智能数据建模、全域数据集成、高效数据生产、主动数据治理、全面数据安全、快速分析服务等能力,其中还有众多细节受限于篇幅无法一一讲述,例如一般的运维只提供成功、失败两种状态,DataWorks提供了运行慢、等资源等多种分析结果,甚至做到了孤立节点、成环节点这种非常精细的状态治理,这些都是在每个场景逐步深入后的成果。 对于未来的判断,目前我们可以明显看到的几个数据治理趋势有:
国家发布了各类培育统一的数据要素市场指导建议与法律法规,我们相信未来数据产权制度、流动交易制度、收益分配制度、安全治理制度等将不断完善,指导数据治理平台在各个方面不断补充平台能力。
先开发后治理,这个肯定会逐步的迈出历史的舞台,所以后续所有治理工作应该事先融入开发的过程,而不是“先污染后治理”,生产运维、生产治理要实现一体化管理。
刚才我们提到的数据治理涉及多个模块,多个操作,如果未来我们将模块与模块之间,功能与功能之间、操作与操作之间,实现流程的自动化,例如:元数据自动发现、自动采集、自动打标、自动归类等,同时对应匹配一些智能化的数据治理策略或者模板,将会极大提高我们数据治理的效率。 DataWorks服务了阿里巴巴集团内部所有事业部,包含天猫、淘宝、1688、速卖通、优酷、高德、本地生活、盒马、菜鸟、钉钉等等,成为各个事业部通用的数据开发治理平台。同时还通过阿里云将阿里巴巴数据治理的最佳实践输出给云上客户,目前已经服务的企业客户数已经超过1万家,覆盖了工业制造、能源、汽车、金融、零售、政务、互联网等等行业,既有大型央企、国企、世界500强企业,也有刚开始创业1-2年的中小企业,从平台的通用性上,DataWorks可以满足不同行业,不同企业发展阶段的大数据开发治理需求。
数据治理是一个庞大的话题,涉及广泛,DataWorks作为工具型的产品,不变的是围绕用户为中心,让开发人员减少低效的重复劳动,全方位提升企业数据效率,为企业降本增效。如果想了解更多DataWorks及文中相关产品信息,可以在阿里云官网找到我们。最后,我们也非常感谢集团内各个兄弟部门及阿里云上各个行业的客户给我们提供了很多场景与建议,也欢迎与其他专家进行深度的交流探讨。 DataWorks官网:https://www.aliyun.com/product/bigdata/ide |