赋能基于数据的卓越:Bluestone 数据平台如何通过数据网格实现成功 大数据博客
Bluestone 数据平台如何通过数据网格实现成功
作者 Toney Thomas Ben Vengerovsky Rada Stanic日期 2024年2月27日发布在 Amazon Redshift AWS Glue AWS Lake Formation 客户解决方案 金融服务分享链接
关键要点
现代化数据基础设施 Bluestone在转型中采用数据网格架构,实现数据的去中心化管理。AWS服务的整合 通过Amazon Redshift和AWS Glue等服务,Bluestone增强了数据治理和存取能力。数据质量保证 实施数据质量框架,确保数据的可靠性和一致性。文化转变 通过自助服务和数据治理工具,推动组织内的数据驱动决策文化。在金融和借贷快速发展的环境中,实时且可靠的中央数据需求十分迫切。作为领先的金融机构,Bluestone开启了现代化数据基础设施和向数据驱动组织转型的旅程。本文探讨了Bluestone如何利用AWS服务,尤其是云数据仓库服务Amazon Redshift,实施先进的数据网格架构,改变其数据资产的管理、访问和利用方式。
挑战:从传统到现代化
Bluestone的传统SQL基础借贷平台面临竞争压力,必须进行基础设施现代化。这一转型包括转向基于软件即服务(SaaS)的贷款发放和核心借贷平台。由于新系统产生了大量数据,确保所有数据消费者有一致的数据源成为了一大挑战。
Bluestone 数据平台的诞生
为了满足集中、可扩展和可治理数据的需求,Bluestone推出了Bluestone 数据平台,成为组织中所有与数据相关活动的中心。AWS在实现这一愿景中发挥了关键作用。
Bluestone数据平台的关键组成部分包括:
数据网格架构 Bluestone采用数据网格架构,将数据所有权分散到不同的业务部门。每个数据生产者在Apache Hudi格式中拥有自己的数据湖,以确保数据的主权和自治。四层数据湖和数据仓库架构 这一架构包括分析层,存放专用事实和维度数据集,托管在Amazon Redshift上。这些数据集对于报告和分析用例至关重要,由Amazon Redshift等服务和Power BI等工具提供支持。机器学习分析 不同业务部门如服务、借贷、销售和市场、财务、信用风险使用机器学习分析,这些分析运行在数据湖和数据仓库中的维度模型之上,使得决策能够基于数据。治理和自助服务 Bluestone数据平台提供治理、策划以及自助服务的路径,适用于所有数据用例。AWS服务如AWS Lake Formation与Atlan结合,帮助治理数据访问和政策。数据质量框架 为确保数据可靠性,他们实施了数据质量框架,持续评估数据质量并将质量分数同步到Atlan治理工具当中,为数据资产注入信心。下图展示了更新后的数据平台架构。
AWS及第三方服务的角色
AWS在推动Bluestone数据平台的发展中扮演了重要角色。以下AWS和第三方服务对Bluestone向数据驱动组织转型至关重要:
Amazon Redshift Bluestone利用Amazon Redshift的强大功能及其数据共享特性,构建了数据资产的中心化库。这一战略性的举措促进了各业务部门之间的数据共享和协作,使得数据驱动的决策成为可能。Lake Formation Lake Formation成为Bluestone数据治理战略的基石,实施数据访问控制和政策,保护敏感数据并符合监管要求。数据质量监控 Bluestone部署了强大的数据质量框架,以维持数据的可靠性和准确性。AWS服务在此提供了支持,与开源工具结合,建立了内部数据质量监控系统,持续评估数据质量。数据治理工具 Bluestone通过AWS Marketplace选择Atlan,实施全面的数据治理工具。这一SaaS服务在多个业务团队的入驻中发挥了关键作用,促进了数据文化的形成。利用Amazon MWAA进行流程编排 Bluestone依赖于Amazon Managed Workflows for Apache Airflow (Amazon MWAA)来高效管理流程,确保流程与各类数据质量规则相结合,运用Great Expectations 评估工具持续监控数据质量。AWS DMS Bluestone利用AWS Database Migration Service (AWS DMS),简化了传统数据向数据平台的整合,顺利将数据从SQL Server仓库转移至数据湖和数据仓库,确保数据的连续性和可访问性。AWS Glue Bluestone使用AWS Glue的PySpark环境实施数据提取、转换和加载(ETL)流程,处理不同源系统的数据,确保数据的合规性与一致性,适用于分析使用。AWS Glue 数据目录 Bluestone通过AWS Glue 数据目录实现数据管理的集中化,使数据资产的可发现性和可访问性得以增强。AWS CloudTrail Bluestone实施AWS CloudTrail以严格监控和审计平台活动,这一安全服务为平台行动提供了必要的可见性,确保数据运营的合规和安全性。AWS综合的服务套件在推动Bluestone数据平台走向数据驱动成功的道路上发挥了重要作用。这些服务不仅优化了数据治理、质量保证和流程编排,也促进了组织内的数据中心文化,最终实现了更好的决策和竞争优势。Bluestone的转型之路展示了AWS在帮助组织成为各自行业数据驱动领导者方面的力量。
Bluestone数据架构
Bluestone的数据架构经历了动态转型,从湖屋架构迁移至数据网格架构。这一演变源于组织对分布式所有权数据产品的需求,以及需要集中管理和访问这些数据产品的机制。
下图展示了解决方案架构及其在AWS和第三方服务中的应用。
深入分析这一架构的转变及其内涵:
变革的需求 转型的催化剂是对各业务部门独特需求的离散数据产品的日益渴望。由于这些业务单元各自生成自己的数据资产,管理、治理和访问这些多样化数据存储成为了挑战。Bluestone意识到需要更有结构和可扩展的方法。分布式所有权的数据产品 针对这一需求,Bluestone采用了数据网格架构,使得能够根据不同业务单元的需求创建独立的数据产品。每个数据产品独立存在,生成和策划其特定领域的数据资产。这些数据产品作为独立的数据中心,确保了数据自主性和专业化。集中目录集成 为了简化分散的数据资产的发现和可访问性,Bluestone引入了一个集中目录。这一目录作为统一的库,注册所有数据产品各自的数据资产,成为数据发现和管理的关键组成部分。数据治理工具集成 确保全局数据治理和血统跟踪是另一重要考虑因素。Bluestone实施了强大的数据治理工具,与集中目录相连接,确保数据资产整体血统得到全面绘制和记录,并一致性执行数据治理流程,确保数据质量和合规性。利用Amazon Redshift数据共享实现控制和访问 为了方便控制和安全地访问各独立数据产品Redshift实例中的数据资产,Bluestone采用了Amazon Redshift的数据共享功能。这一能力允许选择性地暴露和共享数据资产,提供细粒度的访问控制,同时保持数据安全和完整性。总而言之,Bluestone从湖屋架构到数据网格架构的转型,代表了数据管理和治理的战略性转变。这一转变使得不同业务单元能够在其数据领域内独立运作,同时确保集中控制、治理和可访问性。集中目录和数据治理工具的集成,加之Amazon Redshift数据共享的灵活性,共同构建出一个数据驱动决策蓬勃发展的生态系统,为Bluestone在瞬息万变的金融领域取得成功做出了贡献。
结论
Bluestone从传统SQL基础系统到AWS上的现代数据网格架构的转型,提升了组织与数据的互动方式,使其在金融行业中成为数据驱动的强者。通过拥抱AWS服务,Bluestone成功构建了一个集中、可扩展和可治理的数据平台,使得团队能够做出明智的决策、推动创新并在竞争激烈的市场中领先。这一转型无疑证明了Amazon Redshift和AWS云数据共享功能为希望踏上数据驱动之旅的组织提供了良好的途径。
关于作者
Toney Thomas是Bluestone的数据架构师和数据工程负责人,以构思并制定公司的先行数据战略而著称。他专注于利用先进技术解决复杂商业挑战,领导着一个由数据工程师、报告工程师、质量保障专员和业务分析师组成的团队。在他的领导下,Bluestone取得了显著成果,包括部署类似于全面治理的数据网格业务数据系统,嵌入数据质量机制,完美契合组织对数据民主化和卓越的承诺。
猎豹加速官网Ben Vengerovsky是Bluestone的数据平台产品经理,热衷于通过云技术革新公司的数据基础设施。他在抵押贷款领域有丰富的背景,深谙AWS服务,专长于设计可扩展且高效的数据解决方案,以推动商业增长和增强客户体验。他喜欢与跨功能团队合作,将业务需求转化为创新技术解决方案,助力数据驱动决策。
Rada Stanic是亚马逊网络服务的首席技术专家,帮助澳大利亚和新西兰的客户通过AWS云技术解决业务问题。她的特别关注领域包括数据分析、机器学习/人工智能和应用现代化。
加载评论
测量 AWS Glue 数据质量在 ETL 管道中的表现 大数据博客
AWS Glue 数据质量在 ETL 管道中的性能测量作者:Ruben Afonso Gonzalo Herreros Kalyan Kumar Neelampudi 于 2024 年 3 月 12 日发布于 分析、AWS Glue、中级、技术操作指南点评 分享 推特 领英 邮件关键要点数据湖已成为...