Santander UK的大数据之旅始于四年前。他们是Apache Kafka等新数据流技术的早期采用者,希望通过对移动用户使用实时数据和应用内分析来彻底改变客户体验。
从那时起,Santander UK通过大数据技术增强了创新能力,得到了迅速发展。对大规模流式分析的需求大为增加并成为当下需求。今天,在Santander UK,Cloudera的大数据,机器学习和分析平台通过Apache Kafka提供集成的高质量和可扩展的平台即服务(PaaS)。
另一个对Santander UK下一代数据仓库至关重要的技术组件是使用Apache Kudu实现对快速数据的快速分析。 结合Data Vault 2.0设计方法论的各个方面,它有助于从数百个Apache Kafka数据流中快速摄取数据; 既可以从现有的传统系统中卸载工作负载,也可以提供有关客户行为和银行当前状态的问题。
加快面市速度
由于Santander UK的创新平台通过Apache Kafka将传统系统与新的Data Vault集成在一起,因此可以轻松地在线移动快速数据流。由于所集成数据的结构清晰,布到Apache Kudu Data Vault中的新事件流主要是配置驱动的 - 数据事件符合Data Vault 2.0方法的Hub,Satellite和Link结构。这允许schema对业务中的更改做出反应,或者对如何符合数据的新理解做出反应。
Santander UK可以通过扩展基于Scala Akka和Apache Kafka的弹性事件交付平台来影响数据转换,从而实现实时的快速,可扩展的数据丰富。由于这种可重复使用的平台和架构,可以实现更快,更及时的数据,更快的决策以及更快的面市速度。
数据科学和数据产品的快速原型
最终,这个流数据源会有许多潜在的消费者;然而,通过将Cloudera 数据科学工作台(CDSW)集成到Data Vault,我们已经收集到了一些有趣的洞察。这些为不断扩大的数据科学团队提供了全面的数据科学体验,并且还是典型的Santander UK创新时尚 - 在解决重大工程和架构挑战之前,可以快速将想法出原型并创建新的数据产品。构建一个快速原型,然后,如果它产生价值,就将其发展成一流的产品。
快速整合:贡献模型
在Santander UK数据创新团队实现创新和灵活性的过程中,他们创造了贡献模型的概念。因为集群是多租户的,有来自不同业务部的数据源、清理和工程化新数据集;如果认为对其它业务有用,可以使用Data Vault样式链接表将这些有用的数据集成到Data Vault schema的核心。通过这种方式,团队可以通过快速生成新的数据集组合来增加数据产品的价值,通过使用Cloudera Navigator进行治理来实现可追溯的血缘,以及使用Apache Sentry进行访问控制的安全性。如果业务部门的数据被认为对其他人有用,则它与核心链接并根据治理原则共享。
贡献模型允许我们利用由不同业务部门和产品团队独立创建的纯数据集。如果这些数据对业务的其他部分有价值,我们就能够通过利用链接表将其作为一等公民带入Data Vault。我们希望将Apache社区方法复制到我们组织中的数据系统的开源软件,以通过协作来改进创新。
- Nicolette Bullivant - Santander UK数据工程负责人
从传统系统生成的原始事件流被认为是规范的,通常也是使用该集群的其他利益相关者所需要的。Santander UK数据创新团队采用了确保这些事件流可供不同用例和技术使用的原则;因此,规范事件流可以重新分配到不同的目的地;HDFS文件系统,Apache HBase或Apache Kudu。这能为所有利益相关者创建单一真实版本,同时也避免了对传统系统的反向压力。
结论
简而言之,Santander UK直接在Cloudera堆栈上进行创新,耦合流数据,先进的软件工程原理和框架,以及现代数据仓库设计原则,以生成实时洞察,从而改善客户体验和客户财务状况。
发表评论