Loading
0

Cloudera行业应用|大数据助力证券行业转型的技术优势

qlik sense 桌面版免费下载

半结构和非结构化数据处理

随着互联网的发展,物联网的到来,数据爆炸式的增长。大数据最终可以归类为结构化数据、半结构化数据、非结构化数据。结构化数据特指表单类型的数据存储结构;而半结构化介于结构化和非结构化数据之间的,例如 XML、HTML 文档就属于半结构化数据,半结构化数据在用户画像、物联网设备日志采集、应用点击流分析等场景中得到大规模使用;非结构化数据包含文本、图象、声音、影视、超媒体等典型信息,非结构化数据中没有限定结构形式,表示灵活,蕴含了丰富的信息。半结构化、非结构化数据占总数据 85%以上。

在证券行业远程开户、柜面无纸化和双录等业务,以及会计档案管理、影像系统等系统,产生的客户证件、远程开户录像、合同扫描件、客服中心语音、企业相关电子文档资料等大量的非结构化数据。这些来源广阔体量巨大的非结构数据更贴近客户,商业价值更大,内涵更丰富,更具科学性,更具有前瞻性,对企业指导作用更具真实性。传统技术处理这些数据,效果是十分有限的,而利用大数据技术可以有效的存储于管理海量的非结构化数据,并挖掘这些数据背后的价值,达到以数据驱动为企业转型的目的。大数据数据类型如图所示:

大数据量离线处理技术

大数据离线分析的数据具有数据量巨大,数据保持周期长,大量数据上做复杂的批量运算等特点,大数据把这种离线分析技术称为OLAP,主要应用在统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等场景,离线分析主要有五个环节:

(1) 数据采集

(2) 数据预处理

(3) 统计分析

(4) 数据挖掘

(5) 数据查询展示。

对应于 OLAP 技术,主要架构如图所示:

大数实时日志解析和检索

日志主要包括系统日志、应用程序日志和安全日志等,系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷,性能安全性,从而及时采取措施纠正错误。日志分析系统需要将分布在每个服务器的日志采集和集中管理,并能实现复杂的查询、排序和统计等要求,以达到信息查询,服务诊断,数据分析的需求。

实时日志解析和检索主要涉及以下四个环节包括日志实时采集、消息中间件、日志实时解析和日志实时检索;日志实时采集有 Apache Flume、Fluentd、Logstash、Chukwa、Scribe等可供选择,消息中间件 Kafka 是很理想的选择,日志实时解析可以使用 Storm 或者 SparkStreaming,实时日志检索可以选择 Solr 或者 ElasticSearch。

技术架构流程图如图所示:

强大的实时大数据处理 Lambda 架构

Lambda 架构的目标是设计出一个能满足实时大数据系统关键特性的架构,包括有高容错、低延时和可扩展等特性。Lambda 架构整合离线计算和实时计算,融合不可变性的特征,读写分离和复杂性隔离等一系列架构原则,可集成 Hadoop、Kafka、Storm、Spark 和 Hbase 等各类大数据重要的组件。

主要思想就是将大数据系统构建为多个层次,三层架构分别为批处理层 (BatchLayer)、实时处理层 (SpeedLayer) 和服务层 (ServingLayer),技术架构图如图所示:

Lambda 架构优势不仅包括如下几点:

1) 实时,低延迟处理数据;

2) 数据不可变性,架构给出的数据传输模型是在初始化阶段对数据进行实例化,这样的做法是能获益良多的,能够使得大量的 MapReduce 工作变得有迹可循,从而便于在不同阶段进行独立调试;

3) 复杂性分离、读写分离;

4) 数据的重新计算,比方说某工作流的数据输出是由输入决定的,那么一旦代码发生变动,将不得不重新计算来检视变更的效度。

如图所示,Lambda 架构在数据存储上使用 HBase+HDFS 混合架构来提供高性能的顺序扫描和随机查询。这种混合架构对应用开放和维护上带来一定的复杂性。

  • 开发:必须编写复杂的代码来管理两个系统之间的数据传输及同步
  • 运维:必须管理跨多个不同系统的一致性备份、安全策略以及监控
  • 业务:新数据从达到 HBase 到 HDFS 中有时延,不能马上供分析
  • 在实际运行中,系统通常会遇到数据延时达到,因此需要对过去的数据进行修正等。

如果使用不可更改的存储(如 HDFS 文件),将会非常不便。

Cloudera 在 Hadoop 数据存储上提供了第三种解决方案 - Kudu。Kudu 的设计目标是提供大数据量访问时(顺序扫描)的高吞吐率,访问少量数据时(随机扫描)的低延时,并提供类似的数据库语义 ( 目前提供单行记录的 ACID) 支持。Kudu 适合需要同时支持顺序和随机读和写的应用场景。例如时间序列,机器数据分析和在线分析等业务应用。Kudu 的出现,给Lamdba 架构带来了革新。改进后的 Lamdba 架构的数据存储处理方式如图所示。传统的 Lamdba 架构中存在的业务,开发和运维问题都得到了改善或根本解决。

毫秒级别的准实时分析

大数据的四 V 特性中,有一个 V 表示速度快,即数据处理速度快,也就是大数据的实时分析处理技术,用来处理那些时效性要求高的场景。例如欺诈行为检测,系统入侵检测,推荐系统等等场景,这些场景都是事后难以弥补的,都是要求实时分析处理。

大数据实时分析技术主要包括数据实时采集传输、实时数据处理、数据实时检索等。数据实时采集传输当前常用的开源技术包括Flume,Chukwa,Logstash,Kafka,RocketMQ, RabbitMQ,ActiveMQ。目前大数据开源实时处理架构最常见的是 Storm 和 Spark Streaming,相比 SparkStreaming 准实时批处理系统,Storm 是更纯粹的实时处理系统,即来一条事件就处理一条,具有更高的实时性。

数据实时检索主要涉及技术有 Redis,HBase,Solr,ElasticSearch 等。典型的实时处理架构如图所示:

强大的挖掘算法库

大数据最主要的价值是在体现在数据挖掘上,大数据挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。大数据挖掘在行业上有很多的典型应用和成果,像著名的 PageRank 算法进行网站价值衡量,推荐算法进行精准营销等等。

大数据挖掘算法的主要算法库有 Apache Mahout 与 Spark MLlib,这两个算法涵盖了常用的算法类型,如分类算法,回归分析算法,聚类算法,关联规则算法,协同过滤算法,神经网络算法,Web 数据挖掘算法,深度学习算法,集成算法等类型算法。

NLP 自然语言处理技术

自然语言处理(Natural Language Processing,简称 NLP), 是为了让计算机能够分析、理解和生成自然语言。随着人工智能从感知智能向认知智能升级,自然语言处理(NLP)的重要性日益凸显,自然语言处理当前主要的应用场景有机器翻译,智能客服,智能音箱等。

NLP 由两个主要的技术领域构成,分别是自然语言理解和自然语言生成。自然语言理解方向主要的目标是帮助机器更好理解人的语言,包括基础的词法、句法等语义理解,以及需求、篇章、情感层面的高层理解。自然语言生成主要目标是帮助机器生成人能够理解的语言,比如文本生成、自动文摘等。主要涉及技术包括情感倾向分析,评论观点抽取,词义相似度计算,词法分析,短文本相似度,DNN 语言模型,词向量表示,依存句法分析。目前开源的 NLP 库包括自然语言工具包 (NLTK),Apache 的 OpenNLP,斯坦福大学 NLP 套件等。

深度学习图像处理技术

数字图像处理是指利用计算机或其他数字设备对图像信息进行各种加工和处理,结合大数据技术,数字图像处理技术正在向处理算法更优化、处理速度更快、处理后的图像清晰度更高的方向发展,逐渐实现图像的智能生成、处理、识别和理解是数字图像处理的目标。

对图像进行处理主要目的有三个方面:

(1) 提高图像的视感质量;

(2) 提取图像中所包含的某些特征或特殊信息,这些被提取的特征或信息往往为计算机分析图像提供便利;

(3) 图像数据的变换、编码和压缩,以便于图像的存储和传输。

数字图像处理过程主要涉及以下几个过程:

(1) 图像的数字化 通过取样和量化将一个以自然形态存在的图像变换为适于计算机处理的数字形式;

(2) 图像的压缩,其目的是在不改变图像的质量基础上压缩图像的信息量,以满足传输与存储的要求;

(3) 图像增强与复原,其目的是将图像转换为更适合人和机器的分析的形式。常用的增强方法有:灰度等级直方图处理;干扰抵制;边缘锐化;伪彩色处理;

(4) 图像的分割,图像的分割是将图像划分为一些不重叠的区域;

(5) 图像的分析,图像分析从图像中抽取某些有用的度量、数据和信息,以的到某种数值结果。

人脸识别技术

人脸识别技术是一种依据人的面部特征,自动进行身份鉴别的一种技术,它综合运用了数字图像、视频处理、模式识别等多种技术。通过人脸特征提取和相似度比对,对于已经矫正好的两个人脸,会通过某种表达提取初始特征,然后应用知识模型对特征进行处理,最后再在度量空间里来计算两个特征的相似度。这个分值会告诉你这两个脸是不是同一个人的。人脸识别的过程包括:数据采集、人脸检测、五官定位、人脸预处理、特征提取。

常用的场景包括:

(1) 门禁系统,受安全保护的地区可以通过人脸识别辨识试图进入者的身份,比如小区、学校、企业等。敏感地点也可以使用人脸识别门禁,未登记人员访问将触发报警;

(2) 摄像监视系统,在例如银行、机场、体育场、商场、超级市场等公共场所对人群进行监视,以达到身份识别的目的。同时疑犯布控追踪也是较为常见的应用场景。

(3) 学生考勤系统,香港及澳门的中、小学已开始将智能卡配合人脸识别来为学生进行每天的出席点名记录,内地高校也进行了有关试点。

(4) 娱乐应用,动美妆美图、人脸属性识别、颜值分析,都是已经成熟使用的娱乐场景。

人脸识别所涉及的十大关键技术:

1) 人脸检测,检测出图像中人脸所在位置;

2) 人脸配准,定位出人脸上五官关键点坐标;

3) 人脸属性识别,识别出人脸的性别、年龄、姿态、表情等属性值;

4) 人脸特征,将一张人脸图像转化为可以表征人脸特点的特征,具体表现形式为一串固定长度的数值;

5) 人脸比对,实现的目的是衡量两个人脸之间相似度;

6) 人脸验证,判定两个人脸图是否为同一人;

7) 人脸识别,识别出输入人脸图对应身份;

8) 人脸检索,是查找和输入人脸相似的人脸序列;

9) 人脸聚类,将一个集合内的人脸根据身份进行分组;

10)人脸活体,是判断人脸图像是来自真人还是来自攻击假体。

基本的功能模块图如图所示:

大数据和云计算、物联网关系

以物联网、云计算大数据为代表的新一代信息技术的飞速发展,与我国新型工业化、城镇化、信息化、农业现代化建设深度交汇,对新一轮产业变革和经济社会绿色、智能、可持续发展具有重要意义。

目前我国已成为全球物联网最大市场,并成为产生和积累数据量最大、数据类型最丰富的国家之一。工业和信息化部将继续加大投入,加强信息基础设施建设 ; 加强数据共享,促进跨行业融合发展 ; 探索创新模式,推动规模化应用。加快物联网与移动互联网、大数据、云计算等新业态融合创新,推动信息化与实体经济深度融合发展,支撑制造强国和网络强国建设。

而云计算、大数据与物联网有着密不可分的关系,物联网对应了互联网的感觉和运动神经系统。云计算是互联网的核心硬件层和核心软件层的集合,也是互联网中枢神经系统萌芽。大数据代表了互联网的信息层 ( 数据海洋 ),是互联网智慧和意识产生的基础。包括物联网,传统互联网,移动互联网在源源不断的向互联网大数据层汇聚数据和接受数据。云计算与物联网推动大数据发展。

物联网的传感器与云计算的大数据相结合,一个提供感应,一个提供反应,在大数据的提供下进行便利的生活,办公。随着物联网的不断发展,运营商推进物联网与云计算的融合,为实现通信业的快速转型和升级做到以物联网、云计算创新应用为载体,对人们的衣食住行和公共安全领域进行智能防护,遵循科学发展观,顺应自然发展规律,开发使用低碳环保新能源,使得现代水利、电力和商业等与公众相关的产业变得智能,满足人们的需求。云计算、大数据和物联网代表了 IT 领域最新的技术发展趋势,三者既有区别又有联系。三者的关系如图所示:

慧都大数据专业团队为企业提供Cloudera大数据平台搭建,免费业务咨询,定制开发等完整服务,快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。

欢迎拨打慧都热线023-68661681或咨询慧都在线客服,我们有专业的大数据团队,为您提供免费大数据相关业务咨询!