Loading
0

搭建高校大数据分析平台的探索

高校在日常的教学和管理中积累了大量的历史数据,如何挖掘数据背后的重要信息,并运用于学校的日常管理和教学工作是每个高校都需要考虑的问题。本文以上海公安高等专科学校为例,提出了构建大数据分析平台的设想,阐述了平台的建设目标、原则以及系统框架,探讨了平台构建中的关键技术,并对平台建设的预期效果进行了展望。


随着信息化建设的不断推进,高校建设正由数字化校园向着智慧校园的方向迈进。信息化高度发展,给教学、科研、学习、生活带来了高速便捷的服务,同时也长生了大量记录高校日常管理和教学工作的数据,这些数据随着时间的积累构成了一个庞大的大数据资源。这些资源具有很高的价值,如何让这些数据发挥价值,为高校各项工作提供服务,是值得每一个学校思考的课题。

一、信息化发展现状

公安教育信息化是培养高素质公安人才的根本要求,是开展教育训练工作的实际需要,是顺应公安信息化发展趋势的必然选择。上海公安高等专科学校作为上海公安教育训练工作的主阵地,在校园信息化建设方面进行了积极的探索,由数字化校园正逐步向智慧校园迈进,在服务公安教育培训、指导公安实战等方面发挥了重要的作用。

1.信息化基础设施建设

自2005年启动第一个信息化五年规划以来,我校信息化基础设施水平不断提升。目前公安网和教科网两套网络均成熟应用,公安网成为日常办公的主要载体,无线网络在校内已实现了全覆盖,广大师生均可免费使用。此外学校率先使用虚拟化等先进技术,运行了各类实体服务器107台、虚拟服务器289台,以及各类信息系统102个,其中邮件系统为全市5万多名公安民警提供服务,是上海市公安局首个面向全局民警应用的邮件系统。

2.建成公安教育云服务平台

2011年被评为上海市10家云计算应用培育单位之一,我校开启了公安教育云服务平台的建设工作。在综合考虑公安实战及公安教育的业务需求基础上,云平台建设分为两个方面,一方面是建立数据中心,将已有的物理资源、虚拟资源、数据及应用资源进行整合,形成云资源池,通过云资源管理软件对计算资源进行统一管理;另一方面,建立虚拟云桌面,将应用封装为各类云服务集中到云数据中心,用户可通过多种联网终端接入云门户获取相应服务。云服务平台作为上海市经信委云计算培育项目在学校得到广泛使用,其提供的云盘、虚拟云桌面、云应用等功能有效地解决了教学资源异地访问受限的问题,也为未来移动教学提供了一个优秀的支撑平台。

3.自主研发信息系统集成平台

学校采用SOA等先进技术自主开发了信息应用系统集成平台,将校内主要74个信息系统纳入平台进行统一管理。此外,上海公安教育训练管理平台作为公安行业内第一个覆盖民警终身培训全过程的管理系统,其16个培训管理子系统也纳入了统一的信息化流程,为上海公安每一位民警形成了一份完整的教育训练活动电子档案。信息系统平台目前集成了学校80%的应用软件,当前用户56000人,日均在线1000人,为全局教育训练工作提供了强有力的支撑,也成为大数据分析最重要的数据来源之一。

4.建成上海公安远程教育网

我校率先在全国公安院校建立“上海公安远程教育网”,通过研发网络学习平台、领导干部在线学习平台、在线考试系统、在线答疑等辅助模块,探索远程教育应用于公安教育训练的新模式。学校教师教官均参与到公安网络课程、公安微课程的建设中,形成了人人有课程教学网站、时时可布置在线作业,处处可进行在线答疑的良好教学互动局面,打破了学员学习的时空限制,有效拓宽了学院获取教学资源的渠道,使上海公安教育在使用教育信息技术方面成为全国的排头兵。

二、信息化建设中的大数据

我校在信息化建设过程中,已部署了众多软件系统,如信息系统集成平台、教学管理系统、OA办公系统、后保综合系统、远程教育、数字图书馆等,这些系统每天都在产生大量数据,并且产生的速度越来越快。这些数据来源于不同的应用和层次,既有教学、科研、人事、财务、资产等常规管理型业务所产生的结构化数据,又有课件、图片、视频等多媒体教学资源产生的非结构化数据,同时还有购物、吃饭、洗浴等一卡通消费行为数据,以及无线网络、RFID、GPS等物联网感知的位置数据。这些数据在系统运行中不断积累,目前学校各业务系统已有结构化数据表约1000多个,记录约5千万条,数据规模接近200G,初步积累了“公安教育大数据”。这些数据得到了有效的存储和管理,但囿于技术限制以及数据应用经验的不足,这些数据在分析挖掘、充分利用方面还不够。如何利用这些数据,使这些数据变为有价值的信息和知识,为公安教育训练工作提供决策成为摆在我们面前的一道亟需攻克的难题。

通过对信息系统和数据进行梳理,我们发现当前系统中还存在一些问题:

(1)信息孤岛现象仍然存在。虽然学校的信息集成平台集中了绝大部分管理类的应用,但是远程教育、数字图书馆等专业应用仍有较强的独立性,信息并为充分集中和互通,数据之间无法动态关联,降低了数据的使用效率;

(2)技术难点需要突破。由于数据类型繁多,类型不一,传统的数据挖掘算法无法满足这些结构化和非结构化数据的处理要求,传统数据挖掘技术面临巨大的挑战;

(3)缺乏数据分析的模式和方法,数据需求不够强烈,数据价值难以体现。

同时为了解学校对数据服务的需求,探索大数据应用的解决方案,我们还对学校的教学部门及管理部门进行了走访调查,听取了各部门对信息化工作的意见和建议,并对日常教学、科研、管理等方面存在的数据应用需求进行了归纳:

(1)校办公室提出,希望通过数据掌握学校总体运行情况,但目前无法实时了解在校培训总人数,教室、宿舍使用率,教师教官教学状态等,缺乏相关数据支撑,为领导提供决策支持方面工作收到较大局限。

(2)政治处要时刻掌握民警的出勤情况、人员结构、思想状况等,但目前考勤系统还未能实现对各种出勤数据的自动统计,人事数据变动也无法做到即时的自动分析,工作人员则希望系统产生的数据可以通过统计和分析来得到有用信息从而降低人工统计的工作量,并能够通过人员结构变化进行各种趋势分析。

(3)教务处目前已提供了各专业课程数据、师资情况、学校教室使用分布数据、学生实习实训等情况,工作人员希望能通过利用已有数据、分析排课规律来实现自动排课功能。学管处在现有录入数据的基础上,希望通过学生在校考试成绩、德育表现、获奖情况等在学员毕业前自动为每个学员形成综合画像。

(4)后保处表示对于学校日常管理的数据需求日渐增大,如对于能源消耗管理、车辆运行管理、经费管理等应用大数据分析,将大大提高后勤管理的工作效率。

(5)教学部门的工作人员提出希望能通过数据自动分析出网络课程各模块学员参与度及掌握情况,以及在线考试题目的错误率等,从而为网络课程的设计提供参考,并为教学创新提供重要依据。

我校数据来源广泛、数据类型繁多,数据量随着信息化建设的推进日益增加。基于目前的数据现状,以及学校各部门对于数据应用的需求,我们考虑建立公安教育大数据分析平台,对学校人事、课程、资产、档案等方面的数据进行收集、存储、分析,把得出的知识再反过来服务于管理、教学、科研、后勤等各项工作,通过系统的整合以及数据的互联、共享,提高数据的利用效率,从而推动数据在公安教育中的智能化运用。

三、公安教育大数据分析平台的构建方案探索

我校100多个信息应用系统,在日常教学和管理中积累了大量历史数据,但这些海量数据却没有得到有效的分析和利用,各部门人员在日常数据录入和维护中只是通过统计和排序对数据进行简单的功能操作获得一些表面、浅显、价值不高的结果。构建一个大数据分析平台,从学校其他应用平台中抽取海量数据进行管理、整合、分析和利用,从中发现潜在问题和有价值的规律,并通过可视化的方式进行展示,能够为学校管理层提供科学决策的支持,并满足教师教官、学员的个性化需求,从而提高我校信息化服务的质量。

1.构建目标

(1)实现数据的共享和交换。将学校各应用系统的数据进行集成和整合,使来源各异、种类不一的各类数据可以相互使用,丰富数据的来源,打破系统间的信息孤岛,实现数据的共享和应用。

(2)大数据的采集和存储。研制数据适配接口,对接校内各应用系统获取各类异构数据,并采用大数据主流的框架和系统对数据进行统一存储,为数据的挖掘和分析打好基础。

(3)大数据分析与决策。采用数据挖掘、数理统计等相关技术,构建大数据分析框架,提取数据中隐含的、未知的、极具潜在应用价值的信息和规律,为学校的教务管理、科研管理、学员管理、后勤管理等各项工作提供决策和指导。

2.构建原则

(1)安全性。公安教育训练工作中有许多保密性内容,大数据分析平台依托公安网进行部署,应采取安全性高的访问认证机制,同时在平台建设中要充分重视系统自身的安全性以及其他应用系统的安全性。

(2)可扩展性。对公安教育大数据的分析和应用是一项长期持久的工作,随着管理工作的重点、教育训练工作的变化推进,对于分析平台的规模和要求也会不断变化。因此,要求平台的设计和实施要具有良好的扩展性,以满足不断发展变化的要求。

(3)灵活性。在平台的设计和实施中要考虑到与其他应用系统的整合,开发出多个类型的接口,能够灵活接入其他系统、拓展服务类型。

3.总体框架

平台应适应于大数据处理要求,能支持PB级数据管理。系统架构应高安全性、易扩展性,能够支持各类主流开发语言,并提供丰富的接口。同时能够支持结构化和非结构化数据的存储和应用。Hadoop作为开源的大数据处理平台和工具,其提供的HDFS分布式文件系统和MapReduce模型能够很好地满足以上的要求。系统的总体架构图如1所示。

基于Hadoop技术的公安院校大数据分析平台自下而上分为三个部分,分别为:数据层、大数据采集与存储、数据分析及展示。

(1)数据层,针对不同系统进行分析,制定系统数据采集范围与目标,收集本校在日常管理和教学中的产生的各类数据,将各种结构化和非结构化数据进行整合,为大数据的分析提供支撑。

(2)大数据采集与存储旨在为各类异构数据研制适配接口,与校内其他各系统对接,并为数据提供适配、转换、存储等基本管理功能,基本步骤包括:

a.数据抽取:针对大数据分析平台需要采集的各类数据,分别有针对性地研制适配接口。对于已有的信息系统,研发对应的接口模块与各信息系统对接,不能实现数据共享接口的系统通过ETL工具进行数据采集,支持多种类型数据库,如SQLSERVER,ORACLE,ACCESS等学校系统数据库,按照相应规范对数据进行清洗转换,从而实现数据的统一存储管理。对于其他数据,需要具体根据数据情况实现相关接口,利用对应接口获取相关数据信息,进而完成数据的抽取。

b、数据预处理:为使大数据分析平台的MAPREDUCE算法能更方便对数据进行处理,同时为了使得数据的存储机制扩展性、容错性更好,需要把通过数据按照相应关联性进行组合,并将据转化为文本格式,作为文件存储下来。

c、数据存储:为了提升数据存储的扩展性和容错性,采用主流的大数据框架Hadoop的HDFS文件系统对学校的各类数据统一进行文本化存储,数据按相应规则存储,实现每日保存一套完整数据文件集,形成数据仓库。

(3)数据分析和展示是核心业务层,通过数据报表工具,根据需求制定多样的,针对性的数据报表。通过基于的Hadoop的MapReduce编程模型实现的数据分析系统,针对存储的数据进行数据处理、算法运行、结果转换操作,将结果保存为报表文件,每日形成的报表文件集。报表展现系统将生成的报表文件以可视化方式进行展现。

4.大数据分析平台中的关键技术

大数据平台的构建借鉴了开源系统的先进理念,采用了Hadoop开源系统,充分利用HDFS的可靠性,MapReduce的引入大大加强了平台在数据分析方面的弹性,使平台在可扩展性、可靠性、易用性和性能方面都有良好的表现。

(1)Hadoop技术

Hadoop框架是一个开源的大规模数据处理平台和工具,主要来源于Google公司提出的MapReduce编程框架,GFS文件系统以及BigTable存储系统等技术[1]。Hadoop具有庞大的家族体系,本平台的构建主要涉及到Hadoop框架的分布式文件系统HDFS和MapReduce模型。分布式文件系统作为Hadoop框架的底层,主要负责分析数据的分布式存储和管理,MapReduce模型主要是负责对大规模数据集进行计算处理。Hadoop釆用HDFS文件系统子框架来实现其所具有的存储能力,用MapReduce编程模型框架来实现其计算能力,二者的巧妙结合使得Hadoop拥有高效的存储和计算能力。

(2)HDFS技术

HDFS分布式文件系统是对大规模数据实现分布式存储和管理的有效工具,也是分布式计算的存储基础,具有很高的容错性和扩展性,并且对数据读写提供了的高吞吐率[1]。HDFS实现了数据的分布式存储,使得应用程序能够更加灵活地访问大规模的数据集,同时也为后续对大规模数据的分析提供了数据平台[5]。HDFS分布式文件系统釆用的是典型的主/从结构,这种结构极大的简化了系统的架构,使得系统更加简洁,方便系统的管理。Hadoop的分布式文件系统HDFS主要由主控制器和数据节点组成,主控制器管理名字空间和数据节点,同时管理数据块到数据节点DataNode的映射等。文件系统中的DataNode作为数据节点,主要存储实际的数据,主要负责所在的物理结点上的存储管理,执行主控制器下达的命令。数据节点能够及时接收客户发送的读写请求,并针对这些请求完成相应的操作。从分布式文件系统的结构内部来看,数据文件被存储分割成多个数据块存储在每个数据节点上,每个数据节点存储着来自多个文件的数据块,同时每个数据节点上也会存储这些数据块的多份副本,保证后续数据操作的准确性。

(3)MapReduce技术

MapReduce技术基于分布式文件系统,通过编写相应的处理过程能够实现对大规模数据集进行并行计算和处理,通过对不同分析模块编写相关的MapReduce处理函数能够实现对大规模数据的精确分析,同时能够控制各个节点之间完成高效的任务调度[5]。MapReduce通过将操作分发给网络上的各个节点,每个节点会周期性的返回它所完成的工作和最新的状态,从而实现对大规模数据集的操作,这种处理方式保证了操作的可靠性[5]。MapReduce技术处理的方式是,首先将一个具体的任务分解成为若干个很小的任务,然后将分解后的任务分配到各个分节点,通过主节点来对分节点的任务进行管理和调度,然后得到分节点处理后的结果,再将结果整合,得到最终结果,通过多个节点之间的相互合作和调度,从而实现对大规模数据集的计算和处理。总的说来,MapReduce就是基于“分而治之”的思想实现“任务的分解与结果的汇总”。

四、利用大数据,实现教学和管理的全面创新

构建公安院校大数据分析平台是以我校战略发展规划为蓝本,以我校信息化建设纲要为依据而进行的创新性探索。以大数据建设顶层设计为基础,收集整合公安教育各方面所产生数据,从数据中提取出有价值的信息和模型,推动公安教育的全面创新。

1.开展大数据顶层设计,以大数据应用全面推进学校发展

大数据将成为推进学校发展的新动力,通过开展大数据顶层设计,对大数据获取、收集、整理、利用进行全面规划,从应用需求出发,明确建设目的和路径,明确什么要做,什么不要做,什么应该先做,什么应该后做,用什么模式做,做到什么程度,达到什么效果,以指导学校未来3-5年的大数据建设。

2.快速推进教学和管理工作的信息化,建立丰富的数据来源

用大数据方法全面分析现有教学和管理工作,新建或升级信息系统,对教学和管理实现全过程记录,建立丰富的数据收集渠道。如通过对现有远程教育系统进行全面升级,跳出远程教育的概念,实现对教学过程的全面支持,详细记录每个学生的学习行为数据,包括课程学习数据、视频观看数据、资料查阅数据、作业完成数据、互动交流数据、成绩数据等,将数据细分到每个行为细节,以提供超越传统系统的数据精细度,客观地反映出学习的实际状况。通过建立物联网应用,实现对物品、人员、安全等各方面管理的强大支撑,提升管理质量的同时积累大量管理数据和行为数据。

3.基于个性化服务需求,建立大数据分析模型

提供优秀的个性化服务是教育和管理的重要目标之一,大数据应用则是提供规模个性化服务的必要条件,而大数据分析模型的质量决定了数据的价值。一个平时被忽略的数据在好的模型中,会产生难以想象的作用。我们可以通过对学习行为数据的分析,了解学生的学习兴趣和学习效果,研究哪些学习方式是最容易被接受的,哪些课程的设计是最受欢迎的,或具体到某个作业问题回答的正确率以及横向和纵向的比较,并深层次的展现出其中的原因。这些数据被提供给教师,将对教学创新提供最为直接的支撑。通过对一卡通行为数据的分析,可以了解学生的日常行为规律和消费规律,了解学生行为与学习成绩、学校效果之间的关联关系,提供学生管理创新的依据。

4.综合应用大数据成果,推动学校全面创新

通过大数据的综合应用,可以建立对各项教育和管理工作的分析和判断,应用到实际工作中,从各个方面推动学校全面创新。

通过对教学过程、学习行为、学习成绩、教学满意度、教师需求量、专业师资质量、专业成熟度、行动轨迹等综合分析,建立教师画像、学生画像、专业画像,直观了解优势和不足,预测发展状况。

通过对学生人数、宿舍分配、教室使用、能源消耗、网络消耗、食堂消费、图书馆利用等进行综合分析,建立各资源利用率指数,实现数据可视化,引导管理工作的精细化和管理的扁平化。

通过对一卡通、图书借阅、专业分布、课程分布、成绩、学习行为等进行聚类分析,发现具有某些特征的特殊群体及其独有的行为方式,并利用相关性数据进行挖掘,从中发现规律。

通过对教学数据、教学效果、考勤记录、个人数据、管理数据进行综合分析,建立科学的、真实客观的教师绩效评价体系,改变传统人为评价的主观性,让大数据选出真正优秀的教师。

五、结语

构建高校大数据分析平台是个具有开拓性的实践探索,在高校中具有广阔的应用前景。我校目前还处于初步规划的阶段,我们将加强与行业公司、科研机构的合作,在大数据分析平台构建方面进行深入探索,从公安教育信息化发展的实际出发,采用当前先进的工具和技术,构建出体现上海公安教育特色,同时在普通高校又具有通用性的大数据分析平台。