为什么需要Data Science Experience?
大数据技术的发展,对企业来说,既是机遇,又是挑战,我们都希望可以利用大数据分析技术,来辅助解决业务问题,为决策者提供客观的决策依据,愿望是美好的,但真正实现起来,可不是那么容易,它的成功与否,取决于几个重要条件:
1.行业业务专家的指导
2.数据分析人员的能力
3.所需要的平台能力
4.管理与运维
第1点和第2点,取决于人,第3点和第4点,取决于支撑数据分析的底层架构及平台能力,当前很多企业,都喜欢使用开源的平台,比如Spark、Python、R、Scala等等,在我们接触的客户中,或多或少,都会用到这些,经常会有客户问,哪一种技术比较好,要怎么选择?这样的问题,不同角色的人给出的答案都会不一样,正所谓”萝卜青菜,各有所爱”,而对于管理者来说,面对形形色色的开源平台,该如何选择?分析及开发人员是否可以任性地做自己擅长的事情 ,擅长用Python的就用Python,擅长用R的就用R,擅长用Scala的就用Scala? 在各自实现分析模型之后,是否可以通过一个统一的平台来实现对这些开源平台、模型做统一的管理,统一的监控、甚至可以很好地协作,实现1+1大于2呢? IBM在这方面从去年开始就做了尝试,推出Data Science Experience on Cloud(云版本,按月收费),而今年4月份,发布 了Data Science Experience Local版本(本地版本,一次性收费永久使用),可以部署在客户本地,这对国内企业来说,是非常值得推荐的平台,所以接下来,给大家具体介绍下它是如何解决前面所提到的问题,以及它的特点及优势。
Data Science Experience是什么?
Data Science Experience从表面上看,它融合了各种开源技术,包括Apache Spark、编程语言Scala/Python/R/SQL、Jupyter Notebooks、R Studio 和 Shiny,这些都是当前非常流行的,使用非常广泛的数据分析技术,在Data Science Experience,你可以自由切换使用,用于不用,用哪一种,你可以任性地自由选择,并且,安装后,只需要通过IE输入链接就可以直接使用,从这个层面上说,它帮助我们免去了安装不同开源平台的烦琐,另外,更重要的是,它解决了不同开源平台杂乱无章管理的痛苦,并且可以协助大家在这个平台上愉快地合作。
Data Science Experiences有什么优势?
1.以项目方式管理资源
这些资源包括数据源、Notebook、用户等,首先,我们会先创建一个项目,在菜单栏上选择【Projects】,在出来的面板上,选择右上角的【create project】即可。
创建完成后,你会看到在Project里面,包括了三大部分,分别是NoteBook、Data Assets和Bookmarks.
在Notebooks这里,我们可以创建用R Studio或者是Python写的代码,只需要点击右上方的【add notebooks】, 创建notebook有三种方式,分别是blank(一片空白,从头开始写)、From File(已经写好了的R或Python文件,直接载入进来)和From URL(如果你的朋友已经发布了代码在网上,你直接让他发个链接给你,直接读取)。
2.自由选择开源平台及灵活切换
在创建Notebook的时候,我们可以先从零开始,选择【Blank】,接下来,就可以自己选择你擅长的语言来写了,比如这里选择Python 2和Spark 2.0
点击右下角的【create notebook】即可。
如果在使用过程中,想转换语言实现,也很简单,直接在菜单栏上选择Kernel-->右键,从出来的菜单选项中选择转换即可,如下图:
3.连接多种数据源------So easy!
数据源是我们分析的基础,在Data Science Experience中,连接不同数据源,只需要配置【Connection】就可以, 不需要写代码,因为…….你配置好相关信息后,它会自动生成代码。如何实现呢?
首先,在菜单栏上选择【Data Services】-->【Connection】,选择【External】就可以看到下拉框有很多不同数据源可以选择,支持的数据源列表如下:
这里选择DB2 on Cloud,进行相应的配置即可如下图:
在【Connection】这里,我们可以对所有数据源做统一的管理,除了查看所有数据源之外,还可以对数据源进行编辑、共享及删除。
4.自动生成数据源连接代码
在刚刚创建完Connections后,会看到刚才新建的WebchatArticle_Connection数据源,如下图:
回到我们前面第二步已经创建好notebook,选择好语言之后,在Data Assets这里选择数据集,有两种方式,一种是直接拖个文件过来,如下图红色框部分:
也可以选择【Connections】面板,然后选择已经创建好的数据集,就可以看到它已经加入到Data Assets中了,如下图:
然后,我们再选择刚才创建的【notebook】,点击编辑即可,进到以下页面:
在右边面板上,可以找到我们刚才创建好的数据集,在下面有【insert to code】,直接点击,则会在左边的代码编辑器上生成相应的连接代码,如下图:
如果您选择的是文件,那它也会同样的生成连接文件的code给你。
4.任务按计划自动调度运行
在创建好notebook之后,可以自动调度按时间计划运行,很简单,只需要在notebook面板上,选择菜单栏上的小时钟【Schedule】
就可以按hourly/daily/weekly/monthly计划任务执行时间了。
5.与同事的共享与权限控制
在Notebook面板上,我们可以将其分享给我们的同事,选择菜单栏上的【Share】
然后可以选择要分享的内容,是只有文本和输出结果,还是也可以将代码共享给大家,然后将Link发给您的朋友,他们就可以看到您的杰作了。
同时,我们也可以设置别人对我创建的Notebook的使用权限,在【Collaborators】面板上,可以选择【Addcollaborators】
然后可以设置您加的同事权限是浏览、编辑还是管理员。
最后我们简单总结下Data Science Experience的功能优势:
- 整合多项开源技术(Spark、R Studio、Python、Scala等),提供可自由切换的统一平台。
- 快速连接各项数据源,并对多项数据源进行统一治理。
- 对整个平台的用户权限、资源调度进行统一管理。
下一期,我们会介绍 Data Science Experience在机器学习、云端应用等其它方面的功能优势,比如:
- 与IBM其它分析平台的整合,包括BlueMix、Watson Analytics、iLOG CPLEX(优化引擎)、Machine Learning(机器学习)、SPSS Modeler(可视化的数据挖掘)等的深度整合,构建整个Watson Data Platform平台,满足企业所有的分析需求。
- Data Science Experience Local版本对系统资源(比如CPU、内存等)占用的可视化监控。
- 提供社区及评论区域,实现与其它人的交互等等。
敬请期待……
发表评论