Loading
0

SPSS Modeler 18.0 新功能权威解读(文末附下载地址)

慧都智能制造解决方案

在今年,IBM SPSS Modeler发布了新版本18.0,那么在这次新版本的更新中,我们可以看到更新的幅度还是比较大的。接下来,浩彬老撕将给大家介绍18.0版本中一些新的功能,同时也将为大家详细介绍如果获得SPSS最新版本的试用方法!

spss

这次Modeler 18.0版本的更新我们可以简单总结为如下三个方面:

spss

(1)支持的平台更加广泛

(2)性能更加强大的大数据算法

(3)在开源技术上更多的扩展和更强大的支持

总而言之,就是很好很强大!

1. 支持的平台更加广泛(MAC / Windows 10)

相比于Modeler的兄弟产品,SPSS Statistics早在3年前的 21.0 版本已经开始支持 Mac 操作系统,而Modeler一直只能支持Windows操作系统,可谓愁死了广大的果粉了。很多果粉小伙伴为了能够在Mac上用上Modeler可谓是费苦心啊。

但是现在,Modeler的18.0版本也正式发布了Mac版本,从此与虚拟机“Say Byebye”,咱们终于也能够在Mac上直接使用了。

spss

当然除了支持Mac系统,也增加了对Windows 10的支持。

2. 性能/功能更加强大的大数据算法

2.1 所有算法都支持本地运行而不需要连接Analytics Server

在Modeler之前的版本中,为更好满足客户的需求,特意设计了部分支持分布式计算的算法,而这些算法的实现是需要Analytics Server(简称AS,大家可以把AS理解为SPSS Modeler与Hadoop的连接器)这一模块才能运行的,而现在这些新的算法都支持在本地client端运行。这些新算法包括:

spss

2.2 所有新算法都支持基于内存的分布式计算

毫无疑问,对于大规模数据集来说,使用多线程计算将能更好地利用我们的硬件资源,更重要的是能够节省我们的建模时间。在旧版本的SPSS Modeler版本中,只有部分的算法(CHAID,C&RT树,QUEST,线性模型,神经网络)能够支持多线程,并且只有在连接上Modeler Server中的时候,才能启用这项功能。

spss

(以神经网络节点为例)

 

而在刚刚 2.1 提到的所有算法当中,现在都能支持多线程计算,并且直接在Modeler client端中即可启用多线程,而无需连接至服务器端。

spss

2.3 算法优化

(1) 线性SVM以及广义线性模型(AS算法)提供了正则化功能

我们知道过拟合是我们机器学习过程中常常面临的问题,为了避免模型过于复杂带来的问题,我们可以通过正则化对模型添加先验,使得模型的复杂度得到控制,从而减少噪声的扰动。因此在Modeler的18版本中,GLE以及LSVM都提供了正则化的功能:

spss

(2) 树模型和LSVM模型提供了专门的数据准备功能

为了增强Tree-AS以及LSVM的能力,在Modeler的18版本当中,特意结合了数据准备功能在这两个节点中,具体能力包括:连续字段分箱处理,分类字段进行类别合并,时间戳进行字段转换,把缺失值自动视为新的类别(Tree-AS)等等

spss

(3) 随机树节点新增功能选项

随机树节点,大家可以理解为随机森林,但因为随机森林最早被Leo Breiman和Adele Cutler提出后,就被注册成了商标,因此这里称之为随机树模型。该模型新增了两个功能选项:

spss

(a) 指定要用于拆分的最小预测变量数:如果是构建拆分模型,请设置要用于构建每个拆分的最小预测变量数。这防止拆分创建过小的子组。

(b) 当准确性无法再提高时停止构建 要:改进模型构建时间,请选择此选项,以在结果的准确性无法提高时停止模型构建过程。

(4)时间序列算法的增强

时间序列算法主要增强在两方面,一个是支持了多线程计算,二是增加了同时计算多个时间序列模型功能。

例如在旧版本中,当我们的原始数据是6个销售门店从2015年1月到2016年6月的销售额,那么我们只能通过编程或分别使用多个时间序列节点才能完成对6个销售门店时间序列的预测,但是在新版本中,我们则可以一次性构建多个模型,大大简化了建模的步骤。

spss

3. 在开源技术上更多的扩展和更强大的支持

3.1 在开源工具上更好的扩展和支持

机器学习是一个充满生命力的技术领域,开源技术每天都会有长足的进步,为了能够保证能够在SPSS Modeler平台上使用到新的数据技术,Modeler在开源技术上一直有很好的支持。

从15版本开始集成R语言,16版本开始集成Python,17版本集成Spark。而来到我们的18版本,SPSS Modeler在集成上再更进一步,以往在集成Python以及Spark上需要AS组件的支持,但是现在我们能够直接在Modeler的客户端上直接集成Python的能力,并且我们能够把相关的R语言代码/Python代码直接集成成为一个建模节点。

spss

3.2 全新的扩展中心

除了通过上述的方法,通过在Modeler中嵌入相关的R/Python代码定制相关节点外,IBM也开发了更多的功能在Github上,而现在我们可以直接在Modeler上下载应用相关的功能节点。

spss

这些新的扩展空能包括了天气数据获取,GIS集成,地理空间应用等等,具体的数量已经从3月份24个功能到现在的35个功能。

在扩展中心获取这些功能后,会自动在Modeler的节点区域位置新增相应的功能节点,例如浩彬老撕之前安装了天气数据节点,那么就可以直接运用了。

spss

最后,SPSS最近开通了专门的社区,所有的SPSS用户(包括Statistics,Modeler用户)都可以在上面查找资料,资料包括各种技术文档,应用扩展功能,SPSS+R的集成,SPSS+Python的集成。当然上面也非常欢迎大家进行各种的技术交流。

SPSS论坛

https://developer.ibm.com/predictiveanalytics/forums/

spss

IBM SPSS Predictive analytics 社区

https://developer.ibm.com/predictiveanalytics/

spss

通过这次的介绍,是不是对SPSS有了更加深刻认识?他的强大远超你的想象。

SPSS产品下载地址如下,赶紧来试试吧!

spss modelerhttps://www.evget.com/product/3729/overview

spss statisticshttps://www.evget.com/product/3729/overview

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381