Loading
0

Python超过R,成为数据科学和机器学习的最常用语言

近期,数据挖掘资讯网站KDnuggets开展了一项调查,问题是“2016年和2017年,在数据分析、数据科学和机器学习工作中,你使用R、Python、两者都用,还是其他工具?”

# 高能预警:下文含多张辣眼睛的配图,请做好防护……

对954名受访者的调查显示,Python尚未完全“吞噬”R,但2017年Python生态系统已经超越了R,成为数据分析、数据科学和机器学习领域领先的平台,同时也在迅速吸引其他平台的用户。

2016年,Python排名第二(“主要使用Python”占比为34%,“主要使用R”占比为42%),而在2017年的结果中,Python和R的占比分别为41%和36%。

在KDnuggets的读者中,同时使用R和Python的比例也从2016年的8.5%上升至2017年的12%,而使用其他工具的比例从16%下降至11%。

001

2016年和2017年,在分析、数据科学、机器学习中,使用Python、R、两者都用、其他工具的份额

随后,我们可以看看用户在不同平台之间的转移。

002

从2016到2017年,用户在Python、R、两者都用、其他工具间的转移情况

上图看起来有些复杂,但我们可以专注于两个关键方面。Python在这两个方面都保持领先。

忠诚度:Python用户的忠诚度更高。2016年,Python用户中的91%仍然继续使用Python。而在R的用户中,这一比例只有74%,在其他平台中只有60%。

转移比例:大约10%的R用户转移至Python,但只有5%的Python用户转移至R。在2016年同时使用两种工具的用户中,只有49%仍然同时使用两者,而38%转而主要使用Python,只有11%转而主要使用R。

接下来,我们来看看最近几年的变化趋势。

003

2014年到2017年,Python、R和其他平台份额的变化

可以看到,R的份额正在缓慢下降(从2015年的约50%下降至2017年的约36%),而Python的份额则稳步上升,从2014年的23%上升至2017年的47%。其他平台的份额也在缓慢下降。

在2015年关于R和Python的调查中,我们没有提供“同时使用Python和R”的选项。因此为了比较过去4年的数据,我们将2016年和2017年Python和R的份额按照如下公式来计算:

Python总份额 = (Python份额) + 50%(同时使用Python和R的份额)

R总份额 = (R份额) + 50%(同时使用Python和R的份额)

最后,让我们看看各地区的趋势和模式。参与调查的用户来自各地区比例如下:

美国/加拿大:40%

欧洲:35%

亚洲:12.5%

拉美:6.2%

非洲/中东:3.6%

澳大利亚/新西兰:3.1%

为了简化表格,对于“同时使用R和Python”的份额,我们以同上的方式进行处理,并将亚洲、澳大利亚/新西兰、拉美,以及中东/非洲合并为“其他”地区。

004

2016、2017年,Python、R、其他工具在各地区的使用情况

在这3大地区中,我们观察到同样的模式:

Python的份额上升8%到10%。

R的份额下降2%到4%。

其他平台的份额下降5%到7%。

Python用户的未来看起来很光明,但我们认为,考虑到当前用户数规模庞大,R和其他平台仍将在可预见的未来保持一定的份额。