Loading
0

Mahout

项目开展的目的:

  • 建立一个可靠、文档翔实、可伸缩的项目,在其中实现一些常见的用于集群和分类的机器学习算法。
  • 建立一个用户和贡献者社区,使代码不必依赖于特定贡献者的参与或任何特定公司和大学的资金。
  • 专注于实际用例,这与高新技术研究及未经验证的技巧相反。
  • 提供高质量文章和示例。

特性:

Mahout 提供了大量功能,特别是在集群和 CF 方面。Mahout 的主要特性包括:

  • Taste CF。Taste 是 Sean Owen 在 SourceForge 上发起的一个针对 CF 的开源项目,并在 2008 年被赠予 Mahout。
  • 一些支持 Map-Reduce 的集群实现包括 k-Means、模糊 k-Means、Canopy、Dirichlet 和 Mean-Shift。
  • Distributed Naive Bayes 和 Complementary Naive Bayes 分类实现。
  • 针对进化编程的分布式适用性功能。
  • Matrix 和矢量库。
  • 上述算法的示例。

Mahout 入门:

Mahout 的入门相对比较简单。首先,您需要安装以下软件:

您还需要本文的示例代码(见 下载部分),其中包括一个 Mahout 副本及其依赖关系。依照以下步骤安装示例代码:

  1. 解压缩 sample.zip
  2. cd apache-mahout-examples
  3. ant install

步骤 3 将下载必要的 Wikipedia 文件将编译代码。所使用的 Wikipedia 文件大约为 2.5 GB,因此下载时间将由您的宽带决定。