结构与特点:
目前, Pig的基础架构层由一个为Map-Reduce程序产生序列的编译器构成,它被用于已存在项目的大规模并行实现(如Hadoop的子项目)。 Pig的语言层由一个被称为Pig Latin的文本性语言构成,它包含了以下几个关键特性:
- 易于编程-它能够轻松实现简单的并行执行,高度并行数据分析任务。对于包含多个相关数据转换的复杂任务可以通过数据流序列进行明确编码,使其易于编写,理解和维护。
- 最佳化问题- 这是一种让系统自动对任务的执行进行优化的方式,它能够让用户关注语义而非效率。
- 可扩展性 - 用户可以根据特殊目的来创建他们自己的函数。
Apache Pig的配置需求:
必选项(Unix 和Windows用户需要):
- Hadoop 0.23.X, 1.X 或者2.X(通过设置HADOOP_HOME指向Hadoop的安装目录位置可以让 Pig运行在不同版本的Hadoop上,如果没有设置HADOOP_HOME,默认为运行在Hadoop 1.0.4上)
- Java 1.7(设置JAVA_HOME为Java程序安装的根目录)
可选环境:
- Python 2.7(当使用Streaming Python UDFs时)
- Ant 1.8 (当用于build时)
发表评论