WordCount

Bigflow Python实现word count示例

示例展示了如何使用Bigflow Python API实现分布式计算中经典的word count,主要包括4步:

  1. 使用 Pipeline.create() 方法创建一个Pipeline实例 _p
  2. 通过 _p.read() 方法读取HDFS文本文件,得到输入PCollection
  3. 对PCollection应用 count_words_in_pcollection() 算法,算法由Bigflow提供的基本变换拼接而成
  4. 使用 _p.write() 方法将结果写出
bigflow.example.word_cnt.count_words(lines)

将输入PCollection的每个元素(文本文件的每一行)切分成单词,统计每个单词个数,返回 内容为(word, count)的PCollection

参数:lines (PCollection) -- 通过读取文本文件构造的PCollection
返回:表示统计结果的PCollection
返回类型:PCollection
>>> _p = _pipeline.parallelize("to be or not to be")
>>> print _p.apply(count_words).get()
[("to", 2), ("be", 2), ("not", 1), ("or", 1)]