WordCount¶
Bigflow Python实现word count示例
示例展示了如何使用Bigflow Python API实现分布式计算中经典的word count,主要包括4步:
- 使用
Pipeline.create()
方法创建一个Pipeline实例_p
。- 通过
_p.read()
方法读取HDFS文本文件,得到输入PCollection- 对PCollection应用
count_words_in_pcollection()
算法,算法由Bigflow提供的基本变换拼接而成- 使用
_p.write()
方法将结果写出
-
bigflow.example.word_cnt.
count_words
(lines)¶ 将输入PCollection的每个元素(文本文件的每一行)切分成单词,统计每个单词个数,返回 内容为(word, count)的PCollection
参数: lines (PCollection) -- 通过读取文本文件构造的PCollection 返回: 表示统计结果的PCollection 返回类型: PCollection >>> _p = _pipeline.parallelize("to be or not to be") >>> print _p.apply(count_words).get() [("to", 2), ("be", 2), ("not", 1), ("or", 1)]