海量文件的分布式计算处理方案

学历类| 阳光高考　研究生　自学考试　成人高考　专升本　中考会考 外语类| 四六级　职称英语　商务英语　公共英语　日语能力

资格类| 公务员　报关员　银行从业　司法考试　导游证　教师资格 财会类| 会计证　经济师　会计职称　注册会计　税务师

工程类| 一级建造　二级建造　造价师　造价员　咨询师　监理师 医学类| 卫生资格　执业医师　执业药师　执业护士　国际护士

计算机| 等级考试　软件水平　应用能力　其它类| 书画等级　美国高考　驾驶员　书法等级　少儿英语　报检员　单证员　出国留学

招生考试网 - 计算机等级考试 - 考试辅导 - 正文

海量文件的分布式计算处理方案

来源:fjzsksw.com 2010-1-11 编辑:zhoupanyu 【字体:小大】

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样， MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器的失效，并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验，就可以处理超大的分布式系统得资源。

　　二、程序员编写的代码

　　我们做一个简单的分布式的Grep，简单对输入文件进行逐行的正则匹配，如果符合就将该行打印到输出文件。因为是简单的全部输出，所以我们只要写Mapper函数，不用写Reducer函数，也不用定义Input/Output Format。

　　package demo.hadoop

　　public class HadoopGrep {

　　public static class RegMapper extends MapReduceBase implements Mapper {

　　private Pattern pattern;

　　public void configure(JobConf job) {

　　pattern = Pattern.compile(job.get( " mapred.mapper.regex " ));

　　}

　　public void map(WritableComparable key, Writable value, OutputCollector output, Reporter reporter)

　　throws IOException {

　　String text = ((Text) value).toString();

　　Matcher matcher = pattern.matcher(text);

　　if (matcher.find()) {

　　output.collect(key, value);

　　}

　　}

　　}

　　private HadoopGrep () {

　　} // singleton

　　public static void main(String[] args) throws Exception {

　　JobConf grepJob = new JobConf(HadoopGrep. class );

　　grepJob.setJobName( " grep-search " );

　　grepJob.set( " mapred.mapper.regex " , args[ 2 ]);

　　grepJob.setInputPath( new Path(args[ 0 ]));

　　grepJob.setOutputPath( new Path(args[ 1 ]));

　　grepJob.setMapperClass(RegMapper. class );

　　grepJob.setReducerClass(IdentityReducer. class );

　　JobClient.runJob(grepJob);

　　}

　　}

　　RegMapper类的configure()函数接受由main函数传入的查找字符串，map() 函数进行正则匹配，key是行数，value是文件行的内容，符合的文件行放入中间结果。

　　main()函数定义由命令行参数传入的输入输出目录和匹配字符串，Mapper函数为RegMapper类，Reduce函数是什么都不做，直接把中间结果输出到最终结果的的IdentityReducer类，运行Job。

　　整个代码非常简单，丝毫没有分布式编程的任何细节。

上一页

1
2
3
4
5
下一页

分享到： QQ空间新浪微博腾讯微博人人网

2011年计算机等级考试四级数据库故障管理有哪些
2011年计算机等级考试二级VB怎样按钮控件
2011年计算机等级考试二级VB怎样标签控件
2011年计算机等级考试二级VB怎样创建状态栏
2011年计算机等级考试二级VB怎样设置窗体的位置
怎样提高无线网络安全
系统不显示输入法的解决办法有哪些
怎样选择好网络综合布线系统中的线缆
举例双网卡共享Adsl上网成功案例
怎样进Windows 7体验七大奇妙功能
怎样让Windows7系统下载节能

上一个文章：浏览器访问某个地址的过程

下一个文章： Java多线程模拟生产者与消费者实例

网站版权与免责声明
①由于各方面情况的不断调整与变化,本网所提供的相关信息请以权威部门公布的正式信息为准.
②本网转载的文/图等稿件出于非商业性目的,如转载稿涉及版权等问题,请在两周内来电联系.

最新文章

·	全国计算机二级考试2011年9月冲刺辅导
·	2011年计算机等级考试四级数据库故障管
·	2011年计算机等级考试二级VB怎样按钮控
·	2011年计算机等级考试二级VB怎样标签控
·	2011年计算机等级考试二级VB怎样创建状
·	2011年计算机等级考试二级VB怎样设置窗
·	怎样提高无线网络安全
·	系统不显示输入法的解决办法有哪些
·	怎样选择好网络综合布线系统中的线缆
·	举例双网卡共享Adsl上网成功案例
·	怎样进Windows 7体验七大奇妙功能
·	怎样让Windows7系统下载节能
·	怎样搞定Win7系统ADSL连接
·	怎样快速获取Word中图片资源
·	2011年计算机等级考三级PC技术考点复习
·	管理信息系统(MIS)阶段考点解析
·	计算机信息系统的定义与组成考点解析
·	数据库系统要实现的功能考点解析

推荐文章

·	计算机等级考试上机注意事项

热门文章

·	2011年计算机一级考试MS OFFICE上机考
·	2010年9月计算机二级考试二级c语言上机
·	学习在word2007中如何快速取消自动编号
·	C++组合数快速算法
·	如何在Excel 2007中创建双坐标系的图表
·	用Java来输出soap报文
·	三步搞定Windows7分区
·	优化预读文件提高Win7/Vista/XP系统的
·	Windows文件损坏怎么办？一条命令就搞
·	计算机等级考试上机注意事项
·	Java中的TCP/UDP网络通信编程
·	教你用Windows XP的安装盘修复系统
·	移动硬盘插上后很难在我的电脑显示，怎
·	Windows 7桌面快捷方式不见了怎么办
·	Java编程制作拼图游戏

【报名考试】

全国 | 黑龙江 | 吉林 | 辽宁 | 内蒙古
青海 | 宁夏 | 甘肃 | 新疆 | 陕西
西藏 | 北京 | 天津 | 河北 | 山东
江苏 | 安徽 | 河南 | 上海 | 浙江
福建 | 广东 | 山西 | 湖南 | 湖北
江西 | 广西 | 海南 | 云南 | 贵州
四川 | 重庆

【分省高校计算机考试】

黑龙江 | 吉林 | 辽宁 | 内蒙古 | 河北
北京 | 天津 | 新疆 | 甘肃 | 宁夏
青海 | 陕西 | 山西 | 河南 | 山东
江苏 | 安徽 | 浙江 | 福建 | 广东
海南 | 广西 | 江西 | 湖北 | 湖南
四川 | 上海 | 重庆 | 贵州 | 云南
西藏

【成绩查询】

【报考指南】

【试题答案】

【模拟试题】

【考试辅导】

计算机一级 | 计算机二级 | 计算机三级 | 计算机四级

【经验交流】

【高校计算机】