海量文件的分布式计算处理方案

学历类| 阳光高考　研究生　自学考试　成人高考　专升本　中考会考 外语类| 四六级　职称英语　商务英语　公共英语　日语能力

资格类| 公务员　报关员　银行从业　司法考试　导游证　教师资格 财会类| 会计证　经济师　会计职称　注册会计　税务师

工程类| 一级建造　二级建造　造价师　造价员　咨询师　监理师 医学类| 卫生资格　执业医师　执业药师　执业护士　国际护士

计算机| 等级考试　软件水平　应用能力　其它类| 书画等级　美国高考　驾驶员　书法等级　少儿英语　报检员　单证员　出国留学

招生考试网 - 计算机等级考试 - 考试辅导 - 正文

海量文件的分布式计算处理方案

来源:fjzsksw.com 2010-1-11 编辑:zhoupanyu 【字体:小大】

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样， MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器的失效，并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验，就可以处理超大的分布式系统得资源。

　　三.运行Hadoop程序

　　Hadoop这方面的文档写得不全面，综合参考GettingStartedWithHadoop 与Nutch Hadoop Tutorial 两篇后，再碰了很多钉子才终于完整的跑起来了，记录如下：

　　3.1 local运行模式

　　完全不进行任何分布式计算，不动用任何namenode,datanode的做法，适合一开始做调试代码。

　　解压hadoop，其中conf目录是配置目录，hadoop的配置文件在hadoop-default.xml，如果要修改配置，不是直接修改该文件，而是修改hadoop-site.xml，将该属性在hadoop-site.xml里重新赋值。

　　hadoop-default.xml的默认配置已经是local运行，不用任何修改，配置目录里唯一必须修改的是hadoop-env.sh 里JAVA_HOME的位置。

　　将编译好的HadoopGrep与RegMapper.class 放入hadoop/build/classes/demo/hadoop/目录找一个比较大的log文件放入一个目录，然后运行

　　hadoop / bin / hadoop demo.hadoop.HadoopGrep log文件所在目录任意的输出目录 grep的字符串

　　查看输出目录的结果，查看hadoop/logs/里的运行日志。

　　在重新运行前，先删掉输出目录。

　　3.2 单机集群运行模式

　　现在来搞一下只有单机的集群.假设以完成3.1中的设置，本机名为hadoopserver

　　第1步. 然后修改hadoop-site.xml ，加入如下内容：

　　< property >

　　< name > fs.default.name

　　< value > hadoopserver:9000

　　< property >

　　< name > mapred.job.tracker

　　< value > hadoopserver:9001

　　< property >

　　< name > dfs.replication

　　< value > 1

　　从此就将运行从local文件系统转向了hadoop的hdfs系统，mapreduce的jobtracker也从local的进程内操作变成了分布式的任务系统，9000，9001两个端口号是随便选择的两个空余端口号。

　　另外，如果你的/tmp目录不够大，可能还要修改hadoop.tmp.dir属性。

上一页
1
2
3
4
5
下一页

分享到： QQ空间新浪微博腾讯微博人人网

2011年计算机等级考试四级数据库故障管理有哪些
2011年计算机等级考试二级VB怎样按钮控件
2011年计算机等级考试二级VB怎样标签控件
2011年计算机等级考试二级VB怎样创建状态栏
2011年计算机等级考试二级VB怎样设置窗体的位置
怎样提高无线网络安全
系统不显示输入法的解决办法有哪些
怎样选择好网络综合布线系统中的线缆
举例双网卡共享Adsl上网成功案例
怎样进Windows 7体验七大奇妙功能
怎样让Windows7系统下载节能

上一个文章：浏览器访问某个地址的过程

下一个文章： Java多线程模拟生产者与消费者实例

网站版权与免责声明
①由于各方面情况的不断调整与变化,本网所提供的相关信息请以权威部门公布的正式信息为准.
②本网转载的文/图等稿件出于非商业性目的,如转载稿涉及版权等问题,请在两周内来电联系.

最新文章

·	全国计算机二级考试2011年9月冲刺辅导
·	2011年计算机等级考试四级数据库故障管
·	2011年计算机等级考试二级VB怎样按钮控
·	2011年计算机等级考试二级VB怎样标签控
·	2011年计算机等级考试二级VB怎样创建状
·	2011年计算机等级考试二级VB怎样设置窗
·	怎样提高无线网络安全
·	系统不显示输入法的解决办法有哪些
·	怎样选择好网络综合布线系统中的线缆
·	举例双网卡共享Adsl上网成功案例
·	怎样进Windows 7体验七大奇妙功能
·	怎样让Windows7系统下载节能
·	怎样搞定Win7系统ADSL连接
·	怎样快速获取Word中图片资源
·	2011年计算机等级考三级PC技术考点复习
·	管理信息系统(MIS)阶段考点解析
·	计算机信息系统的定义与组成考点解析
·	数据库系统要实现的功能考点解析

推荐文章

·	计算机等级考试上机注意事项

热门文章

·	2011年计算机一级考试MS OFFICE上机考
·	2010年9月计算机二级考试二级c语言上机
·	学习在word2007中如何快速取消自动编号
·	C++组合数快速算法
·	如何在Excel 2007中创建双坐标系的图表
·	用Java来输出soap报文
·	三步搞定Windows7分区
·	优化预读文件提高Win7/Vista/XP系统的
·	Windows文件损坏怎么办？一条命令就搞
·	计算机等级考试上机注意事项
·	Java中的TCP/UDP网络通信编程
·	教你用Windows XP的安装盘修复系统
·	移动硬盘插上后很难在我的电脑显示，怎
·	Windows 7桌面快捷方式不见了怎么办
·	Java编程制作拼图游戏

【报名考试】

全国 | 黑龙江 | 吉林 | 辽宁 | 内蒙古
青海 | 宁夏 | 甘肃 | 新疆 | 陕西
西藏 | 北京 | 天津 | 河北 | 山东
江苏 | 安徽 | 河南 | 上海 | 浙江
福建 | 广东 | 山西 | 湖南 | 湖北
江西 | 广西 | 海南 | 云南 | 贵州
四川 | 重庆

【分省高校计算机考试】

黑龙江 | 吉林 | 辽宁 | 内蒙古 | 河北
北京 | 天津 | 新疆 | 甘肃 | 宁夏
青海 | 陕西 | 山西 | 河南 | 山东
江苏 | 安徽 | 浙江 | 福建 | 广东
海南 | 广西 | 江西 | 湖北 | 湖南
四川 | 上海 | 重庆 | 贵州 | 云南
西藏

【成绩查询】

【报考指南】

【试题答案】

【模拟试题】

【考试辅导】

计算机一级 | 计算机二级 | 计算机三级 | 计算机四级

【经验交流】

【高校计算机】