绿林网

Hadoop技术内幕读后感精选

Hadoop技术内幕读后感精选

《Hadoop技术内幕》是一本由董西成著作,机械工业出版社出版的平装图书,本书定价:69.00元,页数:396,特精心收集的读后感,希望对大家能有帮助。

《Hadoop技术内幕》读后感(一):技术内幕,二次开发

看这本书的时候是 2014 年,当时觉得读这本书除了二次开发没有什么用。今天翻出来看了一下,除了二次开发,确实没有什么用。

不知道什么时候自己会有机会改写 Hadoop 的底层技术代码……

个人认为随着计算机内存容量和性能的提高,在未来 10 年内不管是 Hadoop 还是 Spark,使用的范围都会受到影响。我现在使用的联想小新笔记本已经是 16GB 内存了,10 年之后肯定会有 256GB 和 512GB 的个人商用笔记本电脑。到那个时候,便是人人都能大数据的时代。到了那一天,普通服务器的内存肯定都在 T 级别甚至 T 级别以上,Spark 和 Hadoop 就会从绝大多数的公司消失了……

每一项应用技术都有他的生命周期,Hadoop 和 Spark 的流行周期不会超过 30 年,生命周期不会超过 60 年。

《Hadoop技术内幕》读后感(二):目前市面上分析YARN最深入的一本书

对于YARN的核心原理,作者还是都讲到了,而且分析得相对较透彻,只有较早和持续关注Hadoop 2.0-YARN的人才能这么快写出一本书来,对于这本书总体来说是不错的,干货不少,值得一看。

在给此书提点建议:文中使用了大量的状态图,还把所有的状态和事件全部都描述了一遍,个人觉得阅读效果并不好,而且文中很多内容与作者另一本书《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 》重复。

在说一下Hadoop 2.0 YARN 我目前的理解:

一、对于YARN,个人觉得它很多设计,更组件化,更OO,更插件化,更开放了,具体表现在:

1.状态变换使用状态机器来实现,想起在Hadoop之前的版本,我的个去,那是个乱啊,各种的if else,我曾经在Job里新增了一个状态,那是个痛苦啊。。。

2.序列化框架更加开放(开始使用Protoc和Avro,尽管内部RPC还是使用的Writable,但这是趋势),支持跨语言。

3.关键算法和流程支持扩展和重写,如MapReduce的Shuffle这块儿的数据传输和排序算法都支持重写。

二、 对于统一细力度资源管理、调度、资源监控/隔离,比以前基于Slot简单粗暴的管理确实好了太多,但是如果想支持多种框架,支持服务级,长短作业进程的统一管理,YARN走的路还很长。

三、对于多种并行框架统一在YARN上运行,我觉得目前还是不太现实,还有太多优化的地方,就简单拿MapReduce来说,以前作业直接就上JobTracker了,现在还要先启动MRAppMaster。

四、而且YARN的HA现在做得也很水,只支持一个自动的重启+读日志恢复,不能做到热备。

总之:对于YARN我个人的看法是,一定是趋势,上Hadoop2.0跑MR是绝对给里没有问题的,对于跑多种并行框架还需要自己深度优化。

《Hadoop技术内幕》读后感(三):虽说后面部分稍有重复,但也是目前市场上最详细和深入的YARN书籍

现在大数据在互联网领域可谓是如日中天,本人作为一名涉足大数据领域的博士,对华章科技的赠书,表示感谢。看完本书之后,首先作者对现在的大数据领域理解非常深入,但本书不适合初学者,适合有一定基础的人观看,由于我涉及的领域需要对Hadoop 的底层代码进行分析和改造,本书在这一方面做得工作很多,如果单学学如何编写MapReduce的程序,不建议看本书,毕竟本书分析的是机制而不是代码。虽然技术过硬,但写作方式上,难免有些是工科男的惯性,看起这本书难免在很难理解的地方,让人有种昏昏欲睡的感觉。不过总体来说很好,对于YARN的分析真得很深入。

我总结下,对看完本书的整体印象,由于大数据的快速发展,使得Hadoop也快速的更新,对于程序员来说,接触到新的事物,也无疑是一种挑战。本书的Hadoop版本是2.2.0版本,而当我写这篇读后感的时候,Hadoop已经更新到2.7.0,而且新版本不仅在对java的支持上改变和MapReduce的优化都有了些许的改进,不过我根据书中描述,查看了作者的博客,发现其相应的对新的技术进行了更新,这样做可以让广大读者对新版本有个更新的认识,逐步去适应。本书对Yarn的运行机制进行了详细的分析,同时也对MR1和MR2进行了详细的对比。同时也对MR的不足进行了总结,并引入了现在的几个非常流行的框架Storm和Spark。但没有对其进行深入的探讨,可能是因为写书时候,这两个框架还不是很流行,现在Flink也算是顶级的项目,或许当作者再次写一本关于大数据的书时,就会将重心偏移了。毕竟流的实时分析才是大数据的未来发展趋势。

下面谈下我接触YARN,对它的认识。书中有很少的代码,大篇幅的展示了整个2.0版本的Hadoop的优势和底层的运行机制,以及由于Yarn的到来,给Hadoop上的各种类型的框架带来了飞速的发展,这是Yarn得以有强大生命力的必要因素。把Job Tracker的两个主要功能(资源管理和作业调度/监控)分成了两个独立的服务程序——全局的资源管理(RM)和针对每个应用的应用 Master(AM),实现了框架的集中管理。其思想:

将JobTracker和TaskTacker进行分离,它由下面几大构成组件:

a. 一个全局的资源管理器 ResourceManager

b.ResourceManager的每个节点代理 NodeManager

c. 表示每个应用的 ApplicationMaster

d. 每一个ApplicationMaster拥有多个Container在NodeManager上运行。

而新版本的2.7版本对Yarn上也有比较大的改动。首先是,YARN的授权模块变成插拔式的,用户可根据需要编写授权模块。其次是,对DistributedCache功能增强,DistributedCache模块拥有独立的服务,可以独立升级,也可以通过命令显式地预先cache文件。

不过本书就内容和深度而言,无疑是上乘之作。

本书个人认为的不足之处,对于每一个初学者来说,几乎不会得到真实的集群环境,所以需要搭建hadoop的集群环境,虽说本书用一章的篇幅来诉说hadoop的环境搭建,但仍有些很关键的地方没有注明为何这么做,这让初学者很难找到门路,如果搭建不成功环境,对后来的学习会有一个很消极的态度。虽说本书的环境搭建已经很简洁,但毕竟每个人使用的Linux和hadoop版本不同,因此有些地方真的需要注明。另外即使按照本书所说的环境搭建过程中,仍会遇到很多关于环境变量的配置,远比书中所提到的必要的java的环境变量和Hadoop的环境变量要多得多,甚至要修改配置文件,这对本身就有可能不熟悉linux的学习者来说,有点过于困难。其实可以附录一些Linux的必要命令,比如在安装linux系统时,安装vim编辑器也是很重要的,虽说这些关于集群环境的事,不是本书的重点,但初学者,看完第一章之后,配了很久环境,同时对于初学不太会看日志的人来说,根本不知道问题出在哪里,会打退堂鼓的。因此觉得,在此,本书就对阅读者的水平有了一定的限制,至少是熟悉linux的命令和能够读懂hadoop的日志,才能在此基础上,实现本书的阅读工作。

写作模式上,既然作者是很用心在写一本机制和原理的书,我觉得有些细节可以忽略,比如作者对ApplicationMaster等管理介绍的很形象,但有些地方给出了大量的服务配置参数,我认为,既然是高谈底层和机制的书籍,不需要太接地气,毕竟能够读懂的人都是专业人士,列出参考文献和出处,将大量篇幅都放在形象描述机制和对框架的个人看法更好。

以上是本人的拙见,忘有兴趣的网友相互探讨。

本文由作者上传并发布(或网友转载),绿林网仅提供信息发布平台。文章仅代表作者个人观点,未经作者许可,不可转载。
点击查看全文
相关推荐
热门推荐