Hadoop技术内幕读后感精选

漫步于花雨

发布日期：2023-04-08 15:30:15

Hadoop技术内幕读后感精选

《Hadoop技术内幕》是一本由董西成著作，机械工业出版社出版的平装图书，本书定价：69.00元，页数：396，特精心收集的读后感，希望对大家能有帮助。

《Hadoop技术内幕》读后感(一)：技术内幕，二次开发

看这本书的时候是 2014 年，当时觉得读这本书除了二次开发没有什么用。今天翻出来看了一下，除了二次开发，确实没有什么用。

不知道什么时候自己会有机会改写 Hadoop 的底层技术代码……

个人认为随着计算机内存容量和性能的提高，在未来 10 年内不管是 Hadoop 还是 Spark，使用的范围都会受到影响。我现在使用的联想小新笔记本已经是 16GB 内存了，10 年之后肯定会有 256GB 和 512GB 的个人商用笔记本电脑。到那个时候，便是人人都能大数据的时代。到了那一天，普通服务器的内存肯定都在 T 级别甚至 T 级别以上，Spark 和 Hadoop 就会从绝大多数的公司消失了……

每一项应用技术都有他的生命周期，Hadoop 和 Spark 的流行周期不会超过 30 年，生命周期不会超过 60 年。

《Hadoop技术内幕》读后感(二)：目前市面上分析YARN最深入的一本书

对于YARN的核心原理，作者还是都讲到了，而且分析得相对较透彻，只有较早和持续关注Hadoop 2.0-YARN的人才能这么快写出一本书来，对于这本书总体来说是不错的，干货不少，值得一看。

在给此书提点建议：文中使用了大量的状态图，还把所有的状态和事件全部都描述了一遍，个人觉得阅读效果并不好，而且文中很多内容与作者另一本书《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》重复。

在说一下Hadoop 2.0 YARN 我目前的理解：

一、对于YARN,个人觉得它很多设计，更组件化，更OO，更插件化，更开放了，具体表现在：

1.状态变换使用状态机器来实现，想起在Hadoop之前的版本，我的个去，那是个乱啊，各种的if else，我曾经在Job里新增了一个状态，那是个痛苦啊。。。

2.序列化框架更加开放（开始使用Protoc和Avro，尽管内部RPC还是使用的Writable，但这是趋势)，支持跨语言。

3.关键算法和流程支持扩展和重写，如MapReduce的Shuffle这块儿的数据传输和排序算法都支持重写。

二、对于统一细力度资源管理、调度、资源监控／隔离，比以前基于Slot简单粗暴的管理确实好了太多，但是如果想支持多种框架，支持服务级，长短作业进程的统一管理，YARN走的路还很长。

三、对于多种并行框架统一在YARN上运行，我觉得目前还是不太现实，还有太多优化的地方，就简单拿MapReduce来说，以前作业直接就上JobTracker了，现在还要先启动MRAppMaster。

四、而且YARN的HA现在做得也很水，只支持一个自动的重启+读日志恢复，不能做到热备。

总之：对于YARN我个人的看法是，一定是趋势，上Hadoop2.0跑MR是绝对给里没有问题的，对于跑多种并行框架还需要自己深度优化。

《Hadoop技术内幕》读后感(三)：虽说后面部分稍有重复，但也是目前市场上最详细和深入的YARN书籍

现在大数据在互联网领域可谓是如日中天，本人作为一名涉足大数据领域的博士，对华章科技的赠书，表示感谢。看完本书之后，首先作者对现在的大数据领域理解非常深入，但本书不适合初学者，适合有一定基础的人观看，由于我涉及的领域需要对Hadoop 的底层代码进行分析和改造，本书在这一方面做得工作很多，如果单学学如何编写MapReduce的程序，不建议看本书，毕竟本书分析的是机制而不是代码。虽然技术过硬，但写作方式上，难免有些是工科男的惯性，看起这本书难免在很难理解的地方，让人有种昏昏欲睡的感觉。不过总体来说很好，对于YARN的分析真得很深入。

我总结下，对看完本书的整体印象，由于大数据的快速发展，使得Hadoop也快速的更新，对于程序员来说，接触到新的事物，也无疑是一种挑战。本书的Hadoop版本是2.2.0版本，而当我写这篇读后感的时候，Hadoop已经更新到2.7.0，而且新版本不仅在对java的支持上改变和MapReduce的优化都有了些许的改进，不过我根据书中描述，查看了作者的博客，发现其相应的对新的技术进行了更新，这样做可以让广大读者对新版本有个更新的认识，逐步去适应。本书对Yarn的运行机制进行了详细的分析，同时也对MR1和MR2进行了详细的对比。同时也对MR的不足进行了总结，并引入了现在的几个非常流行的框架Storm和Spark。但没有对其进行深入的探讨，可能是因为写书时候，这两个框架还不是很流行，现在Flink也算是顶级的项目，或许当作者再次写一本关于大数据的书时，就会将重心偏移了。毕竟流的实时分析才是大数据的未来发展趋势。

下面谈下我接触YARN,对它的认识。书中有很少的代码，大篇幅的展示了整个2.0版本的Hadoop的优势和底层的运行机制，以及由于Yarn的到来，给Hadoop上的各种类型的框架带来了飞速的发展，这是Yarn得以有强大生命力的必要因素。把Job Tracker的两个主要功能（资源管理和作业调度/监控）分成了两个独立的服务程序——全局的资源管理（RM）和针对每个应用的应用 Master（AM），实现了框架的集中管理。其思想：

将JobTracker和TaskTacker进行分离，它由下面几大构成组件：

a. 一个全局的资源管理器 ResourceManager

b.ResourceManager的每个节点代理 NodeManager

c. 表示每个应用的 ApplicationMaster

d. 每一个ApplicationMaster拥有多个Container在NodeManager上运行。

而新版本的2.7版本对Yarn上也有比较大的改动。首先是，YARN的授权模块变成插拔式的，用户可根据需要编写授权模块。其次是，对DistributedCache功能增强，DistributedCache模块拥有独立的服务，可以独立升级，也可以通过命令显式地预先cache文件。

不过本书就内容和深度而言，无疑是上乘之作。

本书个人认为的不足之处，对于每一个初学者来说，几乎不会得到真实的集群环境，所以需要搭建hadoop的集群环境，虽说本书用一章的篇幅来诉说hadoop的环境搭建，但仍有些很关键的地方没有注明为何这么做，这让初学者很难找到门路，如果搭建不成功环境，对后来的学习会有一个很消极的态度。虽说本书的环境搭建已经很简洁，但毕竟每个人使用的Linux和hadoop版本不同，因此有些地方真的需要注明。另外即使按照本书所说的环境搭建过程中，仍会遇到很多关于环境变量的配置，远比书中所提到的必要的java的环境变量和Hadoop的环境变量要多得多，甚至要修改配置文件，这对本身就有可能不熟悉linux的学习者来说，有点过于困难。其实可以附录一些Linux的必要命令，比如在安装linux系统时，安装vim编辑器也是很重要的，虽说这些关于集群环境的事，不是本书的重点，但初学者，看完第一章之后，配了很久环境，同时对于初学不太会看日志的人来说，根本不知道问题出在哪里，会打退堂鼓的。因此觉得，在此，本书就对阅读者的水平有了一定的限制，至少是熟悉linux的命令和能够读懂hadoop的日志，才能在此基础上，实现本书的阅读工作。

写作模式上，既然作者是很用心在写一本机制和原理的书，我觉得有些细节可以忽略，比如作者对ApplicationMaster等管理介绍的很形象，但有些地方给出了大量的服务配置参数，我认为，既然是高谈底层和机制的书籍，不需要太接地气，毕竟能够读懂的人都是专业人士，列出参考文献和出处，将大量篇幅都放在形象描述机制和对框架的个人看法更好。

以上是本人的拙见，忘有兴趣的网友相互探讨。

本文由作者上传并发布（或网友转载），绿林网仅提供信息发布平台。文章仅代表作者个人观点，未经作者许可，不可转载。

点击查看全文