Designing Data-Intensive Applications读后感摘抄

别清桂

发布日期：2023-03-16 16:30:06

《Designing Data-Intensive Applications》是一本由Martin Kleppmann著作，O'Reilly Media出版的Paperback图书，本书定价：USD 44.99，页数：614，特精心收集的读后感，希望对大家能有帮助。

《Designing Data-Intensive Applications》读后感(一)：大数据神书，强烈安利

大数据领域的神书，每一次看都有所收获。

作者在high level 的层面上讨论了大数据框架工具面临的问题，在这个过程中的每一个讨论点都会举出某个工具是怎样的用的是什么方式。之前工作过程中也用到很多大数据工具，直到读了此书，才有了融会贯通的感觉，对所用的东西有了更深层次的理解。

ElasticSearch，MongoDB 中的 shard 和 Kafa 的 partition 其实是一个概念，只是叫法不同而已。

事务 2PC 2PL 这些原本难懂的概念，读了作者的例子恍然大明白。

《Designing Data-Intensive Applications》读后感(二)：读书记录

2022年01月31日20:52:20

确实在讲数据相关的应用的数据库使用

开头讲了reliability、scalability、matainablity，软件工程一样

开头还讲了上报的数据，使用中位数好于平均数这回事，刚好最近在完善报表，帮上了大忙，比如耗时数据，要用中位数，90分位来判断最差情况，并行请求情况下，整体耗时等于最差的单个耗时，还有data driven development优化要注重于自己要的耗时，比如选择优化哪个耗时：数据的读还是写的耗时，这些可以说是数据分析的基本技巧，没想到也能在这本书里偶然看到。

第二张介绍了几种 data model，relational model的和nosql的document和graph model（这个我没见过），这三种，两章很快就看完了

《Designing Data-Intensive Applications》读后感(三)：愉快的阅读体验

这是一张知识地图。读时的畅快不是在于获取了某些信息 ACID! CAP! Stream! Hadoop! 不不不，光靠这本书是没办法深刻理解这些东西的，重要的是作者按照自己的思路贯通了很多知识，详略得当，例子丰富，在对大部分知识有基础时去读这本书（不要把读完当作读本书的目标，可以默认需要读两遍或更多遍），能够体会到贯通的快感。

Replication 一章中提到手机的本地数据库也可以认为是 multi-leader 架构中的一个 leader ，那么冲突解决必然也是需要考虑的问题；write path 和 read path 如何抉择取决于 workload，将最新的内容推送给用户是 write path 完全取代 read path；state 和 event 在什么情况下可以相互转换？source of truth 和 derived data 。

我想这里蕴含了大量分布式系统和数据库领域中的思考模式，能够降低未来面对所谓新颖的系统设计时的认知复杂度。

《Designing Data-Intensive Applications》读后感(四)：开启优秀程序员职业生涯的书

为什么会起这个标题？我在吴军的 <硅谷来信> 中有闻工程师的几个级别. 感兴趣的朋友可以自己去翻来看看. 工作个一两年, 大部分码农都能达到调用API, 写RESTFul API, CRUD特别溜. 但是我经常停下来想, 这些就够了吗？这些就足以支撑一个优秀程序员所具备的素养了吗？直到我有一天在逛知乎, 看到一个亚马逊的程序员兼读书狂魔, 说这本书影响了他后面的职业生涯, 我果断下单开始阅读此书.

这是我看的第二本英文原版的技术书. 读第一章开始, 就感觉这个作者功力非同一般. 除了让读者能够很好的理解技术的原理和设计的权衡, 书中富含生动的例子又不让人感到啰嗦. 英语读下来感觉优美却不会晦涩难懂. 平时大部分的工作虽然枯燥, 但是每日定时读一读这本书, 就不觉得自己没有进步了.

我读过<高性能mysql>, 读完之后感觉知道了一堆细节, 但是我总感到不满, 因为我不知道这些调优背后的原理是什么, 我为什么要这么做. 让我硬是记住这些调优的细节, 我宁可不去记忆它. 如果能够让我知道它这样设计背后的考量, 以及整个数据库的发展历程, 走过了哪些弯路, 以至于今天使用了哪些技术的缘由, 这些才是我想看的!

而这本书就是这样的存在. 数据库的类型, 以及各个类型存在的意义, 数据库存储的设计从零到壹, 分布式数据库都会面临哪些细节上的问题, 以及每一个都如何妥协. 最有意义的是书中每个章节的Reference, 值得你再花时间看一遍, 挑选自己感兴趣的paper.

如果你想要更进一步, 开脱程序员的视野, 逐步走上优秀程序员的队列, 这本书将会是一个很好的引路人.

《Designing Data-Intensive Applications》读后感(五)：这算是我2018年读的最好的一本书了

以前看过一些分布式系统相关的资料，比如《分布系统原理---刘杰》，还有一些关于HDFS、MapReduce、Google 三大经典论文之类的，也去官方看过一些开源项目(Hadoop、Zookeeper)的官方文档，总觉得分布式是很高深的理论知识。看到这本书后，发现它真的是深入浅出，对分布式原理的讲解会配以一些具体的系统实现示例，比如讲Partitioning Secondary Indexes 时阐述了 by Document vs By term，又提到Elasticsearch用的是何种“第二索引”，看完这本书再去看一些分布式系统开源项目官方文档时，就有一些“知其所以然了”。

作者对分布系统的存储（第三章：Storage and Regrieval、第五章：Replication、第六章:Partitioning）、通信(第8章：The Trouble with Distributed Systems、第九章：Consistency and Consensus)、计算（第10-11章：Batch Processing、Stream Processing）这三大块的原理讲解循循善诱，读完一遍之后，有些地方我还不能太理解，值得再多读几次把各个点都串接起来；又有些地方，觉得作者“点到为止”（可能这也是有些大神觉得不够深入的地方吧），并在每章末尾抛出一系列参考文献链接，让读者自己去深入研究，更难能可贵的是书中表达的社会责任感，无论是前言扉页写的“This book is dedicated to everyone working toward the good” 抑或是最后一章：The Future of Data Systems，佩服作者的“技术正义感”。无限膜拜作者对各种开源的分布式系统“指点江山”中……小菜鸟我只能慢慢多啃几遍，能够从入门到有所进阶吧。

本文由作者上传并发布（或网友转载），绿林网仅提供信息发布平台。文章仅代表作者个人观点，未经作者许可，不可转载。

点击查看全文

Designing Data-Intensive Applications读后感摘抄

热门排行

大家都在读