《Mining of Massive Datasets》经典读后感有感

别清桂

发布日期：2023-03-08 07:05:07

《Mining of Massive Datasets》是一本由Jure Leskovec / Anand Rajaraman 著作，Cambridge University Press出版的Hardcover图书，本书定价：USD 70.00，页数：476，特精心收集的读后感，希望对大家能有帮助。

《Mining of Massive Datasets》读后感(一)：书名应该改成<Algorithm Analysis: A Data Mining Perspective>

内容是算法分析应该有的套路, 对于Correctness, Running Time, Storage的证明; 讲得很细, 一个星期要讲3个算法, 看懂以后全部忘光大概率要发生. 要是能多给些直觉解释就好了.

Ullman的表达绝对是有问题的, 谁不承认谁就是不客观, 常常一句话我要琢磨2个小时, 比如DGIM算法有一个rule是任意size的bucket的个数不得超过2个, 4.6.3处说了一些废话后来了句"Thus, we concluded that at most two buckets of all sizes". 授课视频里虽然讲的方式不一样, 也没有对这个rule做直接的证明. 我的猜测是这不是一个死硬的规定, 而是一个效果不错的tradeoff. 这种似是而非的表达, 对读者的折磨, Ullman惯犯了.

《Mining of Massive Datasets》读后感(二)：前6章内容学习后的感受，从机器学习的角度说下

Web数据挖掘特点，相比较ML增加了哪些理论和技术？

（1）大约覆盖了20篇论文。用了统一的语言，统一深度数学来表达。

（2） Hash用的特别多。方式各异。如下。

a. 提高检索速度，如index

b. 数据随机分组。

c. 定义数据映射，重复这些映射。最基本功能。但对于新数据映射会存在假正例。如流数据按用户数固定比例采样。

d. 均匀随机散步映射，保持映射后的数据分组统计分布不变。

e. 按参考集对数据进行匹配分类：哈希0/1数组映射。0/1作为两类标记。

f. 映射压缩。哈希0/1数组。Bloom filter. FM

g. 多次hash映射。两种目的：精确结果或统计结果。Bloom filter和多次minHash.

h. Hash可以泛化到一般性function构造，结果简单，用于所有数据处理。利用h()特征来进一步得到pattern。MinHash。

i. 提前比较，替代了实时性比较。桶足够多时，可以对两个样本进行是否相同做判断。

（3）盯着内存的使用局限。算法空间复杂度受限于内存。

（4）减少IO响应次数，一次pass。内存和硬盘的速度差异。A-Priori

（5）比统计学习数据表达要丰富。高维数据billions、流数据、图数据、shingle、itemset 这些类型的处理，区别于统计学习数据（feature value）。

（6）矩阵运算、高维数据稀疏性

（7） MapReduce实现普通计算转化为分布式计算。

国内外网上有价值的评论太少。和这本书名声不符的。掌握这本书确实不容易，以上是一些注意事项。

《Mining of Massive Datasets》读后感(三)：学习笔记

这本书是下学期一门课程的textbook，听说professor还不错，打算好好学一下。在此记录学习笔记和进度。 1/15/2019 1。LRU教材网址 http://www.mmds.org/ 2。对应的mooc公开课 https://lagunita.stanford.edu/courses/course-v1:ComputerScience+MMDS+SelfPaced/course/ 3。prof zhang之前的course website http://yongfeng.me/teaching/s2018/ 还有一周开学，我会结合prof zhang 的agenda 和mooc 挑自己感兴趣的学习并记录。

1/16/2019 chapter 1 data mining 今天看了第一章的内容和对应的ppt。 1. what's data mining？ input: a lots of data; output: knowledge discovery from data; 2. what will we learn？ 2.1 different types of data: high dimensional; graph例如social network (undirected graph model facebook; directed graph model followers in Twitter); infinite/steam data; labeled/unlabeled data 2.2 different models of computation: map-reduce; steams and online algorithms; single machine in-memory 2.3 solve real-word problems: recommendation systems, market baset analysis, spam detection, social network analysis 所有上面的算法都需要在mapReduce上实现。这本书提供了大数据处理思路或方案。

本文由作者上传并发布（或网友转载），绿林网仅提供信息发布平台。文章仅代表作者个人观点，未经作者许可，不可转载。

点击查看全文

《Mining of Massive Datasets》经典读后感有感

热门排行

大家都在读