绿林网

《Mining of Massive Datasets》经典读后感有感

《Mining of Massive Datasets》经典读后感有感

《Mining of Massive Datasets》是一本由Jure Leskovec / Anand Rajaraman 著作,Cambridge University Press出版的Hardcover图书,本书定价:USD 70.00,页数:476,特精心收集的读后感,希望对大家能有帮助。

《Mining of Massive Datasets》读后感(一):书名应该改成<Algorithm Analysis: A Data Mining Perspective>

内容是算法分析应该有的套路, 对于Correctness, Running Time, Storage的证明; 讲得很细, 一个星期要讲3个算法, 看懂以后全部忘光大概率要发生. 要是能多给些直觉解释就好了.

Ullman的表达绝对是有问题的, 谁不承认谁就是不客观, 常常一句话我要琢磨2个小时, 比如DGIM算法有一个rule是任意size的bucket的个数不得超过2个, 4.6.3处说了一些废话后来了句"Thus, we concluded that at most two buckets of all sizes". 授课视频里虽然讲的方式不一样, 也没有对这个rule做直接的证明. 我的猜测是这不是一个死硬的规定, 而是一个效果不错的tradeoff. 这种似是而非的表达, 对读者的折磨, Ullman惯犯了.

《Mining of Massive Datasets》读后感(二):前6章内容学习后的感受,从机器学习的角度说下

Web数据挖掘特点,相比较ML增加了哪些理论和技术?

(1) 大约覆盖了20篇论文。用了统一的语言,统一深度数学来表达。

(2) Hash用的特别多。方式各异。如下。

a. 提高检索速度,如index

b. 数据随机分组。

c. 定义数据映射,重复这些映射。最基本功能。但对于新数据映射会存在假正例。如流数据按用户数固定比例采样。

d. 均匀随机散步映射,保持映射后的数据分组统计分布不变。

e. 按参考集对数据进行匹配分类:哈希0/1数组映射。0/1作为两类标记。

f. 映射压缩。哈希0/1数组。Bloom filter. FM

g. 多次hash映射。两种目的:精确结果或统计结果。Bloom filter和多次minHash.

h. Hash可以泛化到一般性function构造,结果简单,用于所有数据处理。利用h()特征来进一步得到pattern。MinHash。

i. 提前比较,替代了实时性比较。桶足够多时,可以对两个样本进行是否相同做判断。

(3) 盯着内存的使用局限。算法空间复杂度受限于内存。

(4) 减少IO响应次数,一次pass。内存和硬盘的速度差异。A-Priori

(5) 比统计学习数据表达要丰富。高维数据billions、流数据、图数据、shingle、itemset 这些类型的处理,区别于统计学习数据(feature value)。

(6) 矩阵运算、高维数据稀疏性

(7) MapReduce实现普通计算转化为分布式计算。

国内外网上有价值的评论太少。和这本书名声不符的。掌握这本书确实不容易,以上是一些注意事项。

《Mining of Massive Datasets》读后感(三):学习笔记

这本书是下学期一门课程的textbook,听说professor还不错,打算好好学一下。在此记录学习笔记和进度。 1/15/2019 1。LRU教材网址 http://www.mmds.org/ 2。 对应的mooc公开课 https://lagunita.stanford.edu/courses/course-v1:ComputerScience+MMDS+SelfPaced/course/ 3。prof zhang之前的course website http://yongfeng.me/teaching/s2018/ 还有一周开学,我会结合prof zhang 的agenda 和mooc 挑自己感兴趣的学习并记录。

1/16/2019 chapter 1 data mining 今天看了第一章的内容和对应的ppt。 1. what's data mining? input: a lots of data; output: knowledge discovery from data; 2. what will we learn? 2.1 different types of data: high dimensional; graph例如social network (undirected graph model facebook; directed graph model followers in Twitter); infinite/steam data; labeled/unlabeled data 2.2 different models of computation: map-reduce; steams and online algorithms; single machine in-memory 2.3 solve real-word problems: recommendation systems, market baset analysis, spam detection, social network analysis 所有上面的算法都需要在mapReduce上实现。这本书提供了大数据处理思路或方案。

本文由作者上传并发布(或网友转载),绿林网仅提供信息发布平台。文章仅代表作者个人观点,未经作者许可,不可转载。
点击查看全文
相关推荐
热门推荐