《Mining of Massive Datasets》经典读后感有感
《Mining of Massive Datasets》是一本由Jure Leskovec / Anand Rajaraman 著作,Cambridge University Press出版的Hardcover图书,本书定价:USD 70.00,页数:476,特精心收集的读后感,希望对大家能有帮助。
《Mining of Massive Datasets》读后感(一):书名应该改成<Algorithm Analysis: A Data Mining Perspective>
内容是算法分析应该有的套路, 对于Correctness, Running Time, Storage的证明; 讲得很细, 一个星期要讲3个算法, 看懂以后全部忘光大概率要发生. 要是能多给些直觉解释就好了.
Ullman的表达绝对是有问题的, 谁不承认谁就是不客观, 常常一句话我要琢磨2个小时, 比如DGIM算法有一个rule是任意size的bucket的个数不得超过2个, 4.6.3处说了一些废话后来了句"Thus, we concluded that at most two buckets of all sizes". 授课视频里虽然讲的方式不一样, 也没有对这个rule做直接的证明. 我的猜测是这不是一个死硬的规定, 而是一个效果不错的tradeoff. 这种似是而非的表达, 对读者的折磨, Ullman惯犯了.
《Mining of Massive Datasets》读后感(二):前6章内容学习后的感受,从机器学习的角度说下
Web数据挖掘特点,相比较ML增加了哪些理论和技术?
(1) 大约覆盖了20篇论文。用了统一的语言,统一深度数学来表达。
(2) Hash用的特别多。方式各异。如下。
a. 提高检索速度,如index
b. 数据随机分组。
c. 定义数据映射,重复这些映射。最基本功能。但对于新数据映射会存在假正例。如流数据按用户数固定比例采样。
d. 均匀随机散步映射,保持映射后的数据分组统计分布不变。
e. 按参考集对数据进行匹配分类:哈希0/1数组映射。0/1作为两类标记。
f. 映射压缩。哈希0/1数组。Bloom filter. FM
g. 多次hash映射。两种目的:精确结果或统计结果。Bloom filter和多次minHash.
h. Hash可以泛化到一般性function构造,结果简单,用于所有数据处理。利用h()特征来进一步得到pattern。MinHash。
i. 提前比较,替代了实时性比较。桶足够多时,可以对两个样本进行是否相同做判断。
(3) 盯着内存的使用局限。算法空间复杂度受限于内存。
(4) 减少IO响应次数,一次pass。内存和硬盘的速度差异。A-Priori
(5) 比统计学习数据表达要丰富。高维数据billions、流数据、图数据、shingle、itemset 这些类型的处理,区别于统计学习数据(feature value)。
(6) 矩阵运算、高维数据稀疏性
(7) MapReduce实现普通计算转化为分布式计算。
国内外网上有价值的评论太少。和这本书名声不符的。掌握这本书确实不容易,以上是一些注意事项。
《Mining of Massive Datasets》读后感(三):学习笔记
这本书是下学期一门课程的textbook,听说professor还不错,打算好好学一下。在此记录学习笔记和进度。 1/15/2019 1。LRU教材网址 http://www.mmds.org/ 2。 对应的mooc公开课 https://lagunita.stanford.edu/courses/course-v1:ComputerScience+MMDS+SelfPaced/course/ 3。prof zhang之前的course website http://yongfeng.me/teaching/s2018/ 还有一周开学,我会结合prof zhang 的agenda 和mooc 挑自己感兴趣的学习并记录。
1/16/2019 chapter 1 data mining 今天看了第一章的内容和对应的ppt。 1. what's data mining? input: a lots of data; output: knowledge discovery from data; 2. what will we learn? 2.1 different types of data: high dimensional; graph例如social network (undirected graph model facebook; directed graph model followers in Twitter); infinite/steam data; labeled/unlabeled data 2.2 different models of computation: map-reduce; steams and online algorithms; single machine in-memory 2.3 solve real-word problems: recommendation systems, market baset analysis, spam detection, social network analysis 所有上面的算法都需要在mapReduce上实现。这本书提供了大数据处理思路或方案。
-
《Spring Data JPA:入门、实战与进阶《Spring Data JPA:入门、实战与进阶》是一本由张振华著作,机械工业出版社出版的528图书,本书定价:129 .00元,页数2022-09-08阅读全文
-
《R for Data Science》读后感精选《R for Data Science》是一本由Hadley Wickham / Garrett Grolemu著作,O'Reilly Media出版的Paperback图书,本书定价:USD 39.99,页数:2023-02-11阅读全文
-
《良物的态度》的读后感大全《良物的态度》是一本由张璇著作,新民说 | 广西师范大学出版社出版的平装图书,本书定价:45.00,页数:208,特精2023-01-19阅读全文
-
《淘气包埃米尔》读后感无论在学习、工作或是生活中,作文的形式很常见,但是作文的注意事项有许多,你确定会写吗?以下是《淘气包埃2022-11-17阅读全文
-
《鲁滨逊漂流记》读后感想作文是通过文字来表达一个主题意义的记叙方法。那么你有了解过作文吗?《鲁滨逊漂流记》读后感想,欢迎阅读与2022-11-17阅读全文
-
私城记读后感摘抄《私城记》是一本由陈思呈著作,江苏凤凰文艺出版社出版的精装图书,本书定价:46.00,页数:240,特精心收集的读2022-11-17阅读全文
-
《默尔索案调查》读后感精选《默尔索案调查》是一本由[阿尔及利亚] 卡迈勒·达乌德著作,人民文学出版社出版的平装图书,本书定价:25.00,页2023-01-21阅读全文
-
崛起的超级智能读后感1000字《崛起的超级智能》是一本由刘锋著作,中信出版社出版的平装图书,本书定价:65,页数:290,特精心收集的读后感2022-11-19阅读全文
-
彩铅萌宠绘读后感摘抄《彩铅萌宠绘》是一本由华中科技大学出版社著作,69.80出版的148图书,本书定价:平装,页数:2019-8-31,特精心收集2022-11-19阅读全文
-
《公文高手的自我修养》读后感精《公文高手的自我修养》是一本由胡森林 / 马振凯著作,北方文艺出版社出版的2017-1图书,本书定价:227,页数:,2023-01-22阅读全文