对“伪大数据”说不：走出大数据分析与解读的误区经典读后感有感

鲸鱼小姐

发布日期：2023-03-11 06:40:08

《对“伪大数据”说不：走出大数据分析与解读的误区》是一本由[美]冯启思著作，中国人民大学出版社有限公司出版的平装图书，本书定价：CNY 55.00，页数：264，特精心收集的读后感，希望对大家能有帮助。

《对“伪大数据”说不：走出大数据分析与解读的误区》读后感(一)：Google翻译+人工校对=将书给毁了

翻译很烂，对于选题和书中的故事的代表性应该是不错的。

但是其翻译水平就是Google翻译之后人工进行语法校对，其结果就是思路上混乱不堪，不忍直视。翻译者应该是个外行！

而且在书中根本看不到翻译人的简介，可见这人真是想翻译想疯了。

很久没有登录豆瓣，这次让它给逼的。

《对“伪大数据”说不：走出大数据分析与解读的误区》读后感(二)：从《对伪大数据说不》看大学排名焦虑

英国《泰晤士报》和《卫报》近几年发布的年度大学排行榜，看到时让人每每产生错愕之感，有时甚至是目瞪口呆：一些90多名、100名开外的新大学怎么突然就坐上了火箭，直升到了30、40名呢；而几家云淡风轻、以传统诚实态度对待排名的老大学（包括俺的母校），则随着其他一些大学莫名其妙的窜升，一年年从榜首上微幅下挫，下挫，下挫。走teaching 路线、科研方面相对没那么强大的新大学板块，也日益被边缘化在榜单的第三、四梯队位置，即70-90名左右。

那个大学排名每年不过在5-10名上下自然浮动的纯真年代哪里去了呢。俱往矣。近几年的英国大学商业排名有时更像坐了过山车，或者是被大量注了水。排行榜水分增大，愈渐让人“看不懂”的这种趋势，也许，是市场竞争加剧的一个风向标吧。

这本书的第一部分——《关于社会大数据的解读》恰好给这“灌水” 的英国排行榜之猜想，提供了来自美国高教界无可辩驳的强大证据。作者冯启思坦诚透明的态度太让人点赞了。

冯在书里写到，《美国新闻与世界报道》通过运作各种各样的排行榜，获得了丰厚的回报，其研发的排名也得到学生、校友及社会的广泛认同。冯同时以令人惊讶的真诚，毫无顾忌地呈现了以密歇根大学法学院为首的美国法学院们玩弄伪造数据、以期进入著名的《美国新闻与世界报道》全美法学院年度排行榜第一梯队院校位置的一些具体花招。

冯是纽约大学的part-time教授，纽约大学有没有法学院呢？如果有，其与密歇根大学法学院是否形成竞争院校关系？呃，我承认自己思考问题又世俗化了。

《美国新闻与世界报道》的全美法学院排行榜的一级评估构成要素为：

1）质量评估，占40%，主要细化为法学院入学资格考试（LSAT）中位数、本科生GPA中位数、律师法官们的评价得分、同行评价得分四个次级指数。

2）学生选择，占25%，含录取率、毕业90天后就业率、毕业季的就业率几个次级指数；

3）毕业生前途，占20%，次级指数为：律师资格考试通过率、在教学、图书馆和后勤服务等方面按学生人头开支。

4）教学资源，占15%，细化为：师生比例、经济资助按学生人均经费、图书馆资源3个次级指数。

作弊手法是：研究《美国新闻与世界报道》排行榜的评价公式，在主导要素数据上大胆做手脚，主要体现在1）、2）、3）方面。

具体做法为：

- 提升、扭曲LSAT和GPA的中位数，此处为大规模数据造假的重灾区。包括直接伪造、多次重考LSAT、付钱人为降低录取率等手段。

- 隐藏有可能影响排名表现的真实数据。

利用统计缺失值，将成绩不佳的学生转换为暑期班学生，或接受他们一年以后从二流法学院转来本校，从而避开数据统计。

- 虚构学生就业数据。例如，假定每个毕业生都有一份长期的全职工作，除非有相反的证据出现。美国律师协会居然默许这样的造假！

- 赛克斯顿主义 Sexonism，即“教育机构针对其候选人和竞争对手所进行的灵活的推广宣传（但也许并非完全可信）”。加入注意力占有率 mind share大战，邮寄法学院宣传品和带有logo的小礼物给全国上千名的法学院行政人员、律师和法官，因为这些人属于评估指标中的“同行评价”。推介材料的专业化水准，表明美国法学院已经建立起复杂的品牌运营机制。

读到 “ 反对《美国新闻与世界报道》这个强有力的营销机器是徒劳的”这句时，只剩心酸。尤记得有家大学，好像是英国LMU吧，是家teaching university，前几年一直高姿态，做出拒绝提供数据给《泰晤士报》、《卫报》的壮举，拒绝排行榜对自家大学的扭曲和奴役。结果没想到的是，《泰晤士报》、《卫报》在各国都有神一样的存在，在中国更是势力大到不可小觑。业界、学生、中国院校、教育主管部门等圈子里人人都在看这些排行榜。该家大学榜上缺席，直接造成大学在国内市场上越来越少人知道、越少人问津的境地。大学rep office苦心推广招来的学生一直质问为何大学在排行榜上没有出现，质问的意味直接指向大学 status of legitimacy。随后大学rep office的市场人员也加入了质问和指责。几年后，该大学最终被迫服了软，重新屈服于这些商业味极浓的排行榜，做回了奴隶——偏爱以科研实力著称的老大学们的排行榜，随便你怎么绑架我们这些走teaching良心路线的现代化大学吧。从此稳妥地在倒数几名的位置上扎了根。

没办法。“我们在引用尼尔森（Nielsen)电视评级、米其林（Michelin)餐厅评级、帕克（Parker) 葡萄酒评级，以及最新的 Klout 社交媒体评级时，从来都不过脑子。”这是一个评级和排行榜统治的世界。美国法学院们已经大步走得很远甩出去不止10条街。腐国还在原地踏步的现代化大学们绝对应该走出惰性，重视起来。在被排行榜一味牵着鼻子走和苦修内功提升学生学习体验、提升大学排名之间取得一个平衡。因为，借用一句话：用数据说谎很容易，用数据说出真相却很难。

《对“伪大数据”说不：走出大数据分析与解读的误区》读后感(三)：我读《对“伪大数据”说不》

我们正处在大数据成为流行词汇、进入高层决策视野、影响百姓日常生活的时代。很多人在关注大数据、谈论大数据、应用大数据、分析大数据，在不知不觉中把自己变成了数字人、数据人。

数字和数据不是一回事么？对。数字指的是我们生活在0和1组成的数字化时代，数据指的是我们不得不接受来自四面八方的各种数据的影响。

因此，当中国人民大学出版社王立军先生请我在他们出版的一大堆新书中挑选一本以便馈赠的时候，我选择了这本《对“伪大数据”说不：走出大数据分析与解读的误区》。我想知道，在这本书的美国作者冯启思（Kaiser Fung）眼里，什么是“伪大数据”？它是怎么形成的？如何鉴别大数据的真伪？以及如何对大数据进行正确的分析与解读？

还好，这些问题通过本书的阅读，都有了答案。

冯启思认为，我们生活在一个任何人都无法摆脱数据的大数据时代，因为数据是免费的，又很容易获得，所以必然会产生更多的数据分析。但是由于没有人能够掌握所有的信息，所以对数据的分析总会出错。即使是专家，有时候也会掉进数据陷阱中。大数据不仅意味着有更多好的分析，也意味着会有更多坏的分析。明目张胆的欺诈虽然很难被侦测到，不过，它们经常会因为不一致而暴露出来。对于数据的消费者而言，必须处处留神，必须具备能够辨别真伪数据与分析的火眼金睛，即具备一种数字直觉。

冯启思认为，数字直觉是一种与生俱来的直觉，它有别于技术能力和商业思维。有些人可能在编程方面无人能敌，却可能没有数字直觉；有些人可能很会讲故事，但也可能没有数字直觉；有些具备数字直觉的人很快就能从迷宫中找到从A到Z的通路，而有些不具备这一直觉的人则可能会困在迷宫里，永远也走不出来。

本书是通过对社会大数据、营销大数据、经济大数据和体育大数据这四个方面的解读，以讲故事或者说列举实例的方式，来完成作者大数据分析观的阐述的。

什么是“伪大数据”呢？书中没有给出明确的定义。但通过作者的阐述，我们大体可以得出这样的结论，所谓“伪大数据”，包括这么几个方面：一是指数据虚假，比如美国密歇根大学法学院，通过替换足够数量的学生，以改变中位数的方式，达到学院排名上升的目的。比如通过中位数插补技术填补数据缺失所导致的数据失真。二是指分析片面。比如如果单纯看1987年航班晚点率的话，美国西部航空公司仅为11%，是最低的，但它却在1991年宣告破产，而阿拉斯加航空公司晚点率虽然达13%，但它在美国西海岸的五个机场的晚点率却都低于美国西部航空公司。三是评价方法的人为操控。没有哪个主观性标准能摆脱被操纵的命运，而大数据的存在恰恰加剧了这种危险。评级公式越复杂，数字被篡改的机会就越多。四是统计模型的瑕疵。统计模型与牛顿的重力模型完全不同。牛顿的重力模型中，方向朝下的力量使得树上的苹果总会掉下来，无论昨天、今天还是明天。但在统计模型中，却远没有这么简单。比如你今天带了一把绿伞，不能肯定明天你买的下一把伞也一定是绿色的。因为二者之间不存在必然的因果关系。换句话说，我们几乎不可能把千变万化的人类行为提炼归纳进一套公式里面，假设并不必然成立。

“伪大数据”是怎么形成的呢？上面已经部分阐述了形成原因，我们重点再来看看航空公司晚点率的分析。阿拉斯加航空公司在美国西海岸的旧金山、西雅图、洛杉矶、圣迭戈、菲尼克斯等五个机场的晚点率分别为17%、14%、11%、9%和5%，平均晚点率为13%；美国西部航空公司在上述五个机场的晚点率则分别为29%、23%、14%、15%和8%，平均晚点率为11%。为什么阿拉斯加航空公司在五个机场的晚点率都低于美国西部航空公司，但总体晚点率却比美国西部航空公司高出2个百分点？原来，美国西部航空公司在菲尼克斯机场起降次数为4840次，占6438总起降次数的75.2%，而菲尼克斯机场的晚点率仅为8%，明显低于11%的总体晚点率，对该公司的总体晚点率产生了拉低作用。而阿拉斯加航空公司在西雅图机场起降次数为1841次，占3274总起降次数的56.2%，而西雅图机场的晚点率高达14%，高于13%的总体晚点率，明显对该公司的总体晚点率产生了拉高作用。可见，正是由于这两个占比较高的机场所产生的方向不同的过度加权，使得整体与局部的比较出现了较大反差。在这种情况下，如果只看总体晚点率，而不具体分析比较各个机场的表现，就可能会得出错误的结论。

如何鉴别大数据的真伪、避免让分析变成烟幕弹呢？书中没有集中归纳。从散见于书中的思想火花来看，主要可以注意以下几个方面：一是不从表面上判断已公布的数据；二是知道该问什么问题；三是研究原始数据；四是能敏锐地发现被篡改的数据；五是能够认出哪一部分分析是建立在数据之上的，哪一部分仅仅是一种理论；六是不轻信统计模型。

如何对大数据进行正确的分析与解读呢？书中也没有进行集中归纳。不过从字里行间来分析，作者的方法主要有两个：一是尽可能寻找合适的证据。书中引用了统计学家的经典格言：“找不到证据，并非证据不存在。”二是正确运用假设。大数据的世界需要更多好假设，更少坏假设。

全书比较精彩的章节是前言和第二部分关于营销大数据的解读。第四部分体育大数据因为讲的是中国人普遍不大熟悉的棒球，所以可读性较差。第三部分经济大数据实际只涉及了失业率和CPI的统计，除了让我们知道美国的常规政府统计也有遭人质疑之处外，也乏善可陈。而第一部分社会大数据，法学院排名的故事还有些可读性，减肥的故事就有些不知所云了。

全书一共讲了十多个与大数据应用相关的大大小小的故事。其中讲得比较透彻的是对团购公司高朋赢利模式的分析，讲得虽然简单但能给人以启发的是对图书购买人群定位的分析。

在作者看来，由于团购公司的诞生，向消费者发放优惠券，吸引了客源，激活了商家的客流量，并让消费者以低于平时的价格购买了相关商品和服务，从而营造了三方共赢的局面，这只是表面现象。他认为，团购公司的赢利，来自于商家；消费者少付出的支出，也本该是商家的收入。因此，看似三方共赢，实际对有的商家而言却可能是顾客盈门情况下的生意下滑，因为如果没有增加多少新顾客而还是那些老顾客的话，就意味着商家不仅因为优惠券的发放，导致单笔交易收入的减少，而且还要额外支付团购公司的中介费用。即对消费者越有利，对商家的消耗就越多。如果没有团购中介，为其支付的利润本来应该是商家的；如果不对消费者搞优惠活动而消费者又没有减少多少的话，商家也可以赚到更多的钱。

我倒是觉得不能因此就否定中介公司的作用。团购公司并不是空手套白狼，它也需要付出劳动，需要雇用员工来从事相关工作。工作量越大，需要的技术含量越高，它所需要为员工提供的薪酬与研发支出等也会越高。所以，三方共赢，真正获益的是消费者，他们确实从优惠券的使用中减少了开支。不过，消费者的消费支出恰恰是商家和中介的收入来源，消费者是商家和中介的衣食父母，消费者的获益也只是相对的。

关于图书购买人群定位，书中提供了一个很好的参考路径。作者举例说，假如亚马逊希望你从他们那里购买某图书，但你的消费习惯却是逛实体书店，对你这样一个没有客户购买记录的人，亚马逊该如何定位呢？他们会采用迂回策略来找到你。这个迂回策略就来自于对已有顾客消费记录的分析。比如年龄、区域、性别、购书倾向、用网习惯、网购习惯等等，然后对共同特征进行画像。如果你刚好具备这些共同特征，那就被商家锁定为这本图书的潜在顾客了。一旦你浏览亚马逊网站，他们就会向你推荐这本书。

本文由作者上传并发布（或网友转载），绿林网仅提供信息发布平台。文章仅代表作者个人观点，未经作者许可，不可转载。

点击查看全文

对“伪大数据”说不：走出大数据分析与解读的误区经典读后感有感

热门排行

大家都在读