绿林网

OpenIntro Statistics读后感精选

OpenIntro Statistics读后感精选

《OpenIntro Statistics》是一本由David M Diez / Christopher D Bar著作,CreateSpace Independent Publishing Platform出版的Paperback图书,本书定价:$ 8.64,页数:426,特精心收集的读后感,希望对大家能有帮助。

《OpenIntro Statistics》读后感(一):简单易懂,附带大量练习,小白入门推荐。

教材中似乎有一个小错误, 如下

Example 2.67 是一个概率的问题:

Two books are assigned for a statistics class: a textbook and its

corresponding study guide. The university bookstore determined 20% of enrolled

students do not buy either book, 55% buy the textbook only, and 25% buy both books,

and these percentages are relatively constant from one term to another. If there are

100 students enrolled, how many books should the bookstore expect to sell to this

class?

课本的解答如下:

Around 20 students will not buy either book (0 books total), about 55 will buy one

book (55 books total), and approximately 25 will buy two books (totaling 50 books

for these 25 students). The bookstore should expect to sell about 105 books for this

class.

但是我认为这个答案错了。应该是

不买书的(20%) + 只买课本的(55%) + 既买了课本,也买了指南的(25%) + 只买了指南的 (?%)= 100%

所以只买了指南的应该是5%

========================

那么应该准备书本55 + 25*2 + 5 = 110 本

如果问题是“书店需要准备多少本课本”, 那么课本的解答就正确了。

《OpenIntro Statistics》读后感(二):【书评/课评】来自真实世界的数据

这套教材的又一个值得注意的地方是它举的例子都是从真实世界提取出来的。

因为学的时候绝大多数时间我都把关注点放在了数学上,对于应用题到底在讲什么我也是后期才多看两眼,发现如果仔细看这些例子的数据会发现一些有意思的现象,比方说小孩子的智商主要是随母亲(第二单元有一个地方是令天才儿童的父亲智商减去母亲智商,普遍是负数)。

无意中还发现一个事情:母亲上班的小孩比家庭主妇的小孩成绩更好。

我是因为儿童智商/成绩这样的数据反复在不同章节中当成应用题用才会多看几眼,肯定还有更多信息被我忽略了的,这门课使用了各式各样的数据,并且会以举例或者题目的方式引导着学生发掘一些信息。

刚才做lab的练习,这段简介也很搞笑,学生给大学老师打分很多人不看教学质量,看的是老师颜值,原来全世界都是外貌协会。

关于“数据来自真实世界”这一点,豆瓣上摘录的这本书的简介说得很明白(此外那句“概率是选学,统计推断才是核心”也是真相,我上一篇书评写的就是这个,之后看到这句话,和我的感觉对上了):

统计推断确实是核心,现在我已经把本书最后一单元的线性回归学完了,发现和我以前学过的侧重点并不一样,还是专注于第二单元的统计推断,会频繁用到t分布和ANOVA,倒不如说线性回归是统计推断的又一个应用。

2021.7.10

《OpenIntro Statistics》读后感(三):【书评/课评】有且只有一个主题的教科书

刚才忽然明确意识到自己为什么从好几年前就偏好于一些公开课而又不选择另一些。这本书及配套公开课就属于我偏好的。 可汗学院的统计学也是好几年前看过,愣是坚持不下去,出于个人兴趣它的欧洲史、世界史我也是看过一部分,发现只有自己原先就知道一些的地方才能领会,否则就会只是在信息流中“万花丛中过,片叶不沾身”。 一门课有多大可能帮学生建立起一个相对扎实的系统,其根源在于:课程设计者心中想呈现的是多个点还是一个点。这里“一个点”指的是好几章内容都学透才能emerge的那一个点,如果学生看到了,这门课就入门了,反之我会觉得我并没有get到。 可汗学院这样呈现多个点固然有它的意义,讲得更细,经常是随便拉出一节都能独立存在,就像一本详尽的词典,适合没时间系统学习时去快速查阅。 Dr. Mine的这本书却只呈现了一个点:区间估计与假设检验。它强调这二者本质上相同,就这么一个大点,其他零碎的小点要不是做了它的铺垫(中心极限定理),要不是更高阶的或更特殊的情况(从z分布到t分布[脚注1],从两组比较到多组比较的ANOVA,样本太少时从理论分析到仿真,从z的定义式到卡方检验等[脚注2])。 除此外也比较详细地讲了:1)单组数据的某个总体参数的区间估计与假设检验,2)使用区间估计或假设检验去评估两组独立数据的某个总体参数是否有差异,3)仍是两组数据,但如果说不独立而是成对该怎么处理。这三种情况处理套路其实差不多,只不过需要一些简单转换,比如情况2)就是把“参数1-参数2”(如μ1-μ2,或p1-p2)当成一个整体——想知道参数1是不是等于参数2,可以转换成参数1-参数2是否为0,然后就可以转至情况1)处理了。而情况3)就更简单了,因为数据是成对的,所以可以一一对应相减,用一一对应相减的结果创建一组新的数据并且转至情况1)处理这组新数据即可。 为了突出我这种“只有一个点、全程都在说一件事”的感受,标题用到了“有且只有”这四个字,但其实这样说有失偏颇,毕竟第三部分(最后两章)是回归,这个我暂时还不明为什么也放在统计学里了。觉得相比于统计推断会这个的人应该更多吧,毕竟哪里都要用最小二乘法,这个内容相对前面也简单好理解,从篇幅上来看也少,只有短短60页,在我心目中不会说比统计推断更重要了。 —— 脚注: 1.从z分布到t分布 这两个本质上是一回事,z是均值为0标准差为1的正态分布(毕竟定义就是“我距离均值差了几个标准差),t就是尾巴比z厚(而且自由度够大了之后就可以视为正态分布了)。 为什么用t代替z?因为样本大小不够大会导致样本标准差不够接近总体标准差,即样本标准差s不能够替代总体标准差σ,这样z路线就走不通了(没法用标准差计算准确的SE),而t分布只需要提供自由度这一个参数,而自由度=样本大小-1,自由度这个参数肯定是可以提供的。 2.从z的定义式到卡方检验 这两个定义式很像,分子一样出现了observed value减去expected value,卡方那个分母就是expected value,以下解释为什么这样做。 卡方检验的应用场景是:我是要比较好多个cells预期值和实际值相差多少。 但是这些数据有的是10000和9998比较,有的是0.01和0.0001比较,很明显前者的差异其实比后者小,但是前者在数值上又很大,相减之后是2;后者预期值和实际值差异很大,但因为数值小,相减后也就小,0.0099和2一比较反而显得它observed value和expected value差别不大。 所以,单纯做减法是体现不出observed value和expected value的差别的,必须除以expected value,这实际上是一种归一化操作。 补充:为了好理解可以先不考虑平方/绝对值,假如说是直接相减再除以expected value: (E-O)/E=1-O/E,把不同cells的预期值E通通归于1,然后将实际值O也相应按比例化为一个数,如此一来所有的cells都成了1和O/E的比较。 仍然拿上面那个例子,一个cell是E=10000和O=9998,一个cell是E=0.01和O=0.0001,归一化后就成了: cell1:1与0.9998比较 cell 2:1与0.01(=0.0001/0.01)比较 这才公平。 在此基础上变普通相减为绝对值,这样才能求和,因为我们要总计的是不同cells的O与E的差异,如果有正有负就会相互抵消。 平方有和取绝对值类似的效果,同时还能让“大的更大”,所以这也就得到了卡方检验最终的公式: ∑(E-O)²/E 有多少个cells,就有多少求和项。 —— 2021.7.5

本文由作者上传并发布(或网友转载),绿林网仅提供信息发布平台。文章仅代表作者个人观点,未经作者许可,不可转载。
点击查看全文
相关推荐
热门推荐