新書推薦:

《
大国谍影
》
售價:NT$
449.0

《
制造消费者
》
售價:NT$
230.0

《
精简写作:博报堂演讲撰稿人教你写出好文章(创意写作书系)
》
售價:NT$
301.0

《
从荒诞到反抗:导读加缪《局外人》和《鼠疫》(谜文库)
》
售價:NT$
305.0

《
给孩子的考古
》
售價:NT$
296.0

《
文明的重建:战后德国五十年(译林思想史)从大屠杀刽子手到爱好和平的民主主义者,揭秘战后德国五十年奇迹般的复兴之路!
》
售價:NT$
505.0

《
我以为这辈子完蛋了(经历了那么多以为会完蛋的事,我还是活得好好的!)
》
售價:NT$
398.0

《
社会情绪的传递与互动研究:以情感符号为视角 (光明社科文库·法律与社会)
》
售價:NT$
434.0
|
編輯推薦: |
本书力求用丰富的实际案例来介绍数据科学的工具以及它的应用,特别是通过数据来判断事件的真伪,教会读者像数据科学家一样的思考。
|
內容簡介: |
本书力求用丰富的实际案例来介绍数据科学的工具以及它的应用,特别是通过数据来判断事件的真伪,教会读者像数据科学家一样的思考。 全书共17章,每章均包含具有不同侧重点的案例分析,用以说明数据科学家如何发现似实,并拒绝似实伤害。本书内容主要分为四部分,前7章为第1部分,描述如何质疑、审查证据,如何收集、分析并处理缺失数据,避免数据操控等。第2部分为第8~11章,讨论数据呈现中的问题并通过创新方法取得研究新发现。第3部分为第12~17章,聚焦教育领域,再次利用证据证明了发现似实谬误之易。第4部分为结论。 本书是数据科学的应用研究成果,可作为数据科学爱好者的科普读物。
|
關於作者: |
霍华德·维纳是美国国家医学考试委员会杰出的科学家,他发表了400余篇学术论文并出版了大量图书 (包括撰写了部分图书章节)。本书是他的第 21本著作。他的第 20本专著 《医学启示录:利用证据、可视化和统计思维改善医疗》成功入围英国皇家学会温顿图书奖的评选。
|
目錄:
|
导读 译者序 前言与致谢 引言 第1部分像数据科学家一样思考 第1章72法则用于财富、事业和汽车油耗/4 ⅩⅫ 指数增长是人类直觉无法理解的。在本章中,我们从历史和当前经验中抽取了几个例子来进行说明,并介绍了常用于帮助理财师理解指数增长的一则简单的经验法则,同时展示了如何更广泛地使用它解释一系列其他问题。72法则说明了在工具箱中常备这样的“规则”以备不时之需是多么重要! 第2章钢琴大师与4分钟1英里的记录/9 极端观察记录出现的频率与观察样本规模必然相关。在过去的一个世纪里,音乐大师的数量激增,这其中包括了大量的高中生演奏者,他们能够演奏过去除了最有才华的艺术家之外其他人都不敢挑战的作品。在这一章,我们发现用一个简单的数学模型就能解释这一结果,以及为什么跑步运动员突破了4分钟1英里的成绩不再是新闻。 第3章幸福与因果推理/13 这里我们将介绍鲁宾的因果推理模型,它指导我们集中精力衡量一个变量对另一个变量的因果效应,而不是通过捕风捉影盲目寻找产生该效应的原因。这种重新定位使我们自然而然地将随机的控制性实验作为一种重要的科学方法。为说明该方法的作用,我们阐述了如何利用它解开缠绕在幸福感和学业表现之间难解的戈尔迪之结。它如同一束强劲的光,照亮了无根据主张的阴暗角落。 目录 第4章因果推理与死亡/20 在现实中,计算因果效应大小的道路因为无处不在的数据缺失而变得坎坷。本章将讨论经常发生的意外事件导致精心设计的实验失衡的具体情况。我们列举了一个医学实验案例,由于一些病患在实验进程中不幸去世,我们必须排除这些干扰数据,估算出治疗的因果效应。鲁宾模型又一次帮助我们找到了解决方案,一旦你掌握它,它的指引会出乎意料地显著而又细致微妙。 ⅩⅩⅢ 第5章实验回答四个恼人的问题/33 公共教育领域需要采用多种有效方法来进行因果推理。然而,我们发现围绕公共教育话题到处充斥着似实。由于公共教育的有效性常通过测试进行衡量,因此,出现与测试相关的许多话题并不奇怪,然而问题双方的激烈争论往往压倒了事实。我们讨论了四个问题,有的已经在法庭上被裁定了(非决定性裁决),还有一些在本章编写的过程中正进入诉讼程序。 第6章观察研究中的因果推论:压裂法、注入井、地震以及俄克拉荷马州/50 开展实验并不一定总是可行的,我们有时不得不进行观察研究。在过去的6年中,俄克拉荷马州的较强地震(30级或以上)从每年不到2次增加至几乎每天2次。在本章中,我们将探讨如何利用观察研究来估算压裂法以及高压注水处理废水与地震活动的因果效应。尽管政府官员和石油工业代表极力否认,但这种因果关系的证据却是压倒性的。 ⅩⅩⅣ 第7章生活中的艺术:玩转缺失数据算法/61 数据科学家们面临的最大问题是如何处理缺失的观测值(或者缺失数据)。在这一章,我们了解到那些最初用来处理不可避免的数据缺失的方法看起来似乎完全合情合理,却被不适当地利用来钻体系的漏洞。另外,本章还说明了如何用最有效的方法来处理这些闹剧。 第2部分像数据科学家一样沟通 第8章共情在沟通设计中的关键作用:以基因测试为例/70 图形显示也许是数据科学所拥有的最重要的工具,能让数据自己向数据科学家传递其蕴含的意义。它们让科学家与所有人都能畅通地交流。迄今,任何希望能有效沟通的人都应具备一个最重要的态度,那就是要有强烈的同理心。在这一章中,我们讨论了两种不同的交流方式,并展示了从普林斯顿大学录取通知书中学到的道理,如何有效地用于传达显示携带突变基因、警示女性患癌风险高的检测结果。 第9章改进媒体和我们自己的数据呈现/79 在科学家和大众之间的交流中,两者的影响是双向的。我们看到科学文献首创的图形显示方法被媒体所使用;如今,反过来,科学家们却不得不缓慢地去追赶媒体进步的脚步了。 第10章由内而外的图表/95 高维数据(涉及两个以上变量的数据)的可视化显示,最大的设计挑战之一就是二维平面载体(一张纸或一个电脑屏幕)的局限性。在这一章中,我们将说明如何使用由内而外的图示来揭示这些数据集中可能包含的许多秘密。我们通过例子比较了6位棒球明星在8个变量上的表现。 ⅩⅩⅤ 第11章150年的道德统计:绘制证据以影响社会政策/104 任何将地理变量与其他指标(比如各州选举结果或人口普查区域各区人口)相结合的数据集都亟需一张地图。地图是最古老的图形显示,现存的例子有来自古埃及尼罗河测量绘制的地图。地图显然更方便直观表示位置,使用二维的绘图平面来表示地理信息。过了很久之后,人们才在地理背景上添加了许多其他非地理变量。在本章中,我们引用了19世纪英国律师和统计学家约瑟夫·弗莱彻的作品,他在英格兰和威尔士的地图上描绘了当时文盲、私生子、犯罪和不负责任的婚姻的情况。我们对他的这个作品进行了广泛讨论,包括弗莱彻做了什么、为什么以及如何通过更现代的展示方法来帮助他实现社会公正的目标。 第3部分数据科学工具在教育领域中的应用 公共教育涉及每个人。我们都曾缴纳本地财产税来为教育买单,而且几乎所有人,要么通过自己,要么通过孩子参与了公共教育。然而,很难想象在这样一个有着广泛基础的领域中,同样充斥着产生于似实的各种错误观点。在这一部分,我们将考察五个不同的公众舆论焦点。同样,这些观点都是基于逸事和先例而非证据支持。每一章我们都将介绍其中一个观点,然后再提出可以广泛获取的证据去明确反驳它。本部分与第1、2部分紧密相连,前面两部分介绍的方法用于强化我们的质疑精神,而本部分旨在提供一种基于证据的方法用以评估观点的可信度。 第12章等待阿基里斯/124 美国的教育制度常常因学生学业表现不佳且根深蒂固的白人与黑人学生分数差距而饱受诟病。在这一章中,我们使用证据来澄清这两个问题,这一过程让我们发现,情况远没有被似实驱动的批评者说的那么恶劣。 ⅩⅩⅥ 第13章终身教职价值几何?/128 公共教育的批评者通常将教育系统的缺陷归咎于教师终身制。在本章,我们追溯了终身教职制的起源,并提供了证据说明,要取消它可能会超出批判者的预期,不仅费用昂贵而且效果一般。 第14章拙劣的作弊检查:看起来像,就一定是/135 每当考试能带来重大影响时,就可能有人作弊。为了限制作弊行为,学生的成绩会受到严格的审查,作弊的学生有时会受到严厉的处罚。在这一章中,我们描述了两个例子,其调查的热情本身超过了其所支持的所谓违规的证据。 第15章没有不等于零:缺失数据、满意的年度进步指标和孟菲斯特许学校的真实故事/143 目前越来越多的时候,学校的业绩很大程度上取决于学生的考试成绩。在这一章中,我们了解到孟菲斯的一所特许学校因为学生的平均分数太低而被裁定再审其办学资格。不幸的是,这一明显的缺陷并不是学校造成的,而是这座城市对缺失数据的不当处理造成的。 第16章SAT考试改革之思:大学理事会在除掉斗牛犬吗?/149 美国现代高考已经存在了90年,在这一时期,考试的变化、评分和应用都在稳步进行。在这一章中,我们使用证据和统计思维来讨论最近大学理事会宣布的SAT三大变化。其中两项改变几乎不会带来任何实质效果,但第三项却属于重大改变。我们假设选择这些特殊的变化的原因,最后得出结论:大学董事会很可能采用了20世纪70年代达特茅斯学院校长约翰·凯梅尼为实现男女同校计划而制定的战略。 第17章只因少了一颗钉子:为什么无价值的分项分数可能严重阻碍西方文明的进步?/158 在2010年的美国人口普查中,人均统计成本为40美元。这似乎是一个奢侈的数字,因为美国人口的变化可以通过每13秒增加一个人的速度来进行准确估计。然而,由于人口普查还提供了许多小区域的统计数据估计,因此这个价格是合理的。在这一章中,我们从同样的角度来研究测试的成本,并得出结论:过长的测试所产生的机会成本可能过大,以至于可能会严重阻碍进步。 第4部分结论:在家尝试 参考文献/176
|
內容試閱:
|
回顾20世纪,世界经历了翻天覆地的变化,但鲜能让我感到惊讶,其中就有人们对我的专业——统计学(不确定性科学)的态度转变。我这大半辈子听到最普遍的对统计学的形容就是“无聊”。我教授了50多年的统计学课程,然而时至今日学生们修读这门课的原因依然是因为“统计学是必修课”。不过,统计学沉闷的名声也会给我带来些小庆幸。比如,我在飞机上沉迷阅读时,每当有邻座问我:“您是做什么的?”,我总是回答:“我是搞统计学的”,这样就能确信对话多半会戛然而止,而我则可以安心读书了!实际上,几十年前,当大家日益认识到统计学家是现代信息时代的科学通才时,专业研究者的态度就已经开始发生转变。普林斯顿大学的约翰·图基(John Tukey)早期从数学研究转到统计学研究,他曾说过这样一句让人印象深刻的话:“作为统计学家,我可以在每个学科的后院溜达”。 统计学最初起源于赌场里不见光地应用概率论,但之后作为一门学科却在人口统计学、农学和社会科学领域中大放异彩,然而,这还仅仅是个开始。量子理论的兴起表明,即使是物理学——这门最具确定性的学科,也需要了解不确定性。随着“循证医学”成为专有名词,医学也加入这一行列。结合了民意调查的预测模型让我们可以早早睡下,毫无悬念地预测选举结果。随着“量化分析专家”加入投资团队,经济和金融领域都发生了巨大改变,他们的成功清楚地表明投资计划的设计如果忽视了背后的数据统计,无疑是自投风险罗网。 这些广泛的胜利并没有引起公众注意,直到内特·希尔弗(Nate Silver)现身,并不可思议地准确预测了体育赛事的结果。他的成功为他收获了一大批忠实的粉丝,专门听取他对美国总统选举结果的早期预测。尽管名嘴和专家们会凭借他们多年的经验和根深蒂固的所谓信仰侃侃而谈,但真正关心此事的人,则会去希尔弗创立的预设新闻网站(wwwfivethirtyeightcom),通过数据去了解未加粉饰的真相。 内特·希尔弗成名后,我的生活就变得不一样了。现在,当我表明统计学家的身份后,人们的回应就变成了 “真的?那真酷!”。从此我闲适的长途航空旅行就不复存在了。 尽管人们对统计学态度的转变令我惊讶,但更让我感到难以置信的是, 还有很多人竟如此抗拒采用证据作为判断和决策的主要依据。我总结了三个可能的原因: 1对概率统计这种关于不确定性科学的方法和应用缺乏认知; 2事实与所希望的事实之间存在冲突; 3思维过度混乱,无法将众多证据点连接起来,无法清晰地描绘出可能的结果。 第一个原因是我写这本书的主要动机之一。另一个动机则来自于我自身对统计学的热爱,以及我迫切与大家分享统计学之美的心情。 第二个原因来自厄普顿·辛克莱(Upton Sinclair)的观察“如果一个人的薪水关联其无法获悉的真相,那么要让他弄明白真相是不可能的”。我们都看到了来自产煤州的参议员是如何反对净化空气法规的;美国步枪协会如何罔顾所有事实(见第11章),颠倒黑白,坚持鼓吹枪支数量的增加会降低凶杀率;沿海房地产商如何坚称,全球变暖引发海平面上升只是一个危言耸听的谣言罢了。 第三个原因是我最近新加上去的。如果仅仅用原因2就能解释我所观察到的行为,原因3就没有存在的必要了。但是,接下来发生的事情使我下定决心不得不加上这一条。2015年2月6日,星期四,参议员吉姆·英霍夫(Jim Inhofe,一位俄克拉荷马州的共和党人,参议院环境与公共工程委员会主席)带来一个雪球放到参议院会议室的地板上,以此佐证人们对于全球变暖的反应实属过激,并且2014年最高温的记录也是无稽之谈。我们该如何解释这位参议员的行为呢?这或许能归咎于原因1,但作为一名参议员,他参与了专家们无休止的讨论,而这些所谓专家仅凭其家族门第和资历,就能让任何拥有智慧的人承认其可信度。也可能是因为原因2,比如,假设他的主要拥护者都来自石油工业领域,如果政府严肃地对待此类燃料对全球变暖的影响,那么石油工业的未来肯定不容乐观。我注意到美国俄克拉荷马州 的五位亿万富翁中有三位(哈罗德·哈姆、乔治·凯瑟、林恩·斯库斯特曼)都是石油和天然气公司的大亨,那么吉姆·英霍夫不遗余力地维护他们的经济利益就不足为奇了。他之所以能被归为原因3是因为,他显然相信自己的观点会为国家赢得声誉,而不会沦为深夜档新闻广播或电视节目的笑柄。这让我想起了伏尔泰的祷告词:“亲爱的上帝,让我的敌人变得可笑吧!”,他知道政客们可以忍受一切,唯独不能忍受把他们当作笑柄。吉姆·英霍夫故意将自己置于这样的境地,这表明他已经将自己的行为归为我所提到的原因3了。 有这种想法的议员当然不止吉姆·英霍夫一人,以下三位参议员可能也这么想,他们分别是:现任州长萨姆·布朗贝克(Sam Brownback,堪萨斯州的共和党人)、前任州长迈克·哈克比(Mike Huckabee,阿肯色州的共和党人)和众议员汤姆·坦克勒多(Tom Tancredo,科罗拉多州的共和党人)。这三位在2007年的总统辩论中均表示对进化论缺乏信心。当然,可能有类似想法的议员并不在少数。 任何说法,无论多么清晰明了,多么令人信服,都不可能直接减少原因2和原因3的出现,对此我深有体会。但是我希望可以通过提高普通民众的统计素养来给予一些间接的帮助。能够识破假象、不被蛊惑的人越多,那些虚假信息的负面影响就会越弱。尽管这样,我始终不认为那些似实的信奉者会有所改变。我寄希望于受过教育的选民能够选出不同的候选人。就像爱因斯坦曾说的那样:“旧的争论永远不会消失,消失的只是那些制造争论的人”。 最近我总是忆起往事,思绪不宁。我们总是在不经意间想起生命中的“第一次”:我们的第一台车,第一个恋人,第一个孩子。而对于最后一次,我们总是事发之后才意识到:我最后一次和父亲说话,最后一次将儿子扛在肩膀上,最后一次登上山顶。通常来说,意识到“最后一次”的消逝带给我的是失落或者深深的遗憾,至少对我而言如此。倘若我知道那是我和祖父的最后一次谈话,我一定会告诉他我还有好多事没和他分享;假如我知道这是最后一次见母亲,我一定会告诉她我有多爱她。 当你读到这里时,我已经安然度过了“古稀之年”(70岁)。这是我的新书,也很可能是我的最后一本书!为了不在未来留有太多遗憾,我要衷心感谢那些为本书提供了帮助,或从更宽、更深层面塑造了我思想的良师益友。 首先,我要感谢我的雇主——美国国家医学考试委员会(NBME),自2001年我任职起,它就为我提供了一个宁静、祥和、却又让人灵感迸发的港湾。美国国家医学考试委员会(NBME)的历史已逾百年,它在独具慧眼的唐纳德·梅尔尼克(Donald Melnick)主席的长期领导下,设立了基金和基础研究室,成就了今日委员会欣欣向荣的现代品格,我由衷地向他和他领导的组织表示敬意。 其次,我要感谢我在委员会中的同事。首先是我的上司,美国国家医学考试委员会高级副总裁罗恩·南格斯特(Ron Nungester)、副总裁布莱恩·克洛塞(Brian Clauser)。他们一直不遗余力地支持我,为我在程序和实体两方面遇到的问题答疑解惑。此外,我还要衷心感谢以下同事对我的慷慨相助,他们分别是:彼得和苏·鲍德温(Peter and Su Baldwin)、伊迪萨·蔡斯(Editha Chase)、史蒂夫·克莱曼(Steve Clyman)、莫妮卡·库迪(Monica Cuddy)、理查德·范伯格(Richard Feinberg)、鲍勃·加尔布雷斯(Bob Galbraith)、马克·杰萨罗利(Marc Gessaroli)、艾瑞娜·格拉博夫斯凯(Irina Grabovsky)、波琳娜·哈瑞克(Polina Harik)、迈克尔·乔多依(Michael Jodoin)、彼得·卡兹弗拉(Peter Katsufrakis)、梅丽莎·马尔格普利(Melissa Margplis)、珍妮特·米(Janet Mee)和雅顿·奥斯(Arden Ohls)。我经常烦劳他们,向他们请教,有时询问他们对我目前所关心的某件事的看法,或请他们听我解释一件又一件晦涩难懂的事。而他们也总是不厌其烦地向我讲解,直到我听懂为止,有时颇为费时。感谢他们给予我的帮助与宽容! 在过去的半个多世纪中,我常向我的朋友和同事“取经”,这期间我欠下太多求学债。请原谅篇幅有限,个人脑容量有限,不能一一列举所有恩人的名字,但尽管如此,我还是要道出主要贡献者的名字:莉安娜·艾肯(Leona Aiken)、乔·伯恩斯坦(Joe Bernstein)、雅克·贝尔坦(Jacques Bertin)、艾·彼得曼(Al Biderman)、达雷尔·博克(Darrell Bock)、艾瑞克·布莱特劳(Eric Bradlow)、亨利·布劳恩(Henry Braun)、拉里·休伯特(Larry Hubert)、比尔·利希滕(Bill Lichten)、乔治·米勒(George Miller)、鲍勃·米斯利维(Bob Mislevy)、马尔科姆·瑞(Malcolm Ree)、丹·罗宾逊(Dan Robinson)、亚历克斯·罗什(Alex Roche)、汤姆·萨卡(Tom Saka)、萨姆·萨维奇(Sam Savage)、比利·斯科鲁普斯基(Billy Skorupski)、伊恩·斯宾塞(Ian Spence)、史蒂夫·施蒂格勒(Steve Stigler)、爱德华·塔夫特(Edward Tufte)、王晓惠(Xiaohui Wang)、李·威尔金森(Lee Wilkinson)和迈克·施基(Mike Zieky)。 我要特别感谢大卫·蒂森(David Thissen),他曾经是我的学生,也是我长期的合作伙伴,更是我的挚友。 接下来,我要说说我的奇遇。我的三年研究生生涯是在普林斯顿大学度过的,期间获得了学术联合会会员的身份。人们一般会认为,这三年与我人生中其他的三年相比,不会对我的人生产生特别的影响。但事实并非如此,毕业后的47年来,我时不时地需要这样或那样的指导,幸好,当我遇到困难时,不久就会有资深前辈出现,为我排忧解难。他们为我提供后续的学习机会,也帮助我持续地产出新作品,这些人分别是:约翰·图基(John Tukey)、弗雷德·莫斯特勒(Fred Mosteller)、伯特·格林(Bert Green)、山姆·梅西克(Sam Messick)、顿·罗宾(Don Rubin)、吉姆·拉姆齐(Jim Ramsay)、谢尔比·哈伯曼(Shelby Haberman)、比尔·伯格(Bill Berg)、琳达·斯坦伯格(Linda Steinberg)、查理·刘易斯(Charlie Lewis)、迈克尔·弗兰德利(Michael Friendly)、戴夫·霍格林(Dave Hoaglin)、迪克·德沃(Dick DeVeaux)、保罗·维尔曼(Paul Velleman)、大卫·多诺霍(David Donoho)、加蒂·杜尔索(Gathy Durso), 以及山姆·帕尔默(Sam Palmer)。 那么,我的奇遇
|
|