在人工智能异常火热的今天,很多人认为我们生活在一个不可思议的历史时期,人工智能和大数据可能比工业革命更能改变人的一生。然而这种说法未免言过其实,我们的生活确实可能有所改变,但并非一定是朝好的方面发展。我们过于武断地认为计算机搜索和处理堆积如山的数据时不会出差错,但计算机只是擅长收集、储存和搜索数据,它们没有常识或智慧,不知道数字和词语的意思,无法评估数据库中内容的相关性和有效性,它们没有区分真数据、假数据和坏数据所需的人类判断力,没有分辨有理有据和虚假伪造的统计学模型所需的人类智能。
计算机挖掘大数据风行一时,但数据挖掘是人为而非智能,也是非常艰巨、危险的人工智能形式。数据挖掘先是通过大量的数据走势、相关关系来发现让我们内心愉悦却无实践价值的模型,然后创造理论来解释这些模型。作者通过“史密斯测试”和“得州神枪手谬误”等实例说明,如果你挖掘和拷问数据的时间够长、数量够大,你总能得到自己想要的结果,然而这是相关关系却并不是因果关系,只是自我选择偏好,并没有理论基础也没有实用价值。
在人工智能时代,我们对计算机的热爱不应该掩盖我们对其局限性的思考,真正的危险不是计算机比我们更聪明,而是我们认为计算机具有人类的智慧和常识,数据挖掘就是“知识发现”,从而信任计算机为我们做出重要决定。更多的计算能力和更多的数据并不意味着更多的智能,我们需要对人类的智慧有更多的信心。
......(更多)
加里·史密斯
波莫纳学院经济学教授,曾获弗莱彻·琼斯基金奖。他是耶鲁大学经济学博士,曾在耶鲁大学担任助理教授一职长达7年,两度获得教学奖,撰写(或合著)过80多篇学术论文和12本书,包括《数据科学的9个陷阱》《基本统计、回归和计量经济学》《标准偏差:有缺陷的假设,扭曲的数据,以及其他欺骗统计数据的方法》《简单统计学:如何轻松识破一本正经的胡说八道》《运气爆棚?偶然性在我们日常生活中的惊人作用》《货币机器:价值投资出奇简单的力量》。他的研究曾被彭博网、CNBC、《福布斯》、《纽约时报》、《华尔街日报》、《新闻周刊》和《商业周刊》竞相报道。
......(更多)
引 言 / 007
第 1 章 智能还是服从
井字游戏 / 008
国际跳棋 / 011
第 2 章 盲 从
思考之源和思维之火 / 024
计算机是超人吗? / 031
将时间考虑在内 / 036
识别像素与产生情绪 / 037
批判性思维 / 039
图灵测试 / 041
第 3 章 无语境的符号
翻译软件与理解语言 / 052
威诺格拉德模式挑战赛 / 057
计算机能阅读吗? / 058
计算机能写作吗? / 061
在语境中理解事物 / 066
猫与花瓶 / 071
第 4 章 坏数据
自我选择偏好 / 077
相关系数并非因果关系 / 084
时间的力量 / 087
幸存者偏差 / 088
假数据 / 090
识别“坏数据” / 092
第 5 章 随机性模式
数据挖掘 / 102
黑匣子 / 107
大数据、大电脑、大麻烦 / 109
利益冲突 / 111
天生就会被骗 / 113
为模型所惑 / 114
第 6 章 如果你拷问数据的时间足够长
孟德尔的豌豆研究 / 128
得州神枪手谬误 / 130
数据挖掘者 / 132
拷问数据 / 135
倒摄回忆 / 137
金钱启动效应 / 139
寻找就会发现 / 143
微笑曲线 / 149
从卓越降为优秀 / 154
攻击性和吸引力 / 157
达特茅斯三文鱼研究 / 159
骗子,骗子 / 161
第 7 章 无所不包的“厨房水槽法”
预测总统大选 / 168
非线性模型 / 180
第 8 章 新瓶装旧酒
逐步回归法 / 187
岭回归法 / 189
数据规约 / 193
神经网络算法 / 196
被数学蒙蔽双眼 / 199
第 9 章 先吃两片阿司匹林
明早再给我打电话 / 204
我要再喝一杯咖啡 / 207
远程治疗 / 208
癌症群 / 211
最有理有据的疗法失效了 / 214
疾病诊断和治疗中的数据挖掘 / 217
糟糠过多,精粹不足 / 220
第 10 章 完胜股市(上)
噪 声 / 224
滑稽的理论 / 226
技术分析 / 230
抛硬币 / 235
《每周华尔街》的十项技术指标 / 237
推特,推特 / 242
技术大师 / 243
为乐趣和盈利投资的黑匣子 / 247
第 11 章 完胜股市(下)
股市与天气 / 252
预留方案 / 259
真正的数据挖掘 / 264
趋同交易 / 265
高频交易 / 276
底 线 / 281
第 12 章 我们都在监视着你
妊娠预测指标 / 289
谷歌流感 / 291
机器人测试仪 / 293
就业申请 / 295
招聘广告 / 298
贷款申请 / 300
汽车保险 / 303
社会信用评分 / 305
黑匣子式歧视 / 306
不合理的搜查 / 307
看看你的手环 / 310
你需要整容吗? / 312
摆弄系统 / 316
共同毁灭原则 / 319
结 语 / 323
参考文献 / 329
......(更多)
我们在不考虑做出选择的原因就进行选择差异对比时,会出现如上述例子所示的“自我选择偏 差”( self-selection bias)。人们选择要做的事,个人的选择可以反映出他是什么样的人。在进行的控制实验中,将受试对象随机分组,并让他们唯命是从,这样就可以避免出现自我选择偏差。也就是说剥夺受试对象的选择权,就能肖除自我选择偏差。
霍夫施塔特认为,人类智能的根本是收集和分 类人类经验,然后对其进行比较和组合。……令霍夫施塔特沮丧的是,计算机科学走向了另一个方向。计算机科学家不再尽力模仿人类大脑,而是专注于计算机存储、检索和处理信息的能力,因此计算机软件变得有用起来(并有利可图)。软件工程师不再尝试理解人类思想如何运作,他们转而开发产品。
......(更多)