什么是复杂数据? 没有人能够确切定义. 本书将通常统计基本教科书中的例子所代表的数据称为简单数据, 例如通常最小二乘线性回归所能够圆满处理的独立同正态分布数据、
用标准多元分析方法能够处理的具有多元正态分布的数据等. 其他本科教科书中能够相对圆满处理的数据应该不算复杂数据. 显然,
现实世界中遇到的绝大多数数据都不是标准教科书中所介绍的方法能够圆满处理的, 因此都应该被认为是复杂数据. 按照这个定义, 绝大多数真实数据都是复杂数据.
对于一个实际工作者来说, 拿到一个真实数据以后, 很可能需要查阅不少文献来寻找适合这个数据的几种可能模型假定知道用什么模型可能解决问题,
再翻阅若干种软件手册来查阅这些文献所使用软件的计算方法假定购买了这些软件. 造成这种情况的原因是, 多数统计教科书是以模型或方法为导向的,
内容也多是按照数学思维展开的.
以模型或方法为导向的教科书通常以介绍某种数学模型和方法为主, 同时说明这种模型适用于满足某些数学假定的数据, 最后说明该模型对于
这些满足假定的数据拟合的优越性.
实际上, 任何一种真实数据是否满足某种数学假定几乎无法证明, 每一类数据都可能有不止一种现成的统计方法来处理, 还有无数的未知方法等待人们去开发.
以模型或方法为主导的方式往往让读者忽略了其他有关的方法, 而那些被忽略的方法在某种意义下很可能更有效, 或者更优越.
笔者认为, 现在需要一本具有以下特点的书:
用实际数据做案例.
介绍的数据种类尽可能广泛;
这些数据必须是真实的;
这些数据必须不是简单平凡的教科书例子;
每个数据都有理论及应用方面的背景;
所有数据都能从网上下载.
对每种数据都介绍可能的方法.
这些方法尽可能新;
对各种方法进行比较;
所有方法必须有计算支持.
全书使用一种软件.
该软件必须是免费的, 可以从网上下载的;
该软件必须能够包含尽可能多的最新统计方法;
该软件必须不断更新;
书中所有结论都可以通过运行该软件程序而得出, 并给出所有代码.
篇幅不能太大.
必须由浅入深, 对经典知识和模型进行必要的回顾.
不能有太多数学公式, 但至少必须让读者能直观理解各种方法的含义.
其宗旨是训练动手的能力, 而不是面面俱到地告诉人们所有细节.
不仅提供各种方法, 而且提醒人们使用各种方法存在的风险.
本书以数据形式为导向, 对应不同的数据形式介绍可能使用的一些方法. 首先引入某些感兴趣类型的数据, 再介绍并且对比可能适合这些数据的一些统计方法.
这些统计方法可能属于许多不同的模型, 属于不同的统计方向, 但只要适用于同一类数据,
我们就尽量将它们都予以介绍. 笔者觉得这种以数据为主导的学习方式有助于理解统计作为数据科学的本质,
有助于实际工作者通过数据学习多种统计方法的应用. 我们列举了可能用于同类数据的若干方法, 希望对创造新的数据分析方法有所启发并促使进一步探索,
同时也让读者免受查阅大量不同文献之苦. 本书不可能介绍所有的方法, 大量新方法在你阅读本书的时候正在诞生.
本书所有的分析都通过免费的自由软件R来实现. 读者可以毫不费力地重复本书所有的计算.
R网站\footnote {网址: http:www.r-project.org.}拥有世界各地统计学家贡献的大量最新程序包package,
这些程序包以飞快的速度增加和更新, 已从2009年底的大约1000个增加到2012年8月底的4009个, 仅2012年8月份就增加了449个.
它们代表了统计学家创造的崭新的统计方法.
这些程序包的代码都是公开的.\footnote{除了极个别并非秘密的子程序之外, 因为它们很费时间, 用机器代码实行.}.
与此相对比, 所有商业软件远没有如此多的资源, 也不会更新得如此之快, 而且商业软件的代码都是保密的昂贵``黑匣子''
在发达国家, 不能想象一个统计研究生不会使用R软件. 那里很多学校都开设了R软件的课程.
今天, 任何一个统计学家想要介绍和推广其创造的统计方法, 都必须提供相应的计算程序, 而发表该程序的最佳地点就是R网站. 由于方法和代码是公开的,
这些方法很容易引起有关学者的关注, 这些关注对研究相应方法形成群体效应, 推动其发展. 不会编程的统计学家在今天是很难生存的.
在学校讲授任何一款商业软件都是为该公司做义务广告, 如果没有相关软件公司的资助, 就没有学校愿意花钱讲授商业软件. 在教学中使用盗版软件是违法行为,
绝对不应该或明或暗地鼓励师生使用盗版商业软件.
对R软件编程的熟悉还有助于学习其他快速计算的语言, 比如C++, FORTRAN和Python等, 这对于应对因快速处理庞大的数据集而面临的巨大的计算量有所裨益.
本书首先通过一些简单的统计和数学内容介绍R软件的基本知识, 然后介绍数据分析的一些基本逻辑和常识.
本书的主体则是根据不同数据形式介绍相应的方法. 本书以数据为主导, 各章都是完全独立的. 有一些统计基本知识的读者可以
选读本书的任何一个完整的部分. 虽然本书介绍的方法涉及应用统计的各个方面, 但不可能介绍所有的数学和统计细节, 否则将会是一部巨型的百科全书.
笔者尽量用文字和少量数学公式对各种方法的原理予以直观介绍, 并引导读者做进一步的阅读.
由于本书没有按照数学模型的分类来编排, 因此对各种方法的介绍不可能满足数学上的系统、整洁和完美的要求, 但这正是对现实数据和现实世界的反映.
如果现实数据都像标准教科书例子那样``规范'',
统计就没有存在和发展的必要了. 本书试图让读者理解世界是复杂的, 数据形式是多种多样的. 必须有超越书本、超越所谓权威的智慧和勇气,
才能充满自信地面对世界上出现的各种挑战.
由于统计正以前所未有的速度发展, R网站及其各个程序包也在不断更新, 因此, 笔者希望读者通过对本书的学习, 学会如何通过R不断学习新的知识和方法.
``授人以鱼不如授之以渔'', 成功的教师不是像百科全书那样告诉学生一些现成的知识, 而是让学生产生疑问和兴趣, 以促进其做进一步的探索.
本书绝大多数数据例子都可以从网上找到并且下载. 这些例子背后都有一些理论和应用的故事.
笔者并没有刻意挑选例子所在的领域, 这没有关系. 你学会了一加一等于二, 也就学会了一个苹果加一个苹果等于两个苹果,
或一个梨加一个梨等于两个梨这样的计算. 那个把作为科学的统计按照工种来划分诸如工业统计、农业统计、劳动统计的时代早已一去不复返了.
统计是为各个领域服务的, 我们想要得到的是到任何领域都能施展的能力, 而不是有限的行业培训. 如果你能够
处理具有挑战性的数据, 那么无论该数据来自何领域, 你的感觉都会很好.
虽然本书冠以``复杂数据统计方法''之名, 但对``非复杂''数据的方法都有较完整的回顾, 并给出了相应的运算程序, 只不过没有像标准教科书那样详细地解释细节而已.
本书的适用范围很广, 其内容曾经在中国人民大学、首都经贸大学、中央财经大学、西南财经大学、云南财经大学、四川大学、哈尔滨理工大学、新疆财经大学、中山大学、内蒙古科技大学、云南师范大学讲授过, 对象包括数学、应用数学、统计、精算、经济、旅游、环境等专业的本科生以及数学、应用数学、统计、计量经济学、生物医学、应用统计、经济学等专业的硕士和博士研究生.
作为成绩评定, 给每个学生分配若干网站上的实际数据, 并且要求他们在学期末将他们分析处理这些数据的结果形成报告.
这些数据如何处理, 没有标准答案, 甚至有些必要的方法还超出了授课的范围, 需要学生做进一步的探索和学习.
笔者认为, 应用统计硕士所学的内容应该包括本书的大部分内容. 希望本书对于各个领域的教师以及实际工作者都有参考价值.
本书面世以来, 得到了广大读者的支持和鼓励. 目前的第三版对第二版做了相当大的增补, 并且重新安排了章节. 除了对前两版中发现的错误做出改正之外, 主要增加了贝叶斯网络, 定序变量的比例优势模型, 调查问卷的垃圾比例计算等内容. 总共增加将近三分之一的篇幅. 和第二版一样, 第三版的排版是笔者通过\LaTeX{}软件实现的.
在任何国家及任何制度下都能够生存和发展的知识和能力, 就是科学, 是人们在生命的历程中应该获得的
|