- 中文名
- 统计学
- 外文名
- Statistics
- 性 质
- 重要的数学方法、独立学科
- 相关学科
- 数学
- 产 生
- 伴随着人类活动而产生
- 应 用
- 人类生活的方方面面
历史沿革
学术流派
政治算术学派
产生于17世纪中叶的资本主义英国,创始人是威廉·配第(W.Petty, 1623—1687),其代表作是他于1676年完成的《政治算术》一书。在撰写该部代表作时,正值
第三次英荷战争
战争,国内经济困难,国外面临着荷、法两国的威胁。配第为了让人们知道和确信“英国的事业和各种问题,并非处于可悲的状态”,在《政治算术》中用数字比较分析了英、荷、法三国的经济实力和造成这种实力差异的原因,并从贸易、税制、分工、资本和利用闲散劳动力等多方面提出了英国的强盛之道。这种用数字来表述,为统计学的形成和发展奠定了方法论基础。配弟在书中使用的数字有三类:第一类是对社会经济现象进行统计调查和经验观察得到的数字。第二类是运用某种数学方法推算出来的数字。第三类是为了进行理论性推理而采用的例示性的数字。因此,马克思说:“威廉·佩第——政治经济学之父,在某种程度上也是统计学的创始人。”
政治算术学派的另一个代表人物是约翰·格朗特(1620—1674)。他以1604年伦敦教会每周一次发表的“死亡公报”为研究资料,在1662年发表了《关于死亡公报的自然和政治观察》的论著。书中分析了60年来伦敦居民死亡的原因及人口变动的关系,首次提出通过大量观察,可以发现新生儿性别比例具有稳定性和不同死因的比例等人口规律;并且第一次编制了“生命表”,对死亡率与人口寿命作了分析,从而引起了普遍的关注。
17世纪,在英格兰居住的人们开始对“政治算术”产生兴趣。1662年,John Graunt发表了《natural and politics observations upon the bills of mortality》,分析了生男孩和女孩的比例,发展了保险公司所用的那种类型的死亡率表。
但遗憾的是,该学派的学者都还没有使用“统计学”这个名称,他们的著作有统计学之实,却没有统计学之名,存在名不副实的缺陷。
国势学派
又称记述学派,产生于17世纪的德国。由于该学派主要以文字记述国家的显著事项,故称记述学派。其主要代表人物是海尔曼·康令和阿亨华尔。康令(H.Conring, 1606—1681)第一个在德国黑尔姆斯太特大学以“国势学”为题讲授政治活动家应具备的知识。
主要继承人阿亨华尔(Gottfried Achenwall, 1719—1772)在格丁根大学开设“国家学”课程,其主要著作是《近代欧洲各国国势学纲要》。统计学的英文statistics最早是源于现代拉丁文statisticum collegium(国会)以及意大利文statista(国民或政治家)。因在外文中“国势”与“统计”词义相通,1749年阿亨华尔用德文Statistik正式命名为“统计学”代替“国势学”。代表对国家的资料进行分析的学问,也就是“研究国家的科学”。在19世纪统计学在广泛的数据以及资料中探究其意义,英文的statistic是由约翰·辛克莱(John Sinclair)由状态(status)和
德文
的政治算术联合推导,第一次出现于1797年的Encyclopaedia Britannica。(早期还有一个单词publicitics和statistics竞争“统计”这一含义,就开始流行publicitical learning)。
但该学派在进行国势比较分析中,偏重用文字描述事物性质的解释,而不注重数量对比和数量计算,因而对后人所认为的统计学,存在“实不符名”的缺陷,但却为统计学的发展奠定了经济理论基础。但随着
资本主义市场经济
的发展,对事物量的计算和分析显得越来越重要,该学派后来发生了分裂,分化为图表学派和比较学派。政治算术学派和记述学派共存了将近两百年,两派互相影响,互相争论,但总的来说,政治算术学派的影响要大得多。
在18世纪,由于概率理论日益成熟,为统计学的发展奠定了基础,在统计分析中经常使用的一些基本方法和术语都始于这一个时期,例:
最小平方法
、
正态分布曲线
、误差计算等。数理统计学派奠基人是比利时的阿道夫·凯特勒(A.Quetelet, 1796—1874),其主要著作有:《论人类》、《概率论书简》、《社会制度》和《社会物理学》等。
19世纪中叶,他把概率论引入统计学,使统计学在“政治算术”所建立的“算术”方法的基础上,促进了统计的精确化。他最先提出,用数学中的大数定律——平均数定理,作为分析社会经济现象的一种工具。他提出,社会现象的发展并非偶然,而是具有其内在规律性的。但他在解释社会规律时,不能正确地把社会规律与自然规律区分开,提出社会规律与自然规律一样永恒不变的错误观点。凯特勒写过不少运用概率论的著作,到19世纪60年代,他又进一步将国势学、政治算术、概率论的科学方法结合起来,使之形成近代应用
数理统计学
。十九世纪末,欧洲大学开设的“国情纪要”或“政治算数”等课程名称逐渐消失,代之而起的是“统计分析科学”课程。当时的“统计分析科学”课程的内容仍然是分析研究社会经济问题。在1830年—1849年,出现了所谓“统计狂热时代‘’,各国相继成立了统计机关和统计研究。
[2]
其后,经过多方面的研究,特别是
数理统计学
吸取生物中的有益结果,由葛尔登、皮尔生、戈赛特和费雪等统计学家,提出并发展了回归和相关、假设检验、x
2
分布和t分布等理论,数理统计学逐渐发展成为一门完整的学科。1908年,“学生”氏(William Sleey Gosset的笔名Student)发表了关于t分布的论文。它创立了小样本代替大样本的方法,开创了统计学的新纪元。
社会统计学派
产生于19世纪后半叶,创始人是德国经济学家、统计学家克尼斯(1821—1889),主要代表人物主要有恩格尔(1821—1896)、梅尔(1841—1925)等人。他们融合了国势学派与政治算术学派的观点,沿着凯特勒的“基本统计理论”向前发展,但在学科性质上认为统计学是一门社会科学,是研究社会现象变动原因和规律性的实质性科学,以此同数理统计学派通用方法相对立。社会统计学派在研究对象上认为统计学是研究体而不是个别现象,而且认为由于社会现象的复杂性和整体性,必须地总体进行大量观察和分析,研究其内在联系,才能揭示现象内在规律。这是社会统计学派的“
实质性科学
”的显著特点。
社会经济的发展,要求统计学提供更多的统计方法;社会科学本身也不断地向细分化和定量化发展,也要求统计学能提供更有效的调查整理、分析资料的方法。因此,
社会统计学派
也日益重视方法论的研究,出现了从实质性方法论转化的趋势。但是,社会统计学派仍然强调在统计研究中必须以事物的质为前提和认识事物质的重要性,这同数理统计学派的计量不计质的方法论性质是有本质区别的。
近代统计学
1.由记述统计向推断统计发展。记述统计是对所搜集的大量数据资料进行加工整理、综合概括,通过图示、列表和数字,编制
次数分布表
、绘制直方图、计算各种特征数等,对资料进行分析和描述。而推断统计,则是在搜集、整理观测的样本数据基础上,对有关总体作出推断。其特点是根据带随机性的观测样本数据以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的推断。西方国家所指的科学统计方法,主要就是指推断统计来说的。
2.由社会、经济统计向多分支学科发展。在20世纪以前,统计学的领域主要是人口统计、生命统计、社会统计和经济统计。随着社会、经济和科学技术的发展,统计的范畴已覆盖了社会生活的领域,成为通用的方法论科学。它被广泛用于研究社会和自然界的各个方面,并发展成为有着许多分支学科的科学。
3.统计预测和决策科学的发展。传统的统计是对已经发生和正在发生的事物进行统计,提供统计资料和数据。20世纪30年代以来,特别是
第二次世界大战
以来,由于经济、社会、军事等方面的客观需要,统计预测和统计决策科学有了进一步发展。
4.信息论、控制论、系统论与统计学的相互渗透和结合,使统计科学进一步得到发展和日趋完善。信息论、控制论、系统论在许多基本概念、基本思想、基本方法等方面有着共同之处,三者从不同角度、侧面提出了解决共同问题的方法和原则。三论的创立和发展,改变了世界的科学图景和科学家的思维方式,也使统计科学和统计工作出现了新的发展趋势。
5.计算技术和一系列新技术、新方法在统计领域不断得到开发和应用。伴随着计算机技术的不断发展,使统计数据的搜集、处理、分析、存贮、传递、印制等过程日益现代化,提高了统计工作的效能。计算机技术的发展,日益扩大了传统的和先进的统计技术的应用领域,促使统计科学和统计工作发生了革命性的变化。而今,计算机科学已经成为统计科学不可分割组成部分。随着科学技术的发展,统计理论和实践深度和广度方面也在不断发展。
6.统计在现代化管理和社会生活中的地位日益重要。英国统计学家哈斯利特说:“统计方法在生活和习惯中的应用是这样普遍,应当重视统计的作用。”后来,甚至有的科学有还叫作“统计时代”。
[5]
统计学现状
伴随着科学技术的飞速发展,通过吸收和融合相关学科的新理论,开发应用新技术和新方法,深化和丰富统计学传统领域的理论与方法,统计学拓展了新的领域。在国家,社会主义市场经济体制的逐步建立,实践发展的需要对统计学提出了新的更多要求。随着
社会主义市场经济
的成长和不断完善,统计学的潜在功能将得到更进一步的开掘。
第一,对系统性及系统复杂性的认识为统计学的未来发展增加了新的思路。随着科学融合趋势的兴起,统计学的研究触角已经向新的领域延伸,开始探索性数据的统计方法的研究。研究的领域向复杂客观现象扩展。21世纪统计学研究的重点将由确定性现象和随机现象转移到对复杂现象的研究,向模糊现象、突变现象及混沌现象等领域拓展。
第二,定性与定量相结合的
综合集成法
将为统计分析方法的发展提供新的思想。定性与定量相结合的综合集成方法是钱学森教授于1990年提出的。这一方法的实质就是将科学理论、经验知识和专家判断相结合,提出经验性的假设,再用经验数据和资料以及模型对它的确实性进行检测,经过定量计算及反复对比,最后形成结论。
第三,统计科学与其他科学渗透将为统计学的应用开辟新的领域。模糊论、突变论及其他新的边缘学科的出现为统计学的进一步发展提供了新的科学方法和思想。将一些尖端科学成果引入统计学,使统计学与其交互发展将成为统计学发展的趋势。已经有一些学者开始将控制论、信息论、系统论以及图论、混沌理论、模糊理论等方法和理论引入统计学。
统计学产生于应用,在应用过程中发展壮大。随着经济社会的发展、各学科相互融合趋势的发展和计算机技术的迅速发展,统计学的应用领域、统计理论与分析方法也将不断发展。
[6]
特征
职能
分析
1.1.3 资料方差不齐,(1)采用Satterthwate的t’检验;(2)采用非参数检验、Wilcoxon检验。
1.2 两组配对样本的比较
1.2.1 两组差值服从正态分布,采用配对t检验。
1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。
1.3 多组完全随机样本比较
1.3.1 资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。检验结果首先有统计学意义,进一步作两两比较,两两比较的方法有LSD检验、Bonferroni法、tukey法、Scheffe法、SNK法等。
1.4 多组随机区组样本比较
1.4.1 资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。检验结果如果有统计学意义,进一步作两两那么比较。
1.4.2 资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。检验结果为有统计学意义,那么进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。
1.5 需要注意的问题
(2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的
统计方法
,上面提到的LSD检验、Bonferroni法、tukey法、Scheffe法、SNK法等。绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确。
学科分支
|
统计学史
|
宏观经济统计学
|
文化与体育统计学
|
社会福利与社会保障统计学
|
环境统计学
|
|
理论统计学
|
微观经济统计学
|
卫生统计学
|
自然资源统计学
|
国际比较统计学
|
|
统计调查分析理论
|
管理统计学
|
司法统计学
|
国际统计学
|
国际标准分类统计学
|
|
统计监督理论
|
科学技术统计学
|
生活质量统计学
|
国际核算体系与方法论体系
|
国际标准分类统计学
|
|
统计预测理论
|
描述统计学
|
环境与生态统计学
|
社会统计学
|
生态平衡统计学
|
|
统计逻辑学
|
经济统计学
|
统计学
|
教育统计学
|
工程统计学
|
|
水文统计学
|
水文统计学
|
社会经济统计学
|
生物统计学
|
心理统计学
|
|
统计物理学
|
统计语言学
|
化学统计学
|
数理统计学
|
化学统计学
|
|
推断统计学
|
农村经济调查
|
生活质量统计学
|
商务统计学
|
档案统计学
|
|
生活质量统计学
|
人口统计学
|
统计法学
|
|
人口统计
|
资料采矿(应用统计学以及图形从资料中获取知识)
|
电机统计
|
化学与程序分析(所有有关化学的资料分析与化工科学)
|
|
经济统计学
|
生物统计
|
统计物理学
|
社会统计(包括所有的社会科学﹚
|
|
商用统计
|
农业科学
|
心理统计学
|
文献统计分析
|
|
教育统计学
|
运动统计学,特别是棒球以及曲棍球
|
理论渊源
2.
最小二乘法
1805年,Legendre提出最小二乘法,Gauss声称自己在1794年用过,并在1809年基于误差的高斯分布假设,给出了严格推导。
3.总体和样本
在早期文献中可找到由某个总体中抽样的明确例子,然而从总体中只能取得样本的认识常常是缺乏的。 ----K.皮尔逊时代
到十九世纪末,对样本和总体的区别已普遍知道,然而这种区分并不一定总被坚持。----1910年Yule在自己的教科书中指出。
在 1900年代的早期,区分变的更清楚,并在1922年被Fisher特别强调。----Fisher在1922年发表的论文《On the mathematical foundation of theoretical statistics》,说明了总体和样本的联系和区别,以及其他概念,奠定了“
理论统计学
”的基础。
4.期望、标准差和方差
力学中的矩和统计学中的中数两者之间的相似性已被概率领域的早期工作者注意到,而K.皮尔逊在1893年第一次在统计意义下使用“矩”。
5.卡方统计量
卡方统计量,是卡-皮尔逊提出用于检验已知数据是否来自某一特定的
随机模型
,或已知数据是否与已给定的假设一致。
卡方检验
被誉为自1900年以来在科学技术所有分支中20个尖端发明之一,甚至敌人Fisher都对此有极高评价。
6.矩估计与最大似然
卡-皮尔逊提出了使用矩来估计参数的方法。
Fisher则在1912年到1922年间提出了最大似然估计方法,基于直觉,提出了估计的一致性、有效性和充分性的概念。
7.概率的公理化
8.
贝叶斯定理
贝叶斯对统计学几乎没有什么贡献,然而贝叶斯的一篇文章成为贝叶斯学派统计学的思想模式的焦点,这一篇文章发表于1763年,由贝叶斯的朋友、著名
人寿保险
原理的开拓者Richard Price在贝叶斯死后提出来的----贝叶斯定理。
概率思想的两种方法,(1)作为一个
物理系统
内在的一种物理特性,(2)对某一陈述相信程度的度量。 在1950年代后期止,多数统计学家采取第一种观点,即概率的相对
频数
解释,这一时期
贝叶斯定理
仅应用在概率能在频数框架内解释的场合。
9.其他
在十九世纪中叶,三个不同领域产生的重要发展都是基于随机性是自然界固有的这个前提上的。
1859 年,
达尔文
发表了《
物种起源
》,达尔文的表兄弟高尔登爵士开始利用概率工具分析生物现象,对
生物计量学
的基础做出了重要贡献(可以称他为
生物信息学
之父),高尔登爵士是第一个使用相关和回归这两个重要概念的人,他还是
中位数
和百分位数这种概念的创始人。
受高尔登工作影响,在伦敦的大学学院工作的卡尔-皮尔逊开始把数学和概率论应用于
达尔文进化论
,从而开创了现代统计时代,赢得了统计之父的称号,1901年Biometrika第一期出版(卡-皮尔逊是创始人之一)。