辛普森悖论是怎么回事?
辛普森悖论是指研究两种变量之间的相关性,分别进行分组研究时占优势的一方,在总体分析时却没有占优势。是辛普森在1951年的论文中正式阐述的,之后这一现象就用他的名字命名为辛普森悖论。之所以会出现这种情况,是因为往往一个情境会有很多的影响因素,并不是单一的一个因素,同时会有很多潜在因素影响着,导致优势并不能靠单纯的相累得到,这并不反映真实的情况。一、量与质并不对等俗话说量变引起质变,但有时候其实量与质并不是等价的,有些情景的真实情况并不是靠单纯地相加相累就可以反映出来。但很多人往往都愿意相信自己看到的,因为量往往能更加直观地感受和量测到,用数量来评定很多事情的好坏,这显然并不科学。二、从辛普森悖论可以受到一些启发辛普森悖论留给我们很多的启发,有些事情并没有我们想得那么的简单,还是要从实际情况出发,实事求是。世界上有很多需要我们去探索解决的问题,就如同这质与量的谜题一样,找到方法对我们解决生活中的难题会有很大的帮助。最后对我们的人生也有很好的启发,并不是所有的事情都一定会有明显的回报,简单的叠加并不一定引起质的变化,有些时候我们需要正确看待事情的结果,找到更好的解决方法。辛普森悖论的意义很重大,它教我们学会看待问题的另一种方法,学会从另一个角度看问题,为我们解决生活中的问题提供了一种独特的思考方式。同时它也是一种重要的科学理论,为我们一些难以解释的问题提供了论据,是一种对人类生活有很大帮助的,影响非常的深远和广泛的理论。
什么是辛普森悖论?
辛普森悖论是指研究两种变量之间的相关性,分别进行分组研究时占优势的一方,在总体分析时却没有占优势。是辛普森在1951年的论文中正式阐述的,之后这一现象就用他的名字命名为辛普森悖论。之所以会出现这种情况,是因为往往一个情境会有很多的影响因素,并不是单一的一个因素,同时会有很多潜在因素影响着,导致优势并不能靠单纯的相累得到,这并不反映真实的情况。一、量与质并不对等俗话说量变引起质变,但有时候其实量与质并不是等价的,有些情景的真实情况并不是靠单纯地相加相累就可以反映出来。但很多人往往都愿意相信自己看到的,因为量往往能更加直观地感受和量测到,用数量来评定很多事情的好坏,这显然并不科学。二、从辛普森悖论可以受到一些启发辛普森悖论留给我们很多的启发,有些事情并没有我们想得那么的简单,还是要从实际情况出发,实事求是。世界上有很多需要我们去探索解决的问题,就如同这质与量的谜题一样,找到方法对我们解决生活中的难题会有很大的帮助。最后对我们的人生也有很好的启发,并不是所有的事情都一定会有明显的回报,简单的叠加并不一定引起质的变化,有些时候我们需要正确看待事情的结果,找到更好的解决方法。辛普森悖论的意义很重大,它教我们学会看待问题的另一种方法,学会从另一个角度看问题,为我们解决生活中的问题提供了一种独特的思考方式。同时它也是一种重要的科学理论,为我们一些难以解释的问题提供了论据,是一种对人类生活有很大帮助的,影响非常的深远和广泛的理论。
【科普】辛普森悖论
先来做一个选择题。 统计两个班级的数学成绩,二班的整体及格率高于一班,那么则有: A:二班男生及格率高于一班男生及格率 B:二班女生及格率高于一班女生及格率 C:AB两种情况必定都成立 D: AB两种情况必定至少有一种情况成立 E.:AB两种可以都不成立 请先仔细思考几分钟,然后再继续往下阅读。 9 8 7 6 5 4 3 2 1 0 我们先看一组比较虚拟示例的数据。 一班的及格率是: 二班的及格率是: 二班的的整体及格率明显高于一班。 再分开男女单独比。 一班的男生及格率和女生及格率都比二班高,但为什么一班整体及格率却比二班低? 我们把数据画到坐标图上,如下所示。 横向表示总人数,竖向表示及格人数。图中黑色表示一班,红色表示二班,实心点表示 (x,y)=(男生及格人数,男生总人数) 这样的坐标点,空心表示女生的坐标点。很明显,斜线的倾斜度就是及格率,越是竖直斜率越高及格率也就越高,越是水平斜率越低及格率也就越低。 从图中可以看到,一班男生及格率(斜率)高于二班男生,一班女生及格率(斜率)也高于二班女生。 但班级的整体及格率是什么? (x,y)=(男生及格,男生总数)+(女生及格,女生总数) ,如下图中实线所示,班级整体及格率就是实线的斜率,即 (男生及格+女生及格)/(男生总数+女生总数) 。 图中的两条女生虚线已经被平移到男生虚线之后,和班级整体的实线形成了三角形关系。 两条斜率大的斜线,连接成三角形的第三条边(实线)斜率未必就大 。 从这个例子我们知道,从一组数据统计得到的概率并不能决定数据内部某个类别的概率情况。因为整体概率往往是很多子因素概率综合作用的结果。就像下图,实线的最后斜率和每段虚线的斜率并不一致。 辛普森悖论 (Simpson's Paradox)就是指两组数据中分别统计得到的信息,可能与合并之后统计的信息相反。这个理论由英国统计学家E.H.辛普森(E.H.Simpson)提出。 这个理论提醒我们看待问题要更加深入,不要轻易被整体数据所迷惑。比如高考某院校的全国整体录取率很高,但是对于某个省或某个专业来说可能就会很低。比如某个球员的射门命中率很高,但有可能是他罚点球比较多造成的。 这时候你可以回头看一下顶部那张给猫和人试用药品的图片了。 分数是个很怪异的数字,分数的表面只是一个比例,但每个分数的背后都隐藏着一个分母总数。我们不能从及格率60%这个数字上看出背后有多少学生,更看不出其中有多少男女。 很小的时候数学老师就告诉我们非同名数不能相加。但是忘了告诉我们 非同分母的分数也不能任意相加 。比如说有人欠你1/3颗芝麻和2/3个西瓜,然后他只给你一粒芝麻,这是不行的。 分数所能表达的信息是残缺的。就像把整本《三国演义》概括成一句话“天下大势,分久必合合久必分”,你从这句话中体会不到谁是曹操谁是刘备关羽张飞诸葛亮。 END·
辛普森悖论是什么?为什么会这样?
辛普森悖论是指研究两种变量之间的相关性,分别进行分组研究时占优势的一方,在总体分析时却没有占优势。是辛普森在1951年的论文中正式阐述的,之后这一现象就用他的名字命名为辛普森悖论。之所以会出现这种情况,是因为往往一个情境会有很多的影响因素,并不是单一的一个因素,同时会有很多潜在因素影响着,导致优势并不能靠单纯的相累得到,这并不反映真实的情况。一、量与质并不对等俗话说量变引起质变,但有时候其实量与质并不是等价的,有些情景的真实情况并不是靠单纯地相加相累就可以反映出来。但很多人往往都愿意相信自己看到的,因为量往往能更加直观地感受和量测到,用数量来评定很多事情的好坏,这显然并不科学。二、从辛普森悖论可以受到一些启发辛普森悖论留给我们很多的启发,有些事情并没有我们想得那么的简单,还是要从实际情况出发,实事求是。世界上有很多需要我们去探索解决的问题,就如同这质与量的谜题一样,找到方法对我们解决生活中的难题会有很大的帮助。最后对我们的人生也有很好的启发,并不是所有的事情都一定会有明显的回报,简单的叠加并不一定引起质的变化,有些时候我们需要正确看待事情的结果,找到更好的解决方法。辛普森悖论的意义很重大,它教我们学会看待问题的另一种方法,学会从另一个角度看问题,为我们解决生活中的问题提供了一种独特的思考方式。同时它也是一种重要的科学理论,为我们一些难以解释的问题提供了论据,是一种对人类生活有很大帮助的,影响非常的深远和广泛的理论。
统计学4-辛普森悖论
对撞因子(Collider)【1】,在统计学和图模式中,是指同时被两个以上的变量影响的变量,而这些影响对撞因子的变量之间不一定有因果关系。因为在环路图上会显示为有两个以上箭头指入的节点,所以称为对撞因子。 在二次世界大战期间, 沃德·亚伯拉罕 发现盟军飞回来的飞机中,机翼上有最多弹痕,机尾和引擎最少。他提议补强最少弹痕的地方,而不是中弹最多的地方。因为这些飞机可以飞回来,说明中弹的位置不重要,而其他位置中弹的飞机没能飞回来,所以才没有观察到哪些位置中弹。 有弹痕的位置 和 重要的位置 是两个变量, 是否被击落 是对撞因子,因为 没被击落 的条件已经自动被控制了,所以变量之间出现负相关。这种现象称作 幸存者偏差 。 再以篮球为例,如果只看 NBA球员,会发现身高比较高的人得分率没有比较高。这是因为身高矮还能进NBA的人必然是用其他有时补足了身高的弱势。 身高 为自变量, 篮球得分率 为因变量, 是NBA球员 是对撞因子。 如果控制对撞因子后造成相反的相关性,称为辛普森悖论【2】。 当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年, E.H.辛普森 在他发表的论文中阐述此一现象後,该现象才算正式被描述解释。后来就以他的名字命名此悖论。 请看下面的例子 一所美国高校的两个学院,分别是法学院和商学院。新学期招生,人们怀疑这两个学院有性别歧视。现作如下统计: 法学院 商学院 根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较 高 。现在将两学院的数据汇总: 在总评中,女生的录取比率反而比男生低。 借助一幅向量图可以更好的了解情况: 这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。 就上述例子说,导致辛普森悖论有两个前提。 为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时,我们必需清楚了解情况,以综合考虑是否存在造成此悖论的潜在因素。 【1】 对撞因子 【2】 辛普森悖论
为什么有时各个部分均占优而整体不占优
你相信统计数据吗,它们有时会耍“障眼法”。 有时候,统计数据会出现一些极其反常的现象。让我们来看一看下面这个有趣的例子。假设科学家研发出了一种治疗某种疾病的新药。不过,实验结果表明,这种新药的效果并不比原来的药更好,如表所示: 简单计算就能看出,新药只对40%的人有效,而原药则对50%的人有效。问题出在哪里呢?是否因为这种新药对某一类人有副作用?还是存在其他原因?于是研究人员把性别因素考虑进来,将男女分开来统计,如表所示: 我们不妨实际计算一下:对于男性来说,新药对高达70%的人有效,而原药则只对60%的人有效;但对于女性来说,新药对30%的人有效,而原药则只对20%的人有效。矛盾的结果出现了:新药不但对男性更加有效,对女性也更加有效,但对整体人群则不及原药!1951年,英国统计学家辛普森首次发现了这种怪异的现象,因此这种现象就被叫作“辛普森悖论”。 辛普森悖论也叫辛普森效应,它其实不是一个悖论。其数学原理是:当 在医药卫生领域的统计数据中,这样的现象时常会发生,如流行病学中的“混杂效应”实际上就是辛普森效应。类似的事情在人类社会其他领域中也有发生。美国劳工部曾发表过一份报告显示,于2009年爆发并影响之后多年的全球金融危机期间,美国总体失业率要低于20世纪80年代经济衰退期间的总体失业率。然而,分别统计大学毕业生、高中毕业生以及高中辍学生等各个群体的失业率数据后,会发现这些群体在全球金融危机期间的失业率,均高于20世纪80年代经济衰退期间。究其原因,是由于2009年以后美国每年大学毕业生人数占总人口的比例远高于20世纪80年代,而大学毕业生的失业率则远低于高中生或高中辍学生。 1973年,美国加利福尼亚大学伯克利分校曾因性别歧视被起诉,因为有统计数据显示,当年男性学生的录取率远远高于女性学生。然而,校方仔细检查了学校每个院系里的男女学生录取率,发现情况并不是那么回事。事实上,几乎所有院系的女性学生录取率都更高一些。最终,伯克利分校在这次诉讼中获胜。
为什么有时各个部分均占优而整体不占优?
在分组样本数据大小差异较大、发生频率差异较大时容易出现这种现象。这种现象就被叫做“辛普森悖论”占优策略:一、在领导理论中,有一个很有趣的理论——费德勒的权变模型(Fiedler contingency model)。内容如下图:注:LPC可以理解为一种对领导者问卷调查得到的员工关系评价。费德勒将领导风格大体上分为两种:一种是以任务为导向的领导,这种领导不在意员工的感受(低LPC),只注重业绩和任务目标;另一种领导在意员工的感受和体验(即高LPC),不注重任务目标。他将环境分为三种因素:上下级关系,任务结构和职位权利,并按照这三种因素确定了环境有利和不利。费德勒的结论是:在环境糟糕和很好的状况下,任务导向型的领导更有效;在环境中等的情况下,员工导向型更加有利。而关于我们的答案,似乎就是这样的:一个人什么样的性格是否占据优势,需要依靠环境因素决定。如果环境因素很坏,比如红军面临反围剿后的局面,那么一个强势的领导者上台整合全局就是最优决策。如果周围的环境很温和,那么一个民主型的领导者可能更加有效。所以,可能根本不存在什么最优的性格模版。二、确定【有利】的定义如果你说的有利是指社会成就,那么我可以告诉你,不是。乐观的人不一定比悲观的人取得更大的社会成就。记得有人玩笑说,乐观的人发明了飞机,悲观的人发明了降落伞;乐观的人敢于尝试和冒险,悲观的人却懂得如果保护他人和自己。之所以我们看到乐观的人取得更大的成就,可能是幸存者偏差,因为那些没能成功的乐观型人,可能已经挂掉了。
辛普森悖论出现的原因是
控制对撞因子后造成了相反的相关性数据中隐藏着一个潜在变量。在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论,辛普森在他发表的论文中阐述此现象。当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。
有哪些违背直觉的数学问题
我举两个例子吧,辛普森悖论和蒙提霍尔问题
辛普森悖论是指:A集合和B集合各分为两部分,A的每个部分都比B的相应部分均值小,但整体可能是A的均值更大。例如,有甲乙两个班,每个班里的学生都分为好生和差生2类,甲班的好生平均分是90分,乙班的好生平均分是95分,乙班高;甲班的差生平均分是60分,乙班的差生平均分是65分,也是乙班高。但是甲班的总体平均分却比乙班高(比如甲班50个好生,20个差生,乙班20个好生,50个差生)。
蒙提霍尔问题是指,参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门可赢得该汽车,另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,节目主持人开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。问题是:换另一扇门会否增加参赛者赢得汽车的机率?如果严格按照上述的条件,即主持人清楚地知道,哪扇门后是羊,那么答案是会。不换门的话,赢得汽车的几率是1/3。换门的话,赢得汽车的几率是2/3。