实验数据和观测数据
实验数据是为了科学实验精心准备的数据,通过实验数据的分析,可以得到其中的因果关系。观测数据是从现实世界中搜集的数据,它反应的是其中的某种关联。这种诧异决定了数据挖掘和科学研究的不同。数据挖掘只负责研究两类数据联动的规律,而并不对这种规律作出解释。究竟这种关联是谁引起了谁,还是同时依赖第三方的条件而变化,从观测数据中是无法得出的。科学实验则要排除复杂的可能性,获得能够证明其因果关系的数据。
斯坦福的Stat 202中举了两个例子。其一是喝减肥可乐和体重的关系。统计表明喝可乐中减肥可乐比例越大的人,其体重越重。为什么呢?不是应该正好相反么?但是现实中的情况却是:一个人越胖,越要靠喝减肥可乐以减少碳水化合物的摄入,而瘦者则并不在乎喝普通可乐。真正有说服力的证据,需要组织一批实验者进行分组对照实验来获得。
第二个例子是CO2和全球温度上升的关系。观测数据证明了CO2和全球温度的联动关系。当前主流观点认为是是CO2的排放引起了温室效应导致气温上升。但是怀疑论者却认为是温度上升导致植物呼吸作用增多而增加了CO2的浓度。两者谁更可信呢?我们都不应该相信!因为没有一个结论是通过实验数据获得的。
所以说科学是一门基于观察和实验的学科。就是指科研活动是从观察现象到实验验证的过程。而仅仅通过观察现象,不足以获得让人信服的结论。只基于观察而不经过实验的所谓“经验科学”,并不存在。
