有相关于什么的企业?
“相关性”是一个在统计中广泛使用的概念,它是指两个或多个变量之间存在着某种程度的关联现象 比如我们研究个人收入与个人的教育水平之间的相关性,那么,收入和高学历就构成了这个问题中的两个变量。我们在样本数据上所做的分析处理,其最终目的都是要找到这两个变量之间的关系——是简单的线性关系还是复杂的非线性关系、是有方向关系还是随机关系等等。当然,相关性的分析方法也适用于研究多个变量之间共同的影响问题。
在大数据时代,相关性分析更加重要和有趣。因为大数据具有体量巨大、类型多样、数据时效性强的特征,所以,我们不仅需要在分析前做好样本的选择和数据的处理工作(这仍然是为了保证分析和结论的有效成立),还要在分析之后对结果做出合理的解释,即为什么要这样分析而不是进行别的分析或者为什么不考虑其他因素。否则,再精美的数学模型,再严谨的逻辑推导,如果脱离了实际意义,那么就失去了它的价值。
大数据的相关性分析虽然十分有用,但是需要注意以下两点:一是不能误把相关当作因。现实中许多相关的现象其实是由某个第三变量引起的。例如公司是否上市可能与公司的规模有关,同时可能也和行业的属性相关。如果我们仅从相关性的角度进行分析,可能会得到公司规模越大越易上市的结论,但是却忽略了真正导致这种相关现象产生的原因其实是行业的特性——当行业需求相对集中且易于衡量时,规模较大的企业更容易获得市场的认可从而顺利上市;二是不能忽略变量间的交互作用。在数据分析过程中,我们经常面对变量间的复杂关系,这些关系可能会有交互效应,也会有上下位的概念存在。因此在分析的时候需要特别注意。