大数据与信息的关系

来源：郑州百知教育时间：2020/11/4 15:09:08

　　大数据与信息的关系

　　了解大数据的人，都可能知道，大数据有5V特点，这是IBM提出来的:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。但从信息论的角度，大数据通常是具备三个主要特征，数据量大，多样性和完备性。

　　1、大数据的体量足够大

　　大数据明显的特点就是体量大，这一点无论是内行还是外行都认可，没什么异议。我们仅仅北京的超级大数据中心，占地面积就8万平方米，包含9栋数据中心机房和1栋感知体验中心。

　　但是，过去由于数据量不够，即使用了数据，依然不足以消除不确定性，因此数据的作用其实有限，很多人忽视它的重要性是必然的，数据的价值也就被严重低估。在那种情况下，哪个领域先积攒下足够的数据，它的研究进展就显得快一些。语音识别领域，就是因为早期积攒了大量的音频数据，才可以捷足先登，批尝到了数据驱动方法的甜头。

　　2、大数据的多维度足够多

　　众所周知，Google的人工智能已经走在了前沿，也是目前估值高的公司。但是，无论是AlpahaGo、无人驾驶还是IT医疗公司Calico，都是建立在多维度的大数据基础之上的。例如关于“食物”这个问题，Google会利用用户输入的信息，收集所有相关的信息。不仅涉及到食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间等维度。

　　大数据的多维度，统计学中称为相关性，信息论中称为互信息。互信息，它在信息论中，实现了对信息相关性的度量。比如“央行调整利率”和“股市短期波动”的互信息很大，这就证实了两者具备强相关性。第二个视角，交叉验证。举例说明，夏天的时候，“空气湿度高”和“24小时内要下雨”之间的互信息比较大。也就是说空气湿度高，24小时下雨的可能性比较大，但并不能说空气湿度高就一定会在24小时内下雨。还需要结合气压信息，云图信息等其他纬度的信息，来交叉验证“24小时内要下雨”这件事情，那么预测的准确性要高的多。

　　3、大数据的完备性

　　要理解它，需要介绍信息论中的一个重要概念—交叉熵。它可以反映两个信息源之间的一致性，或者两种概率模型之间的一致性。当两个数据源完全一致的时候，其交叉熵为0，当它们相差很大时，它们的交叉熵也很大。因此，所有数据驱动的方法，建立模型使用的数据和使用模型的数据需要有一致性。

　　抽样调查方式都是采用抽取有限的样本进行统计，从而得出整体的趋势。抽样的核心原则是随机性，不随机就不能真实地反应整体的趋势。但是要做到随机性是很难的。例如电视收视率调查，要从不同阶层随机找被调查的人，但高学历高收入的大忙人们普遍拒绝被调查，他们根本就不会因为几个蝇头小利而浪费时间，电视调查的结果就可想而知。

　　所以，在过去，任何使用概率统计模型都会有很多小概率事件是覆盖不到的。大数据时代以前，这是数据驱动方法的死穴。

　　在大数据时代，在某个领域获得数据的完备性还是有可能的，Google的机器翻译系统就能很好的要利用大数据的完备性。通过数据学到了不同语言之间很长句子成分的对应，然后直接把一种语言翻译成另一类，前提条件就是使用的数据必须是比较全面地覆盖中文、英文，以及其他各种语言的所有句子，也就是说具备两种语言之间翻译的完备性。

　　当数据的完备性具备了以后，就相当于训练模型的数据集合和使用这个模型的测试集合是同一个集合，或者是高度重复的。这样的数据驱动方法才是有效的。

上一篇大数据实践思维

下一篇大数据思维养成从认识大数据的本质开始

相关推荐

联系方式

选择专业时，如果犹豫不定，不知道选择哪个比较好，敬请致电，专业的咨询老师会为你解答。

报名热线：400-6263-721
咨询老师：吴老师
点击咨询：

开课专业

常见问题

没有想要的答案？马上提问

大数据与信息的关系

软件开发

郑州UI设计

常见问题

学校动态