学院快讯

学院快讯

    蔡肖兵:从科学哲学视角下看“大数据”

    发布日期:2015-12-08 作者:    编辑:张帅    审核:    点击:[]

    当你怀疑自己得了流感怎么办?大多数美国人会在第一时间选择上谷歌对流感症状进行搜索。谷歌一个研究小组5年前曾在《自然》杂志上宣布了一个令人瞩目的成果。该小组可以追踪美国境内流感的传播趋势,而这一结果不依赖于任何医疗检查。他们的追踪速度甚至比疾控中心要快的多:谷歌的追踪结果只有一天的延时,而疾控中心则需要汇总大量医师的诊断结果才能得到一张传播趋势图,延时超过一周。

    谷歌流感趋势的成功,很快就成为了商业、技术和科学领域中最新趋势的象征,也把我们带入一个大数据的时代。那么什么是大数据?我们应该怎么看待大数据呢?

    4月25日,中国社会科学院哲学所副研究员蔡肖兵从科学哲学的角度,对“大数据”起源、发展特点、运用的利弊进行了讲解。政治学院、科研处举办了这次活动。

    蔡肖兵引用维基百科对“大数据”定义进行了阐述,“大数据”是指所涉及的数据量规模巨大到无法通过人工,在合理的时间内达到截取、管理、处理、并整理成为人类所能解读的信息。根据定义,蔡肖兵提醒师生,“大数据”更加侧重于对数据的筛选,智能化的整合,而不在于数据大。

    蔡肖兵认为,谷歌流感趋势预测的高准确度和高时效性充分反映了“大数据”4V特点,即Volume(量)、Velocity(速)、Variety(多变)以及Veracity(真实性)。尤其是美国《连线》杂志得出“数据已经大到可以自己说出结论”的论点,再次引起世界关注。

    然而,令人意外的是,近年来,谷歌在预测流感却频频失败,这一问题引起了业界的广泛讨论,一直广受欢迎的“大数据”分析为什么会出错呢?

    “‘大数据’出错是由于样本误差和样本偏差引起的,很多人关注的是数据之间的联系,而不是产生联系的原因。”蔡肖兵认为,找准数据是“大数据”分析的前提。进行分析时,数据并非越大越好,相反,当选取的数据源存在问题时,选取的数据越大,引发的问题也就越大。

    蔡肖兵表示,我们在运用“大数据”的过程中,用户信息的隐私性和安全性难以保障。例如,当我们运用谷歌进行检索时,谷歌也在对我们进行检索。它知道我们在什么时间、地点、对什么东西感兴趣,大量用户信息一旦泄露后果将不堪设想。

    “大数据”的种种弊端引发了相关部门的恐慌。置身信息时代的我们应该如何去理解“大数据”呢?

    蔡肖兵认为,我们不能对“大数据”一概而论,要客观全面看待问题。“大数据是‘襁褓中’的新生科学,就像婴儿一样在学习走路时会跌倒,也需要大人的帮助。因此,我们既要吸收批评者的意见,让大数据有对传统的继承,又要有所突破,让它更好的服务我们的生活。”

    人物简介:蔡肖兵,中国社会科学院哲学所副研究员,主要研究方向为科学哲学、物理学哲学、科学技术与社会。中国自然辩证法研究会理事,中国自然辩证法研究会科学基础与信息网络专业委员会主任委员兼秘书长。

    蔡肖兵做讲座

    关闭