网络数据挖掘应用与限制北京师范大学张洪忠_行业资讯_资讯_一起调研网

    徐小良：
    接下来我们有请张洪忠教授，他是北京师范大学新闻传播学院的副院长，传播效果实验室主任，他给我们演讲的题目是《网络数据挖掘应用和限制》，大家掌声欢迎！

    张洪忠：
    非常感谢刘德寰教授的邀请，能够到这里来跟大家一起交流。前面的专家、学者，他们从信息技术的角度探讨问题。今天我想从社会科学角度来看待大数据。
    今天我们所说的很多大数据，其实是基于网络发展而产生兴起的。真正的大数据，比如说人口数据等等，真正的大数据之前都存在，但是在网络技术之前没有把它提出来。今天我想讲《网络技术的应用于限制》。
    我们所说的网络数据可以分为五种类型，今天能够从互联网上拿到的数据，一种是传统的调查，我们有三种方式获得样本，我们以导流量的方式获得样本。我们直接从淘宝和微博里面入口端导流量，这个流量是很大的。但是它有一个很大的问题，我们的量大、速度很快，但是我们不知道总体在哪里，我们没有推断性，它是非概念的样本。刚好这几周我正在上研究方法的课，讲抽样和概念的问题，我让同学们把互联网上的评论找出来，各个公司所发布的数据90%是非概念的大数据，号称大数据，其实也不是大数据，是没有推断性的。
    虽然这个数据很大，我们经常导流量样本，但是都是非概念的，它没有任何的推断性，只能说样本怎么样，不能说网民怎么样，也不能说别人怎么样。
    从样本库中获得数据，样本库里面号称有七百万的样本库，通过邮件来抽样得到，这些仅仅可以得到总体，但是总体是六百万或者是七百万推断。但是总体本身的质量怎么样，样本库里面，比较好的方法，我们是做追踪的研究、比较的研究。但是我们对总体的推断，其实也是有效的。
    我们通过滚雪球的方式，我们所谓的互联网数据，我们从互联网的调查来获得样本。网络的点击量，我们通过PV、UV值，通过这些来得到数据。比如说点击量怎么样，自媒体的排行榜，其实就是PV、UV的点击量。但是我们也是基于某一个网站，我们不知道蓝海在什么地方。
    社交媒体数据的应用，我们通过社交媒体来挖掘社会关系，但是这种社交媒体的挖掘，我们仅仅是挖掘就算了，我们不知道怎么分析它。比如说长安马自达，我们具体做的时候要画圈，是哪些样本，这些样本会不会购买马自达，怎么购买，我们一个一个筛出来，这就是社交媒体数据的挖掘。
    我们网民语言数据，微博和微信里面、新闻里面、评论、论坛信息，我们一般有两种方法，我们采用的是传统的内容分析的编码方法。第二种是自然语言的处理，我们通过数据，比如说我们做腾讯汽车指数的时候，2012年给我们一个评论数量有一千多万字，一台机器是拉不动的。传统的方法进行概念的抽样，进行分析和编码，然后形成整个图谱进行分析。
    第二种是情绪分析，但是自然语言的处理，有一个很重要的问题，自然语言的处理，我始终是怀疑，我们从来不知道我们的情绪是怎么样的，恐惧怎么样，愤怒怎么样，高兴怎么样。我们不知道它的解释性有多大。所以我们也曾经这样做过一个测试，我们做自然语言处理以后，我们做人工编码进行人工的内容分析，我们发现其实有时候我们做结果比较接近，有时候差异是很大的，自然语言处理的时候我们面临一个很大的问题，这是摇号的情绪分析。
    网页内容的信息数据，新闻网站、垂直网站发布的内容，我们把内容进行分析。第一种也是我们采用内容分析传统的方法进行编码、处理、抽样，第二种也是自然语言的处理，我们做关键词情绪的分析等等。
    也就是说，到目前我们所说的互联网数据大概有五种数据的来源，这种来源里面，它各有各的缺陷，每种数据它的解释都是有边界的。网络数据的应用传播，这些都是常用的案例。我们要解释一些相关性，我们通过贴标签找到客户，我们的需求，做预测等等，通过相关性的检测进行分析，对时间纬度、空间纬度进行分析。
    比如说腾讯汽车频道，当时我们团队在2012年3月份，我们把腾讯所有的频道十多万条的信息，包括它的PV、UV、网址链接全部发给我们实验室，我们把它架构成一个模型，我们做一个腾讯汽车指数，我们每个月会发布，这个指数是总的指数。我们还做了具体的细分市场的分析。比如说我们的排名，每一个品牌，每一款车，每个月可能有几千张图表，它发布的时候只发布前十名的图表，这是简单的应用。
    我们面临这样的应用，我们说网络的大数据，我想跟大家分享的是，我们所说的目前所见到的网络数据，它存在哪些问题，我们在应用的时候要反思。这是我们做网络数据分析的时候面临的理论模型问题。我们提出网络数据的时候美国的连线杂志提出一个概念叫第四范式，我们以前远古的时候钻木取火，我们有神农尝百草，通过亲身的体验来感知这个世界，这是第一范式。
    第二范式是我们发现有规律性的东西，于是有理论范式，由已知推测未知。后来随着计算机科学的发展，我们到了第三范式，就是仿真科学的发展，我们通过仿真模拟和认识世界。在08年的时候，美国的连线杂志提出数据洪流成为第四范式，也就是说这个时候我们不需要模拟，也不需要去理论它，我们直接从数据里面探索世界的本身，这是第四范式的产生。所有的理论假设已经不需要了，我们直接从总体中得到一种结果。所以这里面提出这么一个问题，这个问题的提出对我们是极大的误导，为什么是误导呢？
    我们总体的问题，我们总是说抓数据是总体，这其实是误导，我前面讲了有五种来源，其实这些数据都是有缺陷的，网络上的数据，它不是真正的大数据，它是伪大数据的概念。即使在腾讯，它能够推总体吗？今天我们同样在犯当年的错误，我们拿到一个互联网数据，我们就说大数据，这是对我们极大的误差，因为我们实验室也经常做，我们在2014年连续做了三个月，我们把互联网的数据，我们做了数据分析，再做同样的抽样比较，我们发现差距有时候是很大的，所以总体性的问题我们要特别注意。
    因果关系的问题也是这样的，我们只需要相关，不需要因果，这是极大的偏差，效率性的问题，我们都知道做数据，数据清理是很大的问题，你清理到什么程度，怎么个清理水平，这里面又是一个问题，在大数据里面这些都没有交代清楚。以及线上线下的差异问题，我们任何的数据都是有边界的，包括大数据，数据背后解释也是需要分析的，我们需要有第二范式和第三范式结合的探讨才是有效的。
    这是腾讯指数，这是所谓的频道，每个频道下面有很多数据，当时我们怎么做，我们众多的数据来源，一大堆数据堆在实验室，我们怎么取舍这些数据，我们怎么做架构这些数据，我们用了TPB模型，一个人在互联网上要产生购物的行为，学术界就开始研究，为什么会产生购物，有哪些纬度、哪些指标，每一种指标的权重有多大。我们把这个模型再变形因为，我们再做出模型提取指数，这就是我们做的腾指指数。
    大数据与模型的关系，砖厂与建筑师的关系，我经常说互联网产生了很多数据，但是这个数据就像我们生产的砖厂一样，生产了很多的砖，但是这个砖不是房子，我们要用模型来架构，我们要用砖，我们需要建筑师，我们要把它建成一个教堂，还是建成体育馆，还是建成一座酒店，这就是同样需要模型的架构极其的重要。我们所有的数据分析，在一个很浅显的层面，我们对社会没有穿透力，而且数据的解释力也是极其有限的。肆意我们在网络快速发展的时候，其实现在更缺乏的是设计图纸的建筑师，我们更加缺乏这些，我就跟大家分享这些，谢谢大家。

• 一文详解定量用户研究体系及流程	• 调查方法创新和研究回归本原
• 快进中国：新冠疫情如何加快五大经济	• 中国人最在乎企业在新冠疫情中的表现
• 辰智：2018中国餐饮大数据白皮书	• 今夜，大数据带你了解当代青年加班狗
• 国家邮政局：2018年中国快递量达507亿	• 河南新增4个全国爱国主义教育示范基地
• 陈润儿在洛阳市调研并召开进出口企业	• 国家邮政局：2019年6月中国日均快件量

网络数据挖掘应用与限制北京师范大学张洪忠

联系电话：010-86399819

QQ群号：1718962

网络数据挖掘应用与限制 北京师范大学 张洪忠

联系电话：010-86399819

QQ群号：1718962

网络数据挖掘应用与限制北京师范大学张洪忠