关注一起调研网微信
当前位置: 首页 » 资讯 » 行业资讯 » 正文

数据科学整合与细分 北京大学 刘德寰

放大字体  缩小字体 发布日期:2015-11-20  作者:17小编整理  浏览次数:941
核心提示:刘立丰:下面我们有请北京大学教授刘德寰先生做演讲,他演讲的题目是《数据科学整合与细分》。刘德寰:今天跟大家谈的题目是数据
 

    刘立丰:
    下面我们有请北京大学教授刘德寰先生做演讲,他演讲的题目是《数据科学整合与细分》。
    
    刘德寰:
    今天跟大家谈的题目是数据科学,原来一般来说我们谈的都是调研,但是自从大数据这个词出来以后,数据已经成为一个非常明确的科学领域。在这当中很少有人详细的探讨数据科学的结构和它面临的问题,包括我们行业面临的问题。
    实际上有三个非常重要的层次,一个是数据的获取,一个是数据的描述,一个是数据分析,这三件事是不同的,不要把它混淆了。在这个过程当中,你会发现这三个层次当中获取出现了非常重要的问题点。也就是说,原来数据是稀缺的,我们稀缺这个数据,在稀缺的过程当中,只要我拿到数,我就会有议价能力,而这个时候当时是调研业的天下。所以面对很多公司,尤其是研究公司,可以通过获取数据来获得高额利润。但是早期的质量出现问题之后,导致了积压,于是行业就出现了非常大的非良性循环,我没有叫恶性循环。非良性循环它有非常重要的产业链,一个是从设计开始利润率高,研究公司更多的通过获取数据来获得利润,而不是通过研究。然后咨询公司整体利润下降,接下来数据在获取各个当中的作弊就不是一个点发状态,而是面发的状态。
    接下来客户一定会对这种数据表示不满,但是由于数据稀缺,没有办法。这个过程再蔓延下来的时候,你会发现研究公司接下来,因为客户不满了,研究公司就开始利润摊薄。执行公司就会更加艰难,作弊必然会蔓延。而这个时候整体客户的满意度处于大幅度的下降。在这个过程当中,又正好赶上了一个新的时代,也就是说机器话数据横空出世,突然之间,甚至一夜之间数据不再稀缺了。单靠获得数据,你能拿到高额利润的可能性微乎其微,这样就必然导致执行公司如果要继续作弊必死无疑,未来五年内我们可以清楚的看到,研究公司不好好做研究,也照样是必死无疑,无论你是国际的,还是国内的,因为时代变了。所以获取这一块,要有非常清醒的认识。
    在这个过程当中,数据获取的生存环境,从机器化数据开始,它从开始的时候不结构,而且一直是孤岛化结构。我们是在金矿里面挖金子,还是在沙里面淘金,这是完全不同的意义。在这个时候大数据,正常的讲叫机器化数据已经被神话,而市场研究公司被积压在这里,市场研究的结构化可以有洞察力的数据,它必须满足两个条件,一是真的,二是价格是低的,这两件事造成的后果是什么,我相信业内的所有公司都会有体会。
    我们再看数据的描述,由于整个社会大环境巨大的变化,在描述环节上出现了非常大的问题,这个问题当中你会发现形成了新的不同的非良性的循环。为什么?数据不稀缺了,我们知道算点描述性统计,我们每个本科生都会。而在这个时候,机器化数据出来的东西做点频率表,做点交互表很简单。如果数据描述能够替代数据分析,这个世界一定会毁掉,因为数据想骗人太容易了。
    接下来的过程当中,机器化数据由于资料收集简单,整理数据的过程非常容易。所以直接面向销售,这个面向销售就出现了充满荆棘的历程,赚钱吗?赚钱,有真的吗?哪一个机器化的数据拿出来说可以代表市场,因为都是数据孤岛。
    接下来我们再看研究公司的结构化数据,大型公司由于没有应对,我在行业这么多年,一直在这些时期,有机会就在呼吁洞察这个词。实际上我们的研究员正在日益变成填数工具,而不是洞察。数据不再稀缺,你在机器化数据面前,你填数的过程当中,数据的真假还在存疑,这时候你不败谁败,必然败。而且别忘了机器化数据的成本趋近于零,所以大中型研究公司的解体、兼并、重组在不远的将来一定会重现,这是没有办法的趋势。
    我们看一看现在数据科学有七个非常大的危险趋势,这七个趋势是:
    一是重数据的抓取与拥有,直接把简单的结果拿出来混淆视听。所以现在你会发现,你打开互联网,每天有无数的数据扑面而来,你辨不清哪些是真的,哪些是假的。所以这个世界非常的危险,在这点上。
    二是极其重要的危险趋势,所谓的分析变成了资料整理,变成了数据可视化。大量的在传播没有真正研究价值的数据,但是它正在统领我们这个时代。
    三是很长时间一直说的一句话,就是数据的公关,从来不谈抽样和推断,也从来不谈适用范围,拿出来一个排名接一个排名,这些排名用于什么,用于融资,用于宣传,用于老板高兴。这个过程对整个社会,对整个数据科学,对研究的危害是致命的。
    四是很多公司现在已经不再关心真实,而且甚至不想要真实,因为真实的东西是你排名靠后,我干吗要真实。所以这时候谁还好好的做基础性研究,我们跟美国最大的差距就是我们的基础研究薄弱,我们的应用研究一点都差,但是基础研究呢?刚才孙老师说了,我们能造出苹果手机吗?我们能超越苹果手机这个产品吗?拿出来一个试试,基础研究严重不足,市场研究行业也是如此。
    五是以为分析就是算法,一个学计算机的人,就可以建一个黑箱,这不是笑话吗?天大的笑话,想问的问题很清楚,这个算法到底是适应人类行为的哪种规律了,你能验证吗?在这个时代,这是一个伪命题。
    六是研究者为了追求速度,严重牺牲了深度和质量,无论学界或者是商业界都是这样,很少有专家型的人才,而且大家不愿意去做。应该说这是整个数据分析和数据建模领域最大的痛,现在哪个公司能做。
    七是正在神化年轻人,以为年轻就有用,数据研究可不是这回事,没有三五年根本不行。所以这代年轻群体,他绝对不是压垮的,而是夸垮的。所以在这个领域当中,后面的风险就出来了,什么是分析,我先从最简单的,我课堂上一定要说的东西。
    简单的不能再简单,我想问一下这个数据的结果,由谁这么做过吗?在座的这么多家公司,我们可以看一下,这个位置意味着什么,老年人比年轻人更喜欢这个东西。实际的结果呢?老年人和年轻人没有任何差异。
    高中文化之间有差别吗?所有的结果都显示高文化程度的比低文化程度的人更喜欢,总体上它就是相同的,这是我在讲本科课程当中必讲的内容,我们的研究人员真的这么做了吗?我没有看到,也许我孤陋寡闻。
    大家看一下蓝领比白领的敏感意识更强,大家看一下我有任何措施吗?跟抽样无关,跟推断方式无关,数据本身的结构就是这样的。我给大家一个更加实际的案例,我们知道房价是怎么算的,房价是加权算术平均数。我们所有的算法无论国家,还是地方都是这么算的。
    大家看一下实际的案例,现在大家看一看房价,房子的均价跟房子的成交价格没有关系,跟什么有关系,跟销售结构优关系。所以在这个时候,房价的均价大约是这样的,我告诉大家房价在下一个解读全面上涨10%,但是销售结构略微有一点变化。房价下跌2.63%,大看清楚定价了吗?任何一个地方都上涨了10%,接下来销售结构一定会再变,房价又涨了10%,房价又下跌了,但是统计数字会告诉你下跌4%。大家知道数据要想骗人,玩死你。
    我1998年做过一个模型,让大家看一下我获宝洁论文奖的时候得到的模型。我现在还看不太多的人能做出来,现在我把一个系列跟大家拿出来。表面上一大堆无差别、无差异的情况,导致了什么情况呢?看起来没有差异,一个是男的比女的喜欢,一个是女的比男的喜欢,整体上没有差异这是我1998年获得宝洁论文奖里面那张图,表面上不同年龄的人没有差异,但是差别大吗?规律性强吗。
    我们随便看看现在的研究,这是赶集网的用户群,表面上看不同年龄的人没有差异,真的没有差异吗?这是同时用地图导航人的特点,有规律吗?这个规律非常清楚。我们再看,这是词典翻译类的APP用户的特点,规律很清楚,放到年龄段上没有差异。
    这是回应刚才孙老师说的中国的股市,那是什么市,你看一下用户群就知道了,用户群特点是反橄榄型,造成的后果大家可想而知是什么样的。我们再看一下在线教育的趋势,清楚吗?趋势特别明确吗?但是哪一个人分析的时候这么分析,都告诉你不同年龄之间的人没有差异。我们再看一个,表面上看还是没有差异。
    我跟大家接着来第三大类案例,我们在2011年用的词叫苹果熟透了,苹果在一个领域发展。2012年我在互联网大会上,在我们这个会场上我都说过华为将崛起。2013年我说过三星必然下滑,去年2014年也是一样的,这两个大会我都说过小米将面临问题,我不是神,但是模型能。2015年什么情况?我不想对任何一个品牌现在来说,大家关注我们要发布的手机人报告,那个时候我再开会,我详细的把这个结果告诉大家。
    但是我让大家看一个结果,模型的基点预测点是这张图,讲到这里,这不是万众创新,是万众期待,我本人真的绝对可以做到。你只要复制了我这个模型,我马上给你五千块钱,我个人给。我们看一下,但是限期一年,要求是研究公司的研究员,这张图我会放在微信公众号上,让大家做出来,谁能把这个模型复制出来。同时把图做出来,把分析做出来,我拉几个大佬我相信能奖给你十万块钱,但是你能不能做出来,这就是我为什么一直在说,中国调查业从来不缺数据,从来不缺所谓的描述,只缺分析。如果被这些互联网公司,被码农牵着走,那不是笑话吗?他们能代表中国的分析能力吗?中国的分析能力不是他们,而一定是我们。
    在这个时候我做一个小的总结,有六个不难,六个不易,抓数据从来不难,一分钟就抓到了。玩数据不容易,整理数据从来不是难事,如果找寻点相关难吗?不难,你找一个真正的因果容易吗?太难了,建立一个数学模型,分析一个结果,这事不容易。软件做一个模型来计算,将洞察融入软件,这件事难度可就大了。数据中看结果,这件事谁都会。在结果中想数据再分析出结果,这件事真的不容易。
    在这个时候,实际上我们不要再谈别的,你想一个人拥有了整个世界,如果失去了灵魂,对它有用吗?如果数据都失去了分析,于人于国于公司,于哪儿有用吗?都没有用。所以我们要情形的看到数据科学的基本细分,找规律这件事什么方法都对,用什么方法都行,抽样调查不可能被替代,它永远是这当中一个步骤,它也不是全部。
    在这个时候找到规律之后,如果能够把它形成程序化的东西可以进行验证证伪推断和提高,这是没有问题的。但是前提先把规律找到,没找到规律你就想做精准营销,那是天大的笑话。
    在大小数据概念上如果要进行整合的话,抽样调查、探索规律,现在的大数据将这种规律程序化。大数据发现了新的规律,然后它不断的调整适应的规则来确认规则,大数据可以程序化。但是这几条链条当中都有可能,第三条能成的可能性微乎其微,主要是第二条,我们可以随便看一下,无论是像乐购,包括很多公司,它们真正在做的思想智能推送的前提是什么,实验、抽样调查,哪一个是大数据,大数据真正要做起来,会编程的人和会分析、会思考的人结合在一起,这种人哪儿去找,找到一个基本上就是天才。我的演讲结束了,我也推广一下我的微信公众号,刘德寰三个字,谢谢大家。
    
    刘立丰:
    非常感谢刘德寰的精彩分析,里面谈到了很多陷井,谈到了他们非常杰出的分析。

 
 
[ 资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]

 
0条 [查看全部]  相关评论

 
推荐视频
推荐资讯
点击排行

 
分享按钮