推广 热搜: 湖北  加油站  山东  满意度  汽车  就业质量  大数据  移动  重庆  房地产 

大数据与小数据: 民族志学者和数据科学家如何合作?

日期:2016-02-04     浏览:556    下载:0     体积:1M     评论:0    

Notice: Undefined variable: description in D:\websoft\www\diaoyan\wwwroot\file\cache\tpl\default\chip\content.php on line 161












 2001年,维基百科刚刚创立的时候,提出了令人颇为激动的目标口号:维基百科要为地球上的每一个人提供自由的百科全书——它是人们用自己选择的语言书写的、全世界知识的总和。那个时候,Web2.0的概念还没出现,从来没有人这么隆重地提出要集结面目模糊的普通人的智慧去解决普通人的问题,而且方法如此巧妙。于是,这个公开、免费、纯粹依靠自发群体协作,同时也有严谨的学术要求的庞大知识系统,也被人誉为“自由人的自由联合”。

但是,正因为维基百科是开放、自由的,就意味着谁都可以编辑。那么既然有贡献者,也就会有破坏者——万一许多人的智慧结晶在一夕尽毁怎么办?2004年,IBM的一项研究却发现了一些“神奇”的现象:维基百科遭遇的破坏,频繁得令人吃惊,但多数破坏活动5分钟内就能被修复。2005年,麻省理工大学另一项研究又发现,对于维基百科内容的大规模删除,平均可以在2.8分钟内被修正。而如果破坏分子在完全删除后再加上淫秽内容,那么网页被修复得更快——平均只要1.7分钟。



我们并不知道是谁修复了网页——正如我们不知道是谁破坏的、而当初又是谁贡献的。以此类推,在维基百科这个庞大的群体协作系统里面,还有很多运作机制是我们不清楚的,比如都是些什么人热衷于编辑词条?他们的动机是什么?人们编辑词条的时候引证的信源从哪里来?出处是真实的吗?符合维基百科对于学术的要求吗?——这些问题,也正是今天我们推送的文章作者——一位民族志(定性研究)专家和她的合作伙伴——一群数据科学家们所感兴趣的。他们觉得,这些问题的答案可能就隐藏在维基百科浩瀚的数据背后、最后能够还原为一个个散落在世界各处的人的具体行为。然而,这些研究者各自的研究方法都无法完整地透视这些现象,于是他们打破方法上的“定性”和“定量”区隔,选择并肩合作——并不是那种各自做各自的、最后把结果综合起来的合作,而是——互相学习对方的方法,使用对方的方法,把对数据的分析和对人的理解真正结合起来,以期获得更广阔的视域和更深刻的洞察。

听起来好像挺容易——但这意味着一个专家要去别人的领域里从小学生做起——这是需要勇气的。不过他们觉得,为了兴趣、为了对人类现象更深刻的探寻,一切都是值得的。


这就是我们推荐这篇文章的原因。



民族志学者和数据科学家如何合作?
大数据与小数据

Heather Ford, University of Oxford, 1 St Giles, Oxford OX1 3JS, UK.
邮箱:heather.ford@oii.ox.ac.uk


摘要

近三年来,民族志学家,同时也是在读博士的希瑟•福特(Heather Ford)一直致力于一项特殊的合作项目。她与来自明尼苏达州的两位数据科学家戴夫•莫斯坎特(Dave Musicant )和佘兰德•沈(Shilad Sen)合作,旨在对维基百科的来源进行探究。在本文中,她提到他们三位是如何从相识到一起工作,以及在这段经历中的宝贵收获。通过此项合作,有三个主题变得显而易见,而这也是他们合作成功的关键:数据科学家和民族志学家有很多共同之处;他们的研究方法是互补的;他们共同发掘数据而不是刻意区分研究任务。

关键词

合作;跨学科;民族志学家;数据科学;大数据;研究方法


2011年7月,在加州山景城(Mountain View)召开的开放式协作联合国际研讨会(WikiSym)上,我认识了来自明尼苏达州的两位计算机科学家。那时我以民族志学家的身份在非营利性科技公司Ushahidi(一个免费开放资源的平台,是为了报道 2007 年肯尼亚一次有争议选举而创建的,允许用户报道他们见证的新闻,然后把这些报道加载到一张在线地图上,让这些信息集中起来)工作,也曾经与计算机科学家在工具的构建和设计方面有所合作,但从没有参与过专门针对于研究本身的项目。之所以被邀请来到研讨会,是因为我们三个都对维基百科的来源和引用有所研究。

最近我们正在争论到底是谁开启了这个话题。作为卡尔特大学(Carleton College)的计算机科学家,戴夫•莫斯坎特(Dave Musicant)说,他喜欢做跨学科研究,但总是羞于做自我介绍。佘兰德•沈(Shilad Sen)是麦卡利斯特学院(Macalester College)计算机科学方向的助理教授,与戴夫共同致力于数据集的研究工作,此数据集包含大约350万维基百科中的6700万源发布。佘兰德随后大方写到:“当你来找我们讨论时,我们的研究其实已经陷入了停滞状态。我们一直在做大数据分析,但却不知道应该如何处理这些数据。你救了我们!”

现在回想起来,我们后来的合作在很大程度上可以说是互相“拯救”。在研究过程中,我试图描述维基人处理突发事件来源的方式,这有助于Ushahidi的软件开发工程,但对于指引新方向的维基百科源,我一直没能找到一个更广阔的视角来透视维基百科的信息来源。同时对于戴夫和佘兰德来说,他们想搞清楚是否可以推测维基百科上持久性信源的特性,以此来开发软件工具,为维基人提供引文,但是关于信源应用或删除的依据,他们并没有一个详细的方案。



接下来的两年,我们三个每几个月就在Skype上碰头,分享各自的发现,然后提出新的分析观点。我们还彻底检验了新的数据理论,最终在2013年为开放式协作联合国际研讨会撰写出题为“到达信源(Getting to the source)”(福特等,2013)的论文。最近我去明尼苏达州拜访了他们二位,讨论研究的未来发展方向,但合作形式将继续保持非正式性和独特性。尽管如此(或者说正因为如此),和他们二位的合作成为我早期研究生涯中一段非常愉快和有教育意义的经历。在我看来,原因在于一方面我们在合作中性格相投,相处融洽,另一方面,拥有不同认知论和方法论的研究者在这种跨学科合作中,如果一直保持开放和创造性的思维方式,总会碰撞出不一样的火花,得到令人兴奋的研究成果。这里有三个特别值得注意的观察结果:数据科学家和民族志学者有很多共同之处;他们的研究方法是互补的;他们共同发掘数据而不是刻意划分研究任务。


民族志学家和数据科学家有很多共同之处

虽然乍看之下,大数据研究和人种学南辕北辙(毕竟,民族志学家拥有的研究基础,是建立在与当代媒介化社会截然不同的社会中的)。但是,它们之间确实具有显著的共性。两门学科都承认,人类的行为(比起言语)是非常重要的研究对象,并且如果想深入理解研究课题,对数据的探索是必不可少的。正如珍娜•伯勒尔(Jenna Burrell)(2012)在《民族志概况 》(Ethnography Matters)中所写:民族志学家采用劳动密集型的方式,通过出门采集,接触第一手的资料来获取信息。而研究大数据的专家却不同,他们研究出捕获短暂行为的方法。指的就是,某人点击链接,设置个人偏好,在特定时间内从一个无线接入点转到另一个等相关行为。伯勒尔认为,民族志学家和数据科学家只是在研究人类行为上的侧重不同。例如,从现场对话和正式访谈中,民族志学家做了许多辅助性工作,将显性行为和隐性含义联系起来,而另一方面,数据科学家更倾向于进行行为数据的跟踪。



然而,如果配合默契,民族志学家和数据科学家将携手共进,共同找寻出普通问题的解决方案,进而展开更广泛(在数据科学领域)和更深入(在人种学领域)的研究。在“到达信源”的合作中,我们三个人都怀有对维基百科信源的好奇,以及——在更广泛的层面上——对维基百科运作模式的好奇,而正是这份共同的好奇心推动了研究的进展。我对维基百科“批量处理信源的方式很感兴趣,我也曾经查阅过维基百科的相关政策,发现实际采用信源的方式和政策上所建议的非常不同。我好奇的是,信源选择的状况是否与政策上“学术源居多”的描述相矛盾。为了看看我的发现是否体现了更明显的趋势,我需要着手研究关于数据跟踪的整个语料库。佘兰德和戴夫对信源的粘滞性感兴趣,他们致力于探索某些信源在维基百科上长盛不衰的原因。因此,对他们来说,信源采集的过程,对于理解和评估数据库中数据的流动路径至关重要。我们认识到,相互分享各自不同领域的研究方法和知识,大家都将会受益匪浅。我需要学习分析整个语料库的方法,而他们需要了解维基百科的日常实践操作。

结果表明,除了一些常见问题和需要共享的专业知识,我们还拥有了研究方法上的共性。刚开始和佘兰德、戴夫一起工作时,我便惊喜地发现我们都倾向于运用归纳性(对我们研究中数据的理论进行检测),系统性(就所提供线索继续追查,质疑之前的假设),以及合作性(平等地担负责任,共同做决定,明确这些决策对整个项目产生的影响)强的研究方法。在开展此项合作之前,我认为,定量研究已经被广泛运用 ,而定量研究人员如果再与定性研究人员合作,将收效甚微。但是,和戴夫、佘兰德一起工作时,我发现我们有很多共同之处,这种合作会给数据科学家和民族志学家两方都带来有价值的成果。


我们的技能和经验具有互补性



在维基百科研究的舞台之上,一些大数据研究者采用访谈、参与观察、编码等方法,通过大规模分析来探索研究问题。例如,布莱恩•基根(Brian Keegan)的体系内大规模网络路径分析(large-scale network analyses of traces through a system)(基根等,2012)便是大数据研究的典范,然而他依然花费大量的时间参与维基百科内容的分类生产之中,通过在这个领域的学习,他更加了解到所收集的数据路径的含义。然而,很少有像基根这样的研究者,运用所掌握的多种必要的研究方法,试图解答我们这个时代的重要问题。现实中更常见的则是各种类型的合作,研究者们拥有多种专业研究技能和认知论,一起工作,为研究提供更广泛的视角。研究者们相互学习,通过掌握自身并不熟悉的研究方法,不断提升技能,积累经验。

在此项关于维基百科来源研究的合作之中,戴夫和佘兰德有足够的能力和资源来提取350万维基百科中的6700万源发布。我在进行访谈后发现,维基人从百科全书中选取、记录信息源,因此,我提出分割数据的不同方法,以助于构建起一个崭新的视野。戴夫和佘兰德使用复杂软件和数据加工软件来处理庞大的数据,而我更了解维基百科的实际操作,提供一些进行数据选择的分析方式。例如,一个被访的专家曾说,维基人经常通过本地来源获取信息,但却标注上西方来源,因此我们可以同地理相出处相联系,来探究信源的多样性。通过理解这种做法,我们可以发现在利用数据的过程中丢失了什么,也就是说,编辑们在输入维基百科的引用时,并没有标注出自己获取信息的实际位置,而是展现了他们自以为读者认可的出处。这个小细节对于我们总结来源和引用所展现的内容,以及在类似于维基百科的大众群体信息生产社区开展合作的需求,具有重要的含义。经过反复讨论,我与戴夫、佘兰德最终找到一些验证假设的方法,发展出了分析数据的不同视角 。我们都承认,在整个过程中,我们之间的能力和经验具有很强的互补性。


共同发掘数据比区分任务效果更好



许多合作研究失败的原因在于,按照不同类型、研究所认可的技能和专业知识来分配任务,而不是为研究设计一个更具创造性的方法。在这种传统观念影响下,民族志学家可能被要求去做访谈和人工编码,而大数据分析师只能在没有合作和研究经验分享的前提下,进行数据的大规模分析。结果就是,他们彼此之间并没有共享技能:数据科学家仅仅被当作操控数据的技术人员,而民族志学家扮演了用所写东西进行填充内容的角色。如果两类研究者希望不断积累经验,相互借力获得高质量的研究成果,那么双方就都需要承担非熟悉领域的相关任务,或者至少全程参与某个特定数据的发掘过程。

尽管我自己就可以对项目的信息来源进行人工编码,但戴夫和佘兰德还是承担了一部分任务,最终我们每个人都对编码计划的发展有所贡献。在完成了自己的任务后,我们还相互检查彼此的编码,以确保其精确性。我是编码计划的主管,但戴夫和佘兰德也会对我在项目的定义方面提出质疑,帮助我手工编码随机样本,以及检查我的编码结果。通过这种方式,我们每个人都对项目本身和研究方法有了更深刻的理解——众所周知,在研究方法的实践过程中,我们所选择的特定的视角,会显著影响研究结果的产出形态。 我学会了大规模数据分析的操作方法,以及在获得特定结果过程中进行选择的方式。另一方面,佘兰德已经开始把我们共同开发出的编码方案,作为在麦卡利斯特学院方法课上的案例给学生讲解。在整个项目的开展过程中,我们都竭尽全力,分担非熟悉领域的任务,当然,和只完成自己所擅长领域的工作相比,收获也更多。

总之,民族志学家从大数据来源的分析中收获颇多,他们拥有独特的视角,通过补充性的观察,可以发现参与者在媒体平台上互动的方式。相反,数据科学家从定性研究的角度,获取缺失数据、不完整数据的含义,探索数据追踪产生的社会意义。在合作中,民族志学家和数据科学家不仅得到了更加严谨的研究成果,而且发掘出了更多的研究技能。通过此次合作,我对定量研究的良好效果赞叹不已。这段经历再次印证了那句话:无论我们管自己叫“定性研究者”还是“定量研究者”,一项好的研究都不会因此而受到影响。


参考文献

1.Burrell J (2012) The ethnographer’s complete guide to big data: Answers.Ethnography Matters. Available at:www.ethnographymatters.net/blog/2012/06/11/the-ethnographers-complete-guide-to-big-data-part-ii-answers/ (accessed 9 July 2014).

2.Ford H, Sen S, Musicant DR, et al. (2013) Getting to the source: wher does Wikipedia get its information from? In: Proceedings of the 9th international symposium on open collaboration. New York, NY: ACM, pp. 9:1–9:10. doi:10.1145/2491055.2491064.

3.Keegan B, Gergle D and Contractor N (2012) Do editors or articles drive collaboration? Multilevel statistical network analysis of Wikipedia coauthorship. In:Proceedings of the ACM 2012 conference on computer supported cooperative work. New York, NY: ACM, pp. 427–436. doi:10.1145/2145204.2145271



原文链接:http://bds.sagepub.com/content/1/2/2053951714544337.full.pdf+html

本文由北京大学社会化媒体研究中心官方微信平台“数洞社媒”独家编译,转载请注明出处。
打赏
0相关评论
本类推荐
下载排行
网站首页  |  关于我们  |  联系我们  |  加入我们  |  认证企业  |  付款方式  |  友情链接  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  京ICP备15049263号
Processed in 1.659 second(s), 544 queries, Memory 6.59 M