大数据和机器学习在社会科学中的应用
一、文章来源
[1] King G, Pan J, Roberts M E. How Censorship in China Allows Government Criticism but Silences Collective Expression[J]. American Political Science Review, 2013, 107(02): 326-343.
[2] Jiang J, Meng T, Zhang Q. From Internet to social safety net: The policy consequences of online participation in China[J]. Governance, 2019: 1–16.
二、主要内容
King et al(2013)首次大规模、多源头分析了网络审查机制。在政府发现、评估和审查之前,研究人员从中国1400个不同的社交媒体网站自动定位、下载和分析上百万的社交媒体信息。通过计算机辅助的文本分析方法,King等对比了在85个不同话题领域中受审查和未受审查的信息。和以往研究不同的是,对国家、领导人和政策进行批评的信息并非最有可能受到官方审查和删除。作者发现审查机制的目的是删除描述、加强和激发群体性事件的信息。政府进行网络审查的目的是预见正在发生或者有可能在未来发生的群体性事件。
电子技术的进步推进了治理的现代化,在过去的20年间,世界范围内多个国家的中央和地方政府都建立起了以互联网为基础的平台来与民众保持沟通。在日本、美国、中国、哥伦比亚、乌克兰等国,网络参与(也作“电子参与”)已经成为公民联系政府并表达他们诉求与不满的最常见方式。由此,网络参与的兴起催生了许多围绕于此的学术探讨。尽管这些探讨对互联网扩大公民参与、提高政府回应性以及促进政府决策的透明化和平等化保持乐观态度,但是互联网是否真的能有效地推动政策变化仍然受到学者质疑。因此,在这篇文章中,三位作者通过对中国网民在地方领导留言板(Local Leader Message Board, LLMB)上的留言进行分析,为网络政治参与推动政治平等、削弱不同群体间政治影响力的差异,尤其是对弱势群体有补偿效应提供了新的证据。
这两篇文章是利用大数据和机器学习的经典之作,而随着大数据应用的日益广泛、深度学习技术的不断突破以及人工智能浪潮的快速兴起,这种基于海量数据的分析方法日益成为公共管理领域研究的重要手段。本期活动将与大家共同探讨网络爬虫的基本原理、如何使用Python抓取和存储网页信息、如何通过半监督学习对海量数据进行处理等,或许为大家的研究打开一扇新的大门。
Python下载地址:https://www.python.org/getit/
pycharm下载地址:http://www.jetbrains.com/pycharm/
三、导读人介绍
王友奎,清华大学公管学院博士生,研究方向为电子政务和大数据。
黄梅银,张楠老师研究助理,研究方向为电子政务。
黄昊,清华大学公管学院博士生,研究方向为大数据与社会风险治理。
四、导读人寄语
大数据在社会科学研究中的作用日益凸显,本次训练营通过对两篇经典的利用大数据的文章进行导读,让同学们了解互联网审查机制和互联网对政策变化的作用。通过对网络爬虫的基本原理的介绍,现场实操如何使用Python抓取和存储网页信息、如何通过半监督学习对海量数据进行处理,让同学们初步掌握网络数据获取的技术。本次的导读的三位也是大数据学习和使用的爱好者,欢迎大家一起学习、共同进步。
时间:5月17日(周五)18:00-20:00
地点:公管学院620
温馨提示:为了提高学习效果,建议讲座前提前阅读论文并下载有关程序。因为讲座期间要在较短的时间内吸收大量知识,要提前准备才能跟上节奏!欢迎清华各院系同学参加!