LDA(Latent Dirichlet Allocation)是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。把基于LDA的文本挖掘方法应用到公共管学科研究中,跨学科的思维碰撞将产生哪些可能,又存在哪些困难?3月23日中午,清华大学国情研究院特邀清华大学公共管理学院副教授张楠就此问题进行探讨。在当天的学术沙龙活动中,张楠副教授作了题为「从文本挖掘到公共管理知识发现:方法论思考与案例分析」的发言。清华大学国情研究院王亚华教授、周绍杰副教授、鄢一龙副教授、刘生龙副教授、唐啸助理教授等出席活动并就主题展开交流。
清华大学公共管理学院副教授张楠作主题发言
「大数据的多样性特征」
大数据除了具有超规模、大容量的特征外,还有多样性特征。张楠认为,在管理学科领域,恰恰最难处理的就是体量大的问题。比如存储对我们来说都有可能成为一个问题,还有运算能力的限制。因而,在管理学领域,包括公共管理,研究者在做大数据研究时,着眼点或突破性更多地在于处理这种数据“多样性”。即把一些我们原来不当数据或者说结构化数据以外的数据进行处理,涉及到文本、图像、视频等数据,特别是文本的处理。
「算法与知识的中间层」
从数据挖掘的视角,或者说数据驱动研究的视角来看,主要展现某种方法可以带给我们什么,是方法可用性的展现。而从管理和决策的视角来看,光有可能性是不够的,还在于是否能切中管理者的关注。张楠指出,这两者之间是有差异的,其间存有一个庞大的真空地带。基于文本挖掘算法的结果与有价值的管理知识之间存在着“中间层”。
张楠进一步分析指出,我们用统计数据做回归方法论文的时候已经有相应的套路,我们并不会去介绍回归的原理。实际上,基于管理学的应用应该有一套比较完善的方法论,比如说是不是所有的文本集都适合用这样的方法去分析?到底有没有边界?我们在做回归时是有标准的,什么样的数据可以做的,什么样的数据不可以做,什么样数据用二项回归,什么样的数据用对数回归,有很多判别的标准,这是未来需要发展的所谓方法论的"中间层"。
「LDA文本挖掘的方法」
LDA文本挖掘从分类上来说是一种主题建模的方法,本质上是把一个看上去不可描述的,可能承载了很多情感和个人特征的文本数学化。这个数字化过程可以理解为首先建立多个纬度的向量,再把它合理的范围进行降维,变成一个相对来说可以理解的数学模型,再在丰富度和可理解性、可表示性中求得一个平衡。LDA文本挖掘是一种公认的比较好用的方法。
「文本挖掘能做什么」
张楠指出,文本挖掘能做两方面的事情,第一是描述现象,第二是刻画规律。
第一,描述现象。通过语义判断能够看到一些主题相应的变化,而这个主题到底跟我们从公共管理定义的主题是否具有相关性,实际上大部分用LDA方法的人在这一点上比较依靠人为判断。看似客观数据分析的过程也存在主观臆断部分,这里面有很多值得探索的地方。目前的解决办法有:一种是基于Ontology的通用关系词表——构建语义关系的通用性规则,可以理解为把所有的语义关系进行字典化的过程,建在相对复杂的整体关系的基础上,类似于图书馆书目分类的标准;另外一种方法是把人为干涉的判断机制加进来,将代表性的文章或话题进行标签筛选。人工辅助机器学习帮其确定主题的机制,比靠研究者单独判断要准确。
第二,刻画行为、寻找规律。以网络行为为例,一个人发表文章的频率或内容实际上就是他的行为,通过种行为刻画可以知道什么样的因素可能会影响他。比如,我们想知道一个人参与一个话题的广泛程度,结合概率矩阵做一个相应的函数,在不同的概率里看他的标准差,标准差越小说明分布的越均匀,说明他是一个涉猎很广泛的人,反之则说明他有一个相应突出的关注的领域。这种应用也面临着挑战,比如能否提炼行为建模的通识知识,以辅助建模过程。
「一个案例:政府网站大数据研究」
张楠随后分享了一个基于LDA文本挖掘的应用案例。在全国几十个节点部署近百台服务器,每日监测采集分析3.5万家政府网站,对数据做集约化的处理,这是相当大的数据库,基于这个数据库做一些相应的研究。比如,各地政府网站是不是只是简单的转载,会不会与地方特色的东西相融合?各地每周微信微博讨论热点和政府网站话题有什么相关性?政府网站是否滞后,滞后到什么样的一个量级?到底政府网站是自说自话,还是跟公众关切有回应关系的?我们根据之前一年的数据绘制了一个网站某一主题的“均值线”,以超越正常范围波动的时间点计算扩散速度,从面积和密度的角度来观察扩散的质量。以“精准扶贫”这一主题为例,我们发现,在国务院出台一个相应政策以后,地方相应的政府网站呈现不同的波动情况,有的有一次波峰,有的有两次波峰。如果说这个主题分散在很多的点上我们认为其与地方政策融合得更好。
「对数据处理方法的探索」
LDA数据挖掘方法是无监督的,这里面可能存在一些问题。张楠的处理思路是“半监督学习”。比如,考虑网站不同页面之间的差异性问题,网站首页的内容与第三级第四级页面,公众获得的可能性是不同的,因而应当考虑不同页面的权重问题,这有利于更准确的把握。还有所谓的有效扩散测量,如果我们认为简单转载是无效扩散的话,可能需要剔除这种高相似度文本的计算量问题。
张楠指出,在“中间层”做一些方法论的探索是很重要的。虽然说分析方法突破了原来的数据界限,但真正将其应用于管理科学还有很长的路要走。从事公共管理研究的同仁们其实可以发挥多种多样的作用,也是值得我们去探索和实践的。
现场讨论
清华大学国情研究院部分师生参加了当天沙龙活动,并结合自身的研究实践对主题进行深入探讨。
周绍杰副教授从公共管理研究角度发表了一些看法。传统以来,我们在做定量研究时,用经济学的方法比较多,做公共分析时也更多的是以问题为导向,我们应该勇敢尝试新的方法。文本挖掘方法一方面可以印证我们的一些判断,另一方面可能挖掘展示出我们尚未注意到的深层次的逻辑,这个价值更大。此外,大数据应用应当与既有理论相结合,需要某一领域的专业知识做支撑,二者相结合才可能发挥更大的作用。
鄢一龙副教授主持沙龙活动指出,张楠老师在学术最新的前沿探索和实践着,国情研究院一直以「用数据说话」为荣。在信息时代,把工具方法论与管理、思想方法论结合起来,是个很有意义的探索,这种跨界可以说拯救了我们的“双重贫困”。
刘生龙副教授从文本挖掘的实际应用上提出了一些观点。数据已经量化了,下一步怎么办?在数据的基础上是否可以做一些经济学方面的因果识别,或者政治上的因果识别?比如将个体的思维行为和劳动力表现与一些普查数据再结合,与公共政策再结合进行更深入的分析。
学术沙龙现场
文字|国情研究院 阮萍晶
领取专属 10元无门槛券
私享最新 技术干货