机器学习与话语分析——我们的社会是如何被“建构”起来的？

文章来源：企鹅号 - 湾区博士

‍

自然语言和机器语言之间是否存在着天然的鸿沟？

人工智能时代，自然语言处理（Natural Language Processing, NLP）

正搭建起自然语言和机器语言的沟通桥梁

这一技术的影响已经超出本身的学科范畴

正在重塑整个人类认识社会、反思自我的方法。

早在人工智能、机器学习出现前几十年

法国哲学家、社会理论家米歇尔·福柯（Michel Foucault）

通过具有颠覆性的“知识考古学”

反思“真理体制”得以建立的种种条件

从而重新理解我们的社会。

正如爱因斯坦关于黑洞“神预言”被技术证实

福柯对“话语权力”的关注如今也可用新技术进行探讨

互联网使我们可以轻易获得海量公开的文本资料

如新闻、法律文书和虚拟社区讨论等等

而机器学习方法论，就可以作为话语分析的新工具

让研究者抛开主观性

更好地探讨两个核心问题

话语生产者是谁？话语又是怎么演变的？

湾区博士邀请来自中山大学的李博士开设社会学课题《机器学习与话语分析：探索文本所建构的世界》，利用机器学习方法论作为话语分析的工具，考察作为人类行为的无差别反映的大量文本资料，深入研讨某种知识产生的过程，反思被社会建构蒙盖的真相。

本课题邀请对社会学、机器学习、新闻传播学、大众心理学等领域感兴趣的学生参与研究。与李博士一起深度交流，从乏味的日常学习中脱身而出，迈进真正的学术殿堂，驰骋在星辰大海的壮阔世界。

课题内容

第一阶段：话语分析与机器学习

在了解社会学方法论的基础上，阅读福柯的经典著作，建立以文本分析事物的大体认知。进而了解机器学习的相关算法和研究流程，建立起“文本->数学表达->建模/预测”的思路；学生可选择导师提供（移民社会学和医疗社会学）或自身感兴趣的议题，设立研究目的并撰写研究计划。

第二阶段：从数据获取到语料库的建立

学习Python爬虫相关知识及基础库，针对研究议题获得文本数据（新闻、论坛和社交文本），使用正则表达式对文本进行初步清理。用分词工具对中文文本进行分词，删除文本中的停用词，建立包含所有词汇的语料库。使用词频-逆文本频率算法(TF-IDF)对文本进行向量化，以便后期的分析工作。

第三阶段：机器学习的算法模式与词的几何学分析

探讨机器学习的两种算法模式：无监督（LDA主题模型等）和有监督（支持向量机、随机森林等）。学习如何使用Word2Vec将词向量化，计算词之间的相似度，并对比不同的语料库中词的位置，以及不同文本之间的差异度。

第四阶段：论文写作

掌握研究布局和写作技巧，在得到创新的、稳健的研究结论基础上，撰写出规范的研究论文。

课题导师

李博士

中山大学社会学与人类学学院博士研究生

研究方向：移民社会学、社会学方法

发表数篇CSSCI论文，曾被“人大复印资料”转载

相关快讯