自然语言和机器语言之间是否存在着天然的鸿沟?
人工智能时代,自然语言处理(Natural Language Processing, NLP)
正搭建起自然语言和机器语言的沟通桥梁
这一技术的影响已经超出本身的学科范畴
正在重塑整个人类认识社会、反思自我的方法。
早在人工智能、机器学习出现前几十年
法国哲学家、社会理论家米歇尔·福柯(Michel Foucault)
通过具有颠覆性的“知识考古学”
反思“真理体制”得以建立的种种条件
从而重新理解我们的社会。
正如爱因斯坦关于黑洞“神预言”被技术证实
福柯对“话语权力”的关注如今也可用新技术进行探讨
互联网使我们可以轻易获得海量公开的文本资料
如新闻、法律文书和虚拟社区讨论等等
而机器学习方法论,就可以作为话语分析的新工具
让研究者抛开主观性
更好地探讨两个核心问题
话语生产者是谁?话语又是怎么演变的?
湾区博士邀请来自中山大学的李博士开设社会学课题《机器学习与话语分析:探索文本所建构的世界》,利用机器学习方法论作为话语分析的工具,考察作为人类行为的无差别反映的大量文本资料,深入研讨某种知识产生的过程,反思被社会建构蒙盖的真相。
本课题邀请对社会学、机器学习、新闻传播学、大众心理学等领域感兴趣的学生参与研究。与李博士一起深度交流,从乏味的日常学习中脱身而出,迈进真正的学术殿堂,驰骋在星辰大海的壮阔世界。
课题内容
第一阶段:话语分析与机器学习
在了解社会学方法论的基础上,阅读福柯的经典著作,建立以文本分析事物的大体认知。进而了解机器学习的相关算法和研究流程,建立起“文本->数学表达->建模/预测”的思路;学生可选择导师提供(移民社会学和医疗社会学)或自身感兴趣的议题,设立研究目的并撰写研究计划。
第二阶段:从数据获取到语料库的建立
学习Python爬虫相关知识及基础库,针对研究议题获得文本数据(新闻、论坛和社交文本),使用正则表达式对文本进行初步清理。用分词工具对中文文本进行分词,删除文本中的停用词,建立包含所有词汇的语料库。使用词频-逆文本频率算法(TF-IDF)对文本进行向量化,以便后期的分析工作。
第三阶段:机器学习的算法模式与词的几何学分析
探讨机器学习的两种算法模式:无监督(LDA主题模型等)和有监督(支持向量机、随机森林等)。学习如何使用Word2Vec将词向量化,计算词之间的相似度,并对比不同的语料库中词的位置,以及不同文本之间的差异度。
第四阶段:论文写作
掌握研究布局和写作技巧,在得到创新的、稳健的研究结论基础上,撰写出规范的研究论文。
课题导师
李博士
中山大学社会学与人类学学院博士研究生
研究方向:移民社会学、社会学方法
发表数篇CSSCI论文,曾被“人大复印资料”转载
领取专属 10元无门槛券
私享最新 技术干货