首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习与话语分析——我们的社会是如何被“建构”起来的?

自然语言和机器语言之间是否存在着天然的鸿沟?

人工智能时代,自然语言处理(Natural Language Processing, NLP)

正搭建起自然语言和机器语言的沟通桥梁

这一技术的影响已经超出本身的学科范畴

正在重塑整个人类认识社会、反思自我的方法。

早在人工智能、机器学习出现前几十年

法国哲学家、社会理论家米歇尔·福柯(Michel Foucault)

通过具有颠覆性的“知识考古学”

反思“真理体制”得以建立的种种条件

从而重新理解我们的社会。

正如爱因斯坦关于黑洞“神预言”被技术证实

福柯对“话语权力”的关注如今也可用新技术进行探讨

互联网使我们可以轻易获得海量公开的文本资料

如新闻、法律文书和虚拟社区讨论等等

而机器学习方法论,就可以作为话语分析的新工具

让研究者抛开主观性

更好地探讨两个核心问题

话语生产者是谁?话语又是怎么演变的?

湾区博士邀请来自中山大学的李博士开设社会学课题《机器学习与话语分析:探索文本所建构的世界》,利用机器学习方法论作为话语分析的工具,考察作为人类行为的无差别反映的大量文本资料,深入研讨某种知识产生的过程,反思被社会建构蒙盖的真相。

本课题邀请对社会学、机器学习、新闻传播学、大众心理学等领域感兴趣的学生参与研究。与李博士一起深度交流,从乏味的日常学习中脱身而出,迈进真正的学术殿堂,驰骋在星辰大海的壮阔世界。

课题内容

第一阶段:话语分析与机器学习

在了解社会学方法论的基础上,阅读福柯的经典著作,建立以文本分析事物的大体认知。进而了解机器学习的相关算法和研究流程,建立起“文本->数学表达->建模/预测”的思路;学生可选择导师提供(移民社会学和医疗社会学)或自身感兴趣的议题,设立研究目的并撰写研究计划。

第二阶段:从数据获取到语料库的建立

学习Python爬虫相关知识及基础库,针对研究议题获得文本数据(新闻、论坛和社交文本),使用正则表达式对文本进行初步清理。用分词工具对中文文本进行分词,删除文本中的停用词,建立包含所有词汇的语料库。使用词频-逆文本频率算法(TF-IDF)对文本进行向量化,以便后期的分析工作。

第三阶段:机器学习的算法模式与词的几何学分析

探讨机器学习的两种算法模式:无监督(LDA主题模型等)和有监督(支持向量机、随机森林等)。学习如何使用Word2Vec将词向量化,计算词之间的相似度,并对比不同的语料库中词的位置,以及不同文本之间的差异度。

第四阶段:论文写作

掌握研究布局和写作技巧,在得到创新的、稳健的研究结论基础上,撰写出规范的研究论文。

课题导师

李博士

中山大学社会学与人类学学院博士研究生

研究方向:移民社会学、社会学方法

发表数篇CSSCI论文,曾被“人大复印资料”转载

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190520A0H2RY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券