Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >不幸的人各有不幸吗?文本分析流浪汉乞讨标语牌后发现的套路(附代码)

不幸的人各有不幸吗?文本分析流浪汉乞讨标语牌后发现的套路(附代码)

作者头像
大数据文摘
发布于 2018-05-25 08:45:10
发布于 2018-05-25 08:45:10
8770
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘作品,转载具体要求见文末

编译团队 | Aileen 李子楠 邱猛

Illustration | Jiin Choi 图 | Jiin Choi

流浪者惯用一张手写标语牌来表达自己,我们对数百名纽约街头流浪者手中的标语做了文本分析,想看看他们希望传达的声音。

纽约的无家可归者普遍使用两种乞讨方式:一种是在十字路口的角落或地铁站与站之间的车厢里反复唠叨他们的困境,这种方式在要到一点小钱的同时也会招致周围游客的厌恶。另一种方式是举一个纸质标语牌,在上面写上他们要说的话。

标语牌显然更具优势。因为相比于口头表述,文字扫一眼更快,增减更灵活,并允许他人自由选择看或不看。不幸的是,我们大多数人路过乞讨者时都会选择忽视那些标语牌。这种行为是最方便的,也是最现实的。毕竟在纽约有超过6万名乞讨者,关注他们每一个似乎不是很现实。

所以,假设你平时并没有注意这些标语牌,你觉得他们一般都写了些什么?

上图:在谷歌上输入词条“纽约无家可归者的标牌”后给出的搜索结果

弄明白纽约无家可归者标语牌上

文字内容的第1步

事实上,搜集和转录这些数据就够写一篇博客了,这里只做一些概括性的描述。首先在google、推特和Instagram (一個免费提供在线图片及影片分享的社交应用)上搜索“New York City homeless sign”或类似的词条,你会得到几百张来自新闻报道、社交媒体的贴文和个人摄影的可用照片。

但是这些标语牌往往难以转录。因为这些照片一般质量较差,没有聚焦,或是拍摄角度太偏。即使一个标语牌的文字完全清晰可见,也会存在一些其他问题。如乞讨者可能会使用一些特殊(经常是错误)的拼写、标点符号、换行符和手写字体。有时他们所表达的信息并非简单一句话,而是几乎没有任何线索连接成句的各种想法。

#nychomeless#homeless#heraldsquare

上图:例举纽约无家可归者写的一句有语病的句子

一些标语可能有凌乱、想法模糊的特点,这些会造成转录困难。

我们可以使用一些修正标准来规整文本内容,以方便进一步描述和分析,例如纠正一些简单的书写错误和使用完整拼写代替符号表述(“4” 换成 “for”, “+” 换成 “and”)。我们再使用R语言提供的文本挖掘包忽略掉大小写、换行符和其他标点符号之间的不一致,最终得到标准化的数据。

汇集了244条标语用于文本分析

流浪者们的声音

最后,我们汇集了244条标语用于文本分析(数据集链接:https://github.com/PerplexCity/Sign_From_Below/blob/master/transcribed_signs.csv)对于文本挖掘而言,244条文本的语料库相对来说较小。通常,《战争与和平》这样大块头的书或推特上百万条的文本才会以下面的方式进行分析。然而,我们还是找到了合理可信的规律。

幸福的人都是相似的,不幸的人则各有各的不幸。尽管如此,通过对这几百条标语进行筛选,我们还是可以发现,乞讨者想要通过标志牌说服他人所采用的几种固定套路:大部分情况下他们会把自己描述成更值得同情的对象,例如怀孕的母亲,退伍的军人,或抢劫受害者。有些人会尝试一些小聪明(我打赌你看了这句话会留下1美元),其他的则比较典型(我和老虎伍兹有一段绯闻,看看我现在的下场)。

通常他们会先一步回答你的疑惑。如:为什么他们没有家?(丈夫去世、没有保险、丢失一切、无家可归、你能帮帮我吗、上帝保佑你、感恩节快乐)。为什么他们不去其他地方?(需要一张车票、赚得35美元去新泽西州大西洋城、那里我有地方住并且有一个工作机会)。

虽然有很多奇闻轶事,但这是一个数据博客,所以我们需要数据来说明问题。

前25个出现频率最高的单词

上图:纽约无家可归者的标牌上使用频率最高的25个单词

如上述词频表所示,无家可归者的优先表述是寻求帮助(“help”)和表明自己无家可归(“homeless”),并始终保持礼貌(“please”)。

在文本挖掘中,像“and”或 “the”一类的常见词经常会被去掉,因为他们会稀释整个高频词汇表。有趣的是,在这个样本中这些词并没有被去掉,但竟也没有排到我们词频表的最前面。这说明两个问题:首先,无家可归者不太可能会去使用这些如此容易被预测到的词,可能是为了节省空间和提高浏览速度;其次,这也表明无家可归者使用“help” 和 “homeless”这些词的频率非常高,正如一般的文本使用“the”(4%)这类普遍的术语一样。

你可能会把上图的y轴看作是独立的一些单词,但是也可以把他们看作是一元语法(unigrams,比如大数据的unigram形式为:大/数/据),或者是N元语法(n-gram,语言学专业术语,表示n个单词组成的序列)的最简单形式。我们可以对二元词(bigram,两个单词组成的短语)的频率进行排序,如下:

【由于我们不能使用bigrams(双单词)的频率除以单词数量得到相对频率,所以x轴向左对齐表示绝对频率】

可以看到,第一个图表中一些单词的搭配在了上图中聚集到了一起。比如,“Please” 和“help”使用很频繁,它们联合在一起使用也很频繁,类似的还有“God” 和 “bless”。

需要注意到是,这种创建二元词(bigrams)、三元词(trigrams)和其他多元词的方式是根据原有文本来模拟产生新文本的基础。我们也可以尝试随机选择一些词来伪造一个自然的句子,通过这种方式得到的句子读起来跛脚可笑。但是如果你知道哪些序列是合理的,你就可以拼凑出短语和句子,就像拼火车一样。

一个简单的例子,假如你使用“please”作为开头,二元词(bigrams)频率表能预测下一个单词“help”,然后你可以连接到“thank,” “you,” “God,” 和 “bless”,即马尔可夫文本生成链,它是网络机器模仿人类写作的原理。

多元词(n-gram)的单词数越多,模拟的写作看起来就越接近于人类,因为你使用的基于真实文本的片段单元更长。下图是在无家可归者标语样本上使用trigrams生成短句的示例。其中一些结果看起来毫无意义,但其他的你能想象到或许是来自某个真实的标语:

上图:无家可归者标语模拟结果的截图

呃,这里我们使用这些标语生成假文本似乎玩笑开得有点过了,毕竟现在纽约及其他城市无家可归还是一个很严重的问题。我们的分析就到这里了。如果你对文本挖掘很感兴趣,并且想要进一步了解Andrey Kotov的这个项目或者其中使用的R语言知识,两者都提到了本文。你也可以查看博客使用的分析数据和程序,链接在文章的最后。

最后,如果你想要帮助这些无家可归的人,可以捐款给Bowery Mission,它为纽约的流浪者提供住所、食物和衣服。

所有的分析数据和程序详见:https://github.com/PerplexCity/Sign_From_Below

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-02-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据|附代码数据
一旦我们清理了我们的文本并进行了一些基本的词频分析,下一步就是了解文本中的观点或情感。这被认为是情感分析,本教程将引导你通过一个简单的方法来进行情感分析 ( 点击文末“阅读原文”获取完整代码数据******** ) 。
拓端
2022/10/27
5010
文本挖掘和情感分析的基础示例
经过研究表明,在旅行者的决策过程中,TripAdvisor(猫途鹰,全球旅游点评网)正变得越来越重要。然而,了解TripAdvisor评分与数千个评论文本中的每一个的细微差别是很有挑战性的。为了更彻底地了解酒店客人的评论是否会影响酒店的加班表现,我从TripAdvisor截取了一家酒店 – 希尔顿夏威夷度假村(Hilton Hawaiian Village)的所有英语评论 (Web抓取的细节和Python代码在文末)。
AiTechYun
2018/08/16
5.4K0
文本挖掘和情感分析的基础示例
教程 | 初学文本分析:用Python和scikit-learn实现垃圾邮件过滤器
选自kdnuggets 机器之心编译 参与:王宇欣、吴攀 本文介绍了如何通过 Python 和 scikit-learn 实现垃圾邮件过滤的。对比和分析了两个分类器的结果:多项式朴素贝叶斯和支持向量机。 文本挖掘(text mining,从文本中导出信息)是一个广泛的领域,因为不断产生的巨量文本数据而已经得到了普及。情绪分析、文档分类、主题分类、文本概括、机器翻译等许多任务的自动化都已经通过机器学习得到了实现。 垃圾邮件过滤(spam filtering)是文档分类任务的入门级示例,其涉及了将电子邮件分为垃
机器之心
2018/05/08
1.8K0
教程 | 初学文本分析:用Python和scikit-learn实现垃圾邮件过滤器
独家 | 手把手教你从有限的数据样本中发掘价值(附代码)
[ 导读 ]本文是系列文章中的一篇,作者对滑铁卢地区的Freedom of Information Requests数据集进行探索分析,展示了在实践中拿到一批数据时(尤其像本文中的情况,数据很稀缺时),该如何一步步进行分析从而得到一些见解。作者的同事也对该数据集使用其他方法进行了分析,建议对NLP感兴趣的读者也一并阅读,将大有裨益。
数据派THU
2019/05/17
6450
独家 | 手把手教你从有限的数据样本中发掘价值(附代码)
使Twitter数据对百事可乐和可口可乐进行客户情感分析
可口可乐(Coca-Cola)和百事可乐(PepsiCo)是软饮料行业的知名品牌,两家公司均跻身《财富》500强。在竞争激烈的市场中拥有广泛产品线的公司彼此之间存在着激烈的竞争,并在随后的几乎所有垂直产品市场中不断争夺市场份额。
abs_zero
2021/03/19
7220
使Twitter数据对百事可乐和可口可乐进行客户情感分析
强大的 Gensim 库用于 NLP 文本分析
NLP就是处理自然语言,可以是文本、音频和视频。本文将重点了解如何使用文本数据并讨论文本数据的构建块。
数据STUDIO
2022/05/24
3K0
强大的 Gensim 库用于 NLP 文本分析
【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据|附代码数据
在文本挖掘中,我们经常有文档集合,例如博客文章或新闻文章,我们希望将它们分成自然组,以便我们理解它们
拓端
2023/01/30
6180
从整体视角了解情感分析、文本分类!
文本分类是自然语言处理(NLP)最基础核心的任务,或者换句话说,几乎所有NLP任务都是「分类」任务,或者涉及到「分类」概念。比如分词、词性标注、命名实体识别等序列标注任务其实就是Token粒度的分类;再比如文本生成其实也可以理解为Token粒度在整个词表上的分类任务。
Datawhale
2021/11/16
1.1K0
从整体视角了解情感分析、文本分类!
R语言618电商大数据文本分析LDA主题模型可视化报告|附代码数据
最近我们被客户要求撰写关于文本分析LDA主题模型的研究报告,包括一些图形和统计输出。
拓端
2023/06/25
2840
文本分析能够完善企业知识管理模式
知识经济的来临,知识管理在社会经济中的重要性也随之增加。文本分析的知识管理应用不仅包括企业单位,还包括一些科研管理部门,教育机构。企业在进行知识管理方面时,侧重面可能是企业客户,企业产品优化和市场方向优化方向。科研管理部门和教育机构的侧重点是科研相关结果的整理。文本分析平台的应用能够帮助企业和教育机构完善现有知识管理模式。
用户6287968
2019/09/29
6140
文本分析能够完善企业知识管理模式
从零开始学机器学习——入门NLP
文章链接:https://cloud.tencent.com/developer/article/2467242
努力的小雨
2024/11/20
1730
科技爱好者周刊:第 90 期
本杂志开源(GitHub: ruanyf/weekly),欢迎提交 issue,投稿或推荐你的项目。
ruanyf
2020/01/15
9340
[Python从零到壹] 十五.文本挖掘之数据预处理、Jieba工具和文本聚类万字详解
欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解,真心想把自己近十年的编程经验分享给大家,希望对您有所帮助,文章中不足之处也请海涵。
Eastmount
2022/03/30
2.4K0
[Python从零到壹] 十五.文本挖掘之数据预处理、Jieba工具和文本聚类万字详解
手把手教你用 R 语言分析歌词
翻译 | 刘朋 Noddleslee 程思婕 余杭 整理 | 凡江
AI研习社
2018/07/26
1.9K0
手把手教你用 R 语言分析歌词
R语言之文本分析:主题建模LDA|附代码数据
另一种方法是通过主题搜索和探索文档。广泛的主题可能与文章中的各个部分(国家事务,体育)有关,但这些部分内或之间可能存在特定主题。
拓端
2023/06/30
8010
NLP中的文本分析和特征工程
在本文中,我将使用NLP和Python解释如何分析文本数据并为机器学习模型提取特征。
deephub
2020/06/24
4.1K0
NLP中的文本分析和特征工程
独家 | 文本数据探索性数据分析结合可视化和NLP产生见解(附代码)
作为数据科学家或NLP专家,可视化地表示文本文档的内容是文本挖掘领域中最重要的任务之一。然而,在可视化非结构化 (文本)数据和结构化数据之间存在一些差距。
数据派THU
2019/07/15
1.7K0
独家 | 文本数据探索性数据分析结合可视化和NLP产生见解(附代码)
使用 NLP 和文本分析进行情感分类
我们今天生活在一个数字世界中。从一天的开始到我们对所爱的人说“晚安”,我们以视觉、音乐/音频、网络、文本和更多来源的形式消耗大量数据。
磐创AI
2021/11/10
1.8K0
【陆勤学习】文本特征提取方法研究
一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含
陆勤_数据人网
2018/02/26
1.2K0
触类旁通Elasticsearch:分析
分析(analysis)是在文档被发送并加入倒排索引之前,ES在其主体上进行的操作。在文档被加入索引之前,ES让每个被分析字段经过一系列的处理步骤。
用户1148526
2019/05/25
1.5K0
推荐阅读
相关推荐
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据|附代码数据
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档