我试图将给定文本中的表情符号与其他字符/单词/表情符号分开。我想稍后使用表情符号作为文本分类的特征。所以,重要的是,我把句子中的每一个表情符号分别作为一个单独的字符来处理。identify the emoji in new_textprint(new_text2) # line c
(我不得不粘贴屏幕截图,因为从终端粘贴输出的副本扭曲了b和c
我已经使用我自己的数据集训练了一个掩蔽语言模型,其中包含带有表情符号的句子(对20,000个条目进行了训练)。现在,当我做预测时,我希望表情符号出现在输出中,然而,大多数预测的符号都是单词,所以我认为表情符号就在列表的底部的某个地方,因为与单词相比,它们肯定是频率较低的符号。到目前为止,这是我的输出--你可以看到一个表情已经被预测了,但其余的预测都是单词: mask_filler("I am so good today, <mask>", top_k=5)
我写了一个脚本,从给定的数据集中提取所有表情符号: for message in df['Message']: if char inemoji.UNICODE_EMOJI:
print(char) 它在某种程度上是有效的,并正确地识别哪些字符是表情符号。然而,输出不能正确解析一些表情符号,它们只是显示为棕色正方形: ? 为什么会发生这种情况?有什么办法可以解决这个问题吗?大多数表情符号都能