我有一些阿拉伯语文本,我想拆分成段落。我想拆分句点,后跟新行或问号,然后是新行,或者是感叹号,然后是新行。 这是我尝试过的 split("(\\.|؟|!)\\r\\n"); 以下是示例文本1 لفت نظري واستغرابي إعلانان كلاهما يتعلق بـ"طلب مرئيات العموم" من هيئة
الاتصالات وتقنية以下是示例文本2 لودفيج فان بيتهوفن مؤلف موسيقي ألماني ولد عام 1770 م
我想要提取文本的句子,但我需要结果的确切位置。目前NLTK中的tokenize.sent_tokenize实现不能返回所提取句子的位置,所以我尝试了如下所示:for sentence in tokenize.sent_tokenize我不想使用简单的正则表达式模式来拆分句子,我知道在这种情况下,这个问题是微不足道的。
谢谢。