在搭建博客中, 自动生成摘要是一个很普遍的需求, 今天讲的生成摘要方式均为抽取式, 并且实质仍是抽取文章前 N 个字, 真正的抽取式通常会使用 TextRank 算法计算文章中的句子权重高的再抽取句子,...更非生成式,生成式摘要需要依靠神经网络的帮助....方式一: 直接取 Markdown 文字的前100个字(不推荐)
这种简单粗暴的方式很不友好, 如果开头是一张图片或者是链接, 那么用户可能只看到链接, 体验感很差....方式二: 使用正则去掉Markdown (有门槛)
通过研究 Markdown 语法, 然后用正则表达式去除即可....\)', '', article.body)pattern = r'[*#>`-]'article.body = re.sub(pattern, '', content)
方式三: 转换为 HTML,