在搭建博客中, 自动生成摘要是一个很普遍的需求, 今天讲的生成摘要方式均为抽取式, 并且实质仍是抽取文章前 N 个字, 真正的抽取式通常会使用 TextRank 算法计算文章中的句子权重高的再抽取句子,...方式一: 直接取 Markdown 文字的前100个字(不推荐)
这种简单粗暴的方式很不友好, 如果开头是一张图片或者是链接, 那么用户可能只看到链接, 体验感很差....整个表达式的意思就是匹配 Markdown 语法中的链接 []() 括号内的字符为任意长度, 零或一或无限多个非回车的字符均可....(article.body))
方式四: 使用 Xpath 的 String() 方法 (推荐)
Xpath 的 string()方法常可用于爬取网页时提取网页的纯文本, 依据这个思路也可以用来提取 Markdown...文字的纯文本.
from lxml import etreehtml = markdown.markdown(article.body)content = etree.HTML(html)article.body