这些先进模型的预训练往往依赖于高质量且多样化的语料库,而如何构建这样的语料库,已成为行业中的一大挑战。...并且同时包含「enable」,「disable」或者「browser」 的行,并且该行的字符数量小于 200 字符,便过滤掉该行;
过滤掉少于 10 个单词并且包含「Login」, 「sign-in」,...「read more...」, 或者 「items in cart」 的行;
过滤掉大写单词占比超过 40% 的文档;
过滤掉以省略号结尾的行占比整个文档超过 30% 的文档;
过滤掉非字母单词的比例超过...80% 的文档;
过滤掉文档平均英文单词字符长度介于(3,10)区间以外的文档;
过滤掉不包含至少两个停用词(比如 the, be, to, of, and, that, have 等)的文档;
过滤掉省略号与单词比例超过...50% 的文档;
过滤掉项目符号开始的行占比超过 90% 的文档;
过滤掉移除掉空格和标点符号后少于 200 个字符的文档;
...