THUCNews数据集,每个样本保存为一个txt。...parallel_apply(
func=_tokenize_and_count,
iterable=tqdm(_batch_texts(), desc=u'构建词汇表中'...checkpoint_path,
application='seq2seq',
model='albert',
keep_words=keep_words, # 只保留keep_words中的字...candidate_scores = [], []
for j, (ids, sco) in enumerate(zip(target_ids, target_scores)):
# 预测第一个字的时候...,输入的topk事实上都是同一个,
# 所以只需要看第一个,不需要遍历后面的。