作者:我爱小詹
这是第 3 篇读者投稿文章 ,欢迎亲爱的读者们踊跃投稿哦 。
不会英语的程序员不是好程序员 ?小詹不敢乱立 flag ,但是我知道的是程序员就喜欢自己动手干些实事 ,比如今天教大家自己动手做个有意思的项目——从历年四级英语真题中获取词频最高的 5000 个词汇 ,并进行翻译 !综合用到了爬虫 、数据分析等知识 ,亲爱的读者们不来试试吗 ?
程序介绍
这是一个单词频率统计程序 ,基于python3 ,我将往年真题按照词频排序得到了四级词库 :总结出了 5000 个出现频率极高的单词 。
自动批量收集文件中的英语单词 txt (utf-8)
统计排序保存到本地数据库 voca.db
翻译英文得到中文解释
数据库文件提取得到csv表格
在结合到大量的往年 cet-4 真题库的情况下
本软件成为了考试必备词库
希望大家都能轻松过四级
工作流程
settings.py 配置查询文档
work.py 自动分析数据保存至voca.db数据库文件
translate.py 自动打开数据库调用api翻译单词并保存到数据库里
db2csv.py 将数据库文件转换成csv表格文件
具体实现
数据 (docx 复杂的文档结构不好用,可以在word里面以txt方式保存)
读入文件拿到所有单词
剔除 常用单词(is am are do……)
计数
数据库初始化 peewee模块
加入单词到数据库
翻译
提取所有单词到csv
收获成果啦
翻译过程
出现次数最多的简单词
出现次数较少,值得一背的词
领取专属 10元无门槛券
私享最新 技术干货