今天在Lynda.com学习了如何使用Python在英语字典里anagrams。anagrams 指的是单词中的字母通过不同排序,组成不一样的单词。类似于上海自来水来自海上。以下一步一步记录过程。
载入英文字典
打开ANACONDA(这是除了Python以外的另外一种蟒蛇)程序,启动Jupyter notebook。
点击新建,选择python 3.
在输入任何命令前,需要将字典文件words保存在同一目录下。然后输入命令:
执行命令后,Jupyter 返回指令,没有问题。
整理列表
使用readlines命令创建新的列表wlist。并且显示前10项。如下图。 得到新的列表wlist后,我们可以获取列表长度,使用len()命令:
从前十项中可以观察到每个单词后面都有"\n"。这个符号一般用来另起一行。对于我们的数据分析并无大用。同时,我们已是到单词中既有大写,也有小写,而在我们找anagram的过程中也只会造成分歧。所以,我们先来处理这两个问题。这里使用了python 的comprehension (我的理解是表达式):
wclean =[w.strip().lower() for w in wlist], 包含了strip, lower这两个命令和for loop。 执行命令后,便有了一个干净的列表。
可以看到列表里还有许多重复的单词。我们可以使用set命令来删除所有重复要素,并使用sort命令将其重新排序。
如此,我们便获得一个干净的,可以进行下一步数据比较的列表。
下半部分将在下一篇文章记录。
PS:字典文件来自Lynda.com Python: Data Analysis.
领取专属 10元无门槛券
私享最新 技术干货