Python统计文章单词数量

2021-09-25 开发

最近收到软件工程课程老师的一个实验作业,其中涉及到了一部分NLP的内容,这里捡出来一些整理下来。 需求 输出单个文件中的前 N 个最常出现的英语单词。 作用:一个用于统计文本文件中的英语单词出现频率的控制台程序 单词:以英文字母开头,由英文字母和字母数字符号组成的字符串视为一个单词。单词 以分隔符分割且不区分大小写。在输出时,所有单词都用小写字符表示。 思路 统计个数优先考虑字典。先把文章里的标点和多余空格处理掉,然后把整篇文章处理成一个单词列表,再去count这个列表里的元素就可以了。最后做一下排序。 代码 #-*- coding: UTF-8 -*- # 需求:输出单个文件中的前 N 个最常出现的英语单词。 # 获取文本内容,分隔单词 def get_words(filename): with open(filename) as f: content = f.read() # 处理标点符号 content = content.replace(",", "") content = content.replace(".", "") content = content.replace("!", "") content = …

阅读全文 →