python如何统计词频

要统计词频，可以使用Python中的字典（dictionary）数据结构，下面是一个简单的步骤：

python如何统计词频第1张

1、导入所需的库

import re
from collections import defaultdict

这里我们使用了re库来进行正则表达式操作，defaultdict是Python的内置字典类型，可以方便地处理不存在的键值。

2、定义文本和分词规则

text = "这是一段示例文本，这段文本将用于演示词频统计的方法。"
words = re.findall(r'w+', text)

我们定义了一个示例文本text，然后使用正则表达式re.findall来提取所有的单词，这里的正则表达式w+表示匹配一个或多个字母、数字或下划线。

3、创建默认字典并统计词频

word_count = defaultdict(int)
for word in words:
    word_count[word] += 1

这里我们创建了一个默认字典word_count，并将默认值设置为0，遍历每个单词，将其作为键添加到字典中，并将其对应的值加1，由于使用了默认字典，如果某个单词在字典中不存在，它会被自动初始化为0。

4、输出词频结果

for word, count in word_count.items():
    print(f"{word}: {count}")

我们遍历字典中的键值对，并按照指定的格式输出每个单词及其对应的词频。

完整的代码如下所示：

import re
from collections import defaultdict
text = "这是一段示例文本，这段文本将用于演示词频统计的方法。"
words = re.findall(r'w+', text)
word_count = defaultdict(int)
for word in words:
    word_count[word] += 1
for word, count in word_count.items():
    print(f"{word}: {count}")

运行以上代码，你将会得到示例文本中每个单词的词频统计结果。