python对文本进行分词_python中科院分词

激活谷笔记 • 2026-04-02 17:23 • 阅读 47

在Python中进行分词，你可以使用不同的库，例如NLTK、jieba和spaCy。下面是如何使用这些库进行分词的简要指南：

使用NLTK库进行分词

python

import nltk

nltk.download（'punkt'）下载punkt分词模型

text = "Hello, how are you？"

tokens = nltk.word_tokenize（text）

print（tokens）

使用jieba库进行中文分词

python

import jieba

text = "你好，今天天气不错"

tokens = jieba.cut（text）

print（list（tokens））

使用spaCy库进行分词

python

import spacy

nlp = spacy.load（'en_core_web_sm'）加载英文语言模型

text = "Hello, how are you？"

doc = nlp（text）

tokens = [token.text for token in doc]

print（tokens）

jieba分词模式

精确模式（默认）：返回分词结果生成器。

全模式：返回尽可能多的词。

搜索引擎模式：适合搜索引擎分词，提高召回率。

示例代码

python

import jieba

text = "我想和女朋友一起去北京故宫博物院参观和闲逛。"

精确模式

print（"精确模式：", " ".join（jieba.cut（text）））

全模式

print（"全模式：", " ".join（jieba.cut（text, cut_all=True）））

搜索引擎模式

print（"搜索引擎模式：", " ".join（jieba.cut_for_search（text）））

自定义词典

jieba支持用户自定义词典，可以通过以下方式添加自定义词汇：

python

jieba.load_userdict（"my_dict.txt"）加载自定义词典文件

其他分词库

SnowNLP：用于情感分析等。

thulac：由清华大学自然语言处理与社会人文计算实验室开发。

选择合适的库和模式，你可以根据你的具体需求进行文本分词。