版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一款流行的Python第三方中文分词库jieba库CHAPTER15CONTENTS目
录01jieba库简介02jieba的安装和使用03应用实例jieba库jieba库简介jieba
分词采用的是基于统计的分词方法给定大量已分好词的文本,利用机器学习学习分词规律然后保存训练好的模型,从而实现对新的文本的分词Python第三方中文分词库jieba库jieba库的步骤先加载自带的字典,生成trie树给定待分词的句子,使用正则表达式获取连续的中文字符和英文字符,切分成短语列表,对每个短语使用DAG和动态规划,得到最大概率路径,对DAG中那些没有在字典中查到的字,组合成一个新的片段短语,使用HMM模型进行分词,也就是识别新词,即识别字典外的新词使用Python的yield语法生成一个词语生成器,逐词语返回jieba库全模式精确模式搜索引擎模式将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词试图将语句最精确地切分,不存在冗余数据,适合做文本分析
jieba中文分词支持三种分词模式jieba库jieba库的常用函数函数说明jieba.cut(s)精确模式,返回一个可迭代的数据类型jieba.cut(s,cut_all=True)全模式,输出s中的所有可能单词jieba.cut_for_search(s)搜索引擎模式jieba.lcut(s)精确模式,返回一个列表类型jieba.lcut(s,cut_all=True)全模式,返回一个列表类型jieba.lcut_for_search(s)搜索引擎模式,返回一个列表类型jieba.add_word(w)向分词词典中增加新词wjieba.cut(s,cut_all=True)全模式,输出s中的所有可能单词jieba.cut_for_search(s)搜索引擎模式jieba库
jieba
的安装和使用打开一个cmd窗口打开执行安装>pipinstalljiebajieba库01#-*-coding:utf-8-*-02#jieba_test.py03importjieba04#全模式05text="我来到厦门大学数据库实验室"06seg_list=jieba.cut(text,cut_all=True)07print(u"[全模式]:","/".join(seg_list))0809#精确模式10seg_list=jieba.cut(text,cut_all=False)【例】新建一个代码文件jieba_test.py实例jieba库11print(u"精确模式]:","/".join(seg_list))1213#默认是精确模式14seg_list=jieba.cut(text)15print(u"[默认模式]:","/".join(seg_list))1617#搜索引擎模式18seg_list=jieba.cut_for_search(text)19print(u"[搜索引擎模式]:","/".join(seg_list))【例】新建一个代码文件jieba_test.py实例jieba库[全模式]:我/来到/厦门/厦门大学/大学/数据/数据库/据库/实验/实验室[精确模式]:我/来到/厦门大学/数据库/实验室[默认模式]:我/来到/厦门大学/数据库/实验室[搜索引擎模式]:我/来到/厦门/大学/厦门大学/数据/据库/数据库/实验/实验室【例】
新建一个代码文件jieba_test.py,代码的执行结果如下jieba库01#-*-coding:utf-8-*-02#wordcount.py03importjieba0405text="厦门大学设有研究生院、6个学部以及30个学院和16个研究院,形成了包括人文科学、社会科学、自然科学、工程与技术科学、管理科学、艺术科学、医学科学等学科门类在内的完备学科体系。学校现有18个学科进入ESI全球前1%,拥有5个一级学科国家重点学科、9个二级学科国家重点学科。学校设有32个博士后流动站;36个博士学位授权一级学科,45个硕士学位授权一级学科;8个交叉学科;1个博士专业学位学科授权类别,28个硕士专业学位学科授权类别。"06words=jieba.cut(text)#使用精确模式对文本进行分词07counts={}#通过键值对的形式存储词语及其出现的次数,是一个字典08【例】给定一段语句,使用jieba分词对语句进行分词,并统计出出现次数排在前3位的词语jieba库09forwordinwords:10iflen(word)==1:#不对单个字的词语进行统计11continue12else:13counts[word]=counts.get(word,0)+1#词语每出现一次,其对应的次数加11415items=list(counts.items())#转换成列表【例】给定一段语句,使用jieba分词对语句进行分词,并统计出出现次数排在前3位的词语jieba库16items.sort(key=lambdax:x[1],reverse=True)#根据词语出现的次数进行从大到小排序1718foriinrange(3):
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海立达学院《电机学》2025-2026学年期末试卷
- 沈阳建筑大学《外贸函电》2025-2026学年期末试卷
- 上海海关学院《中国历史文献学》2025-2026学年期末试卷
- 沈阳体育学院《新闻写作教程》2025-2026学年期末试卷
- 苏州科技大学《船舶消防》2025-2026学年期末试卷
- 上海工商外国语职业学院《现代质量管理学》2025-2026学年期末试卷
- 沈阳药科大学《运动疗法技术》2025-2026学年期末试卷
- 山西警察学院《卫生信息技术基础》2025-2026学年期末试卷
- 徐州医科大学《国际结算实务》2025-2026学年期末试卷
- 上海农林职业技术学院《家政学》2025-2026学年期末试卷
- 江西省社会保险线上服务大厅操作手册
- (198)-秦可卿课件2红楼梦人物艺术鉴赏
- 下肢假肢-下肢假肢的结构特点
- 2023年中国储备粮管理集团有限公司招考聘用300余人模拟预测(共500题)笔试参考题库附答案详解
- 手术室高频电刀
- 化工工艺的热安全
- GB/T 3853-2017容积式压缩机验收试验
- GB/T 2411-2008塑料和硬橡胶使用硬度计测定压痕硬度(邵氏硬度)
- GB 29216-2012食品安全国家标准食品添加剂丙二醇
- 云南某公路工程施工招标资格预审文件
- 半命题作文指导-课件
评论
0/150
提交评论