第4章序列最终版

上传人：1*** IP属地：广东上传时间：2025-06-06 格式：PPTX 页数：68 大小：1.64MB 积分：15 举报 版权申诉

已阅读5页，还剩63页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第4章序列目录页contents4.1序列概述4.2字符串4.3列表4.4元组4.5jieba库的使用4.1序列概述Python中，根据容器的存储特点，操作方式，容器可以分为不同的类型，其中序列就是其中的一种内置的容器。序列包括字符串，列表和元组。序列类型的元素间存在顺序关系，各具体类型使用相同的索引体系，即正向索引和反向索引。序列对象是可迭代的1.序列索引（1）正向索引（2）反向索引2.序列切片序列切片操作可以在序列中提取部分元素返回得到一个新序列，其格式如下

图1序列元素的索引varname[m:n:k]4.2.1字符串概要4.2.2字符串的基本操作4.2.3字符串处理内置函数4.2字符串4.2.4字符串处理方法4.2.1字符串概要字符串是一组不可变且有序的序列，其主要是用来表示文本信息。可以使用单引号、双引号、三引号作为定界符(界限符)对字符串进行定义。定界符必须要成对出现，并可以嵌套使用。【例4-1】字符串表示、转义字符>>>print('I'meva.')#定界符为单引号的字符串中含有单引号，出错SyntaxError:invalidsyntax>>>print("I'meva.")I'meva.>>>print('I\'meva.')#使用转义字符I'meva.4.2.1字符串概要转义字符是指在字符串中的某些特定的符号前加一个反斜杠之后，该字符将被解释为另外一种含义。如：print('I\'meva.')表4-1Python中常见的转义字符转义字符描述转义字符描述\在行尾的续行符\t水平制表符\'单引号\a响铃\"双引号\b退格（Backspace）\0空\\反斜线\n换行符\0dd八进制数，如\012代表换行\r回车符\xhh十六进制数，如\x0a代表换行4.2.2字符串的基本操作字符串索引与切片应用【例4-2】字符串索引>>>print("MynameisEva"[0],"MynameisEva"[-1])Ma>>>print("MynameisEva"[14])#索引越界Traceback(mostrecentcalllast):File"<pyshell#36>",line1,in<module>print("MynameisEva"[14])IndexError:stringindexoutofrange>>>str1="MynameisEva">>>print(str1[1])y>>>print(str1[-14])M4.2.2字符串的基本操作字符串索引与切片应用【例4-3】字符串切片>>>sn="0123456789">>>sn'0123456789'>>>sn[2:7]'23456'>>>sn[1:8:2]'1357'>>>sn[:5]'01234'>>>sn[-8:9]'2345678'>>>sn[::-1]'9876543210'>>>sn[-2::-3]'852'4.2.3字符串处理内置函数字符串函数操作是以字符串作为输入条件，经过处理后返回相应的值。Python解释器提供了常见的字符串处理相关的内置函数，其调用形式为：<函数名>(<参数>)函数例子值描述lenlen("中国12ab")6返回字符串长度maxmax("IamEva")'v'返回字符串中最大字符minmin("IamEva")'

'返回字符串中最小字符chrchr(20013)'中'返回Unicode编码对应的单字符ordord("a")97返回单字符表示的Unicode编码octoct(100)'0o144'将整数转换为对应八进制数字符串hexhex(100)'0x64'将整数转换为对应十六进制字符串binbin(10)'0b1010'将整数转换为对应二进制字符串strstr(100)'100'将其他数据类型转换为字符串类型4.2.3字符串处理内置函数Unicode编码Python3以Unicode字符为计数基础，中英文字符及标点字符都是1个长度单位。Unicode又称万国码，是计算机科学领域里的一项业界标准，包括字符集、编码方案等，Python字符串中每个字符都使用Unicode编码表示。>>>ord("A")65>>>chr(65)”A”>>>ord("a")97>>>chr(97)”a”>>>ord("学")23398>>>chr(0x266b)

'♫'4.2.4字符串处理方法字符串方法是对字符串进行处理的一个过程，由方法名称和用圆括号括起来的参数列表组成。方法需要结合特定的对象进行使用。Python中，字符串对象有大量自己特定的方法，可用于查找、检测、排版、替换等操作。格式：<字符串或字符串变量>.<方法名>([<参数1，参数2….>])4.2.4字符串处理方法字符串内置方法众多，根据功能不同，把常用方法从转换、判断、填充、查找、连接与分割等几个方面分类介绍。1.转换方法：方法例子值描述uppers.upper()

'MYNAMEISEVA'全部字符大写lowers.lower()

'mynameiseva'全部字符小写swapcases.swapcase()'mYMANEISeVA'字符大小写互换capitalizes.capitalize()

'Mynameiseva'串首字符大写，其余小写titles.title()

'MyNameIsEva'单词首字母大写，其余小写s="MynameisEva"4.2.4字符串处理方法2.判断方法：方法例子值描述isalnums.isalnum()True所有字符都是字母或数字组成，则返回True，否则返回Falseisalphas.isalpha()False全是字母，返回True，否则返回Falseisdigits.isdigit()False全是数字，返回True，否则返回Falseislowers.islower()True如果字符串中包含至少一个区分大小写的字符，并且所有这些(区分大小写的)字符都是小写，则返回True，否则返回Falseisuppers.isupper()False如果字符串中包含至少一个区分大小写的字符，并且所有这些(区分大小写的)字符都是大写，则返回True，否则返回Falseistitles.istitle()False如果字符串中所有的单词拼写首字母是否为大写，且其他字母为小写则返回True，否则返回False.isspaces.isspace()False全是空白字符，返回True，否则返回Falseisprintables.isprintable()True全是可打印字符，返回True，否则返回Falses="123abc"4.2.4字符串处理方法3.查找方法（表1）：s="123,abc,123,abc"方法例子结果描述finds.find("123",1,7)s.find("ab")-14范围内查找子串，返回首次出现位置，找不着返回-1rfinds.rfind("23",1,13)s.rfind("ab")912范围内查找子串，返回末次出现位置，找不着返回-1indexs.index("123",1,7)s.index("123")出错0范围内查找子串，返回首次出现位置，找不着报错4.2.4字符串处理方法3.查找方法（表2）：s="123,abc,123,abc"方法例子结果描述counts.count(",")s.count("234")30返回子字符串在字符串中出现的次数replaces.replace("123","456")s.replace("a","4",1)'456,abc,456,abc''123,4bc,123,abc'查找子串并在次数范围内用指定字符串替代，返回新串startswiths.startswith("12")s.startswith("12"，9)TrueFalse如果范围字符串以指定子串开始，返回Trueendswiths.endswith("3",1,11)s.endswith("23")TrueFalse如果范围字符串以指定子串结束，返回True4.2.4字符串处理方法4.格式方法：s="123"方法描述center返回指定长度的居中对齐字符串副本ljust返回指定长度的左对齐字符串副本rjust返回指定长度的右对齐字符串副本zfill返回指定宽度字符串，不足左侧用0补位strip删除两边空白字符或指定字符lstrip删除左边空白字符或指定字符rstrip删除右边空白字符或指定字符4.2.4字符串处理方法【例4-4】字符格式方法：>>>s="123">>>s.center(5)'123'>>>s.center(10,"*")'**123***'>>>s.center(3)'123'>>>s.rjust(10,"*")'*****123'>>>s.ljust(10,"#")'123#####'>>>s.zfill(10)'00000123'>>>s.strip()'123'>>>s.lstrip()'123'>>>s.rstrip()'123'>>>s="123123">>>s.strip()'123123'>>>s.strip("13")#去掉字符串外侧指定字符，包括空格、1、3'2312'4.2.4字符串处理方法5.连接与分割方法方法格式描述joinstr.join(iterable)将列表的多个字符串连接，并在相邻两个字符串之间插入指定字符.splitstr.split(s="",num=string.count(str))s为分隔符，默认为所有空字符，num表示分隔次数。以指定字符为分隔符，分隔成多个字符串，返回包含分割结果的列表【例4-5】字符连接与分割方法>>>"#".join(["123","abc"])'123#abc'>>>"123abc,abc123".split(",")['123abc','abc123']>>>"123abc,abc123".split()['123','abc,abc','123']>>>"123abc\nabc\t123".split()['123','abc','abc','123']4.2.5字符串格式化输出format方法>>>"my{}is{}".format("name","eva")format("name","eva")现代计算机之父格式：<模板字符串>.format(<参数1，参数2……>)format()方法可以有一个或多个类型不同的对象参数。format()方法执行时，首先进行对象参数与模板字段项的匹配，然后将每个对象参数,按照所匹配的模板字段指定格式转换为字符串，并替换所匹配的模板，返回一个被替换后的字符串。4.2.5字符串格式化输出(1){}—位置匹配，不带序号，按顺序填充>>>print("nameis{},idis{}".format("王小瞳","190101"))nameis王小瞳，idis190101(2)

{1},{2}—序号匹配，可调换顺序>>>print("nameis{0},idis{1}".format("王小瞳","190101"))nameis王小瞳，idis190101>>>print("nameis{1},idis{0},{1}是计算机专业的学生".format("190101","王小瞳"))nameis王小瞳,idis190101,王小瞳是计算机专业的学生format方法4.2.5字符串格式化输出(3){name},{id}—名称匹配，带关键字填充>>>print("nameis{name},idis{id}".format(name="王小瞳",id="190101"))nameis王小瞳，idis190101(4){0[0]},{0[1]}—索引下标匹配>>>print("nameis{0[0]},idis{0[1]}".format(["王小瞳","190101"]))nameis王小瞳,idis190101format方法4.2.5字符串格式化输出使用format方法时，在{}内除了包含参数或参数序号外，还可以包含格式控制信息，用来控制参数显示时的格式，二者中间用冒号隔开。格式：{[<参数>|<参数序号>]:<格式控制标记>}4.2.5字符串格式化输出格式：{[<参数>|<参数序号>]:<格式控制标记>}：<填充><对齐><宽度><，><精度><类型>引导符号用于填充的单个字符，默认为空格<左对齐>右对齐^居中对齐设置输出宽度数字的千位分隔符，适用于整数和浮点数浮点数小数部分的精度或字符串的最大输出长度整数类型b.c.d.e.x.X浮点数类型e.E.f.%4.2.5字符串格式化输出【例4-7】浮点数format格式化方法>>>"{:.2f}".format(12345.6789)'12345.68'>>>"{:,.2f}".format(12345.6789)'12,345.68'>>>"{:^20,.2f}".format(12345.6789)'12,345.68'>>>"{:*^20,.2f}".format(12345.6789)'*****12,345.68******'>>>"{:+.3f}".format(12345.6789)#+字符符号，必须输出符号'+12345.679'>>>"{:+.3f}".format(-12345.6789)#+字符符号，必须输出符号'-12345.679'4.2.5字符串格式化输出【例4-7】浮点数format格式化方法>>>"{:+20.3f}".format(-12345.6789)#+字符符号，必须输出符号'-12345.679'>>>"{:=20.3f}".format(-12345.6789)#=表示在符号和数字间填充'-12345.679'>>>"{:.2%}".format(12345.6789)'1234567.89%'>>>"{:#>20.2e}".format(12345.6789)'############1.23e+04'4.2.5字符串格式化输出【例4-8】format方法数制转换格式化>>>"{0:b}{0:d}{0:o}{0:x}{0:X}".format(12345)'11000000111001123453007130393039'>>>"{0:#b}{0:#d}{0:#o}{0:#x}{0:#X}".format(12345)'0b11000000111001123450o300710x30390X3039'4.2.5字符串格式化输出【例4-9】下面输出的是前三名同学的成绩排名123456#E4-9.pyprint("{0:*^30}".format("scoreranking"))print("{0:<5}{1:^20}{2:>5}".format("id","name","score"))print("{0:<5}{1:^20}{2:>5}".format(1,"eva",100))print("{0:<5}{1:^20}{2:>5}".format(2,"coco",98))print("{0:<5}{1:^20}{2:>5}".format(3,"fanny",95))程序的运行结果为：4.3.1列表的概念4.3.2列表的基本操作4.3列表4.3.1列表的概念列表（list）是包含0个或多个对象引用的有序序列，并且是Python中内置的可变序列，它提供了灵活多变的数据存储方案。>>>favourite_fruits=["apple","banana","pear","peach"]>>>luck_numbers=[7,3,12,36,[9,11]]>>>friends=["王芳",18,"李想",17,"张小若",19]>>>['p','y','t','h','o','n']4.3.2列表的基本操作1.创建列表>>>list1=[]#创建空列表>>>list2=[98,80,75,90,65,82]#创建数值元素的列表>>>list3=[“hello”,”world”,”!”]#创建包含字符串元素的列表>>>list4=[xforxinrange(5)]#列表解析创建列表[0,1,2,3,4]>>>list5=list(range(10,20,2))#转换后的列表为[10,12,14,16,18]>>>list6=list(“Python”)#转换后的列表为['p','y','t','h','o','n']

>>>list7=list(('h','e','l','l','o'))#转换后的列表为['h','e','l','l','o']4.3.2列表的基本操作2.访问列表元素与列表切片>>>animals=["cat","dog","monkey","horse","spider","frog"]>>>animals[0]'cat'>>>animals[len(animals)-1]'frog'4.3.2列表的基本操作2.访问列表元素与列表切片>>>animals=["cat","dog","monkey","horse","spider","frog"]>>>animals[3:]

#返回列表中索引值为3到最后一个元素的所有元素组成的列表['horse','spider','frog']>>>animals[1:3]#返回列表中索引值为1到索引值为3（不包含）的元素组成的列表['dog','monkey']>>>animals[:]#返回原列表的副本['cat','dog','monkey','horse','spider','frog']4.3.2列表的基本操作2.访问列表元素与列表切片【例4-10】编写程序实现用列表定义一周每日的学习计划，根据星期输出当日的学习计划分析：(1)定义一个包含7个元素的列表，每个元素的内容为每日的学习计划(2)获取当前的星期，将当前的星期作为列表的索引，输出该日的学习计划，需要导入日期时间类datetime4.3.2列表的基本操作2.访问列表元素与列表切片【例4-10】编写程序实现用列表定义一周每日的学习计划，根据星期输出当日的学习计划#E4-10.pyimportdatetime#导入日期时间类#定义一个列表plan=["今天星期一:\n读《史记》","今天星期二：\n练口语","今天星期三：\n写读书笔记","今天星期四：\n学慕课","今天星期五：\n学Python","今天星期六：\n学打羽毛球","今天星期日：\n品《三国》"]day=datetime.datetime.now().weekday()#获取当前星期print(plan[day])#输出当前星期的学习计划程序的运行结果为：今天星期三：写读书笔记4.3.2列表的基本操作3.遍历列表在实际应用中，经常要遍历列表中所有元素(1).直接遍历列表元素for<元素>in<列表>:

print(<元素>)4.3.2列表的基本操作3.遍历列表【例4-11】定义一个保存世界人口数量前六位国家的列表，然后通过for循环遍历该列表，并输出各个国家的名称>>>country=['中国','印度','美国','印度尼西亚','巴西','巴基斯坦']>>>foritemincountry:print(item)中国印度美国印度尼西亚巴西巴基斯坦4.3.2列表的基本操作3.遍历列表在实际应用中，经常要遍历列表中所有元素(2).for循环和enumerate()函数实现遍历列表for<索引>in<列表长度>:print(<列表[索引]>)4.3.2列表的基本操作3.遍历列表【例4-12】对于例4-11创建的列表，通过for循环和enumerate()函数遍历该列表，并输出排名和对应的国家名称>>>country=['中国','印度','美国','印度尼西亚','巴西','巴基斯坦']>>>forindex,iteminenumerate(country):print(index+1,item)1中国2印度3美国4印度尼西亚5巴西6巴基斯坦4.3.2列表的基本操作4.向列表追加、插入、修改和删除元素(1).向列表增加元素list1.append(x)在列表list1末尾增加一个元素x>>>list1=[1,2,3]>>>list1.append(4)>>>list1[1,2,3,4]

list1.extend(list2)在列表list1末尾增加列表list2中的元素>>>list1.extend([5,6])>>>list1[1,2,3,4,5,6]

list1.insert(i,x)在列表list1索引为i的位置增加元素x>>>list1.insert(0,0)>>>list1[0,1,2,3,4,5,6]4.3.2列表的基本操作4.向列表追加、插入、修改和删除元素(1).向列表增加元素>>>stu1,stu2=["Mary",18],["Rose",20]>>>stu3,stu4=["Jack",19],["Tom",20]>>>stu1.append(stu2)>>>stu1['Mary',18,['Rose',10]]>>>stu1.extend(stu3)>>>stu1['Mary’,18,['Rose',10],'Jack',19]>>>stu1.insert(0,stu4)>>>stu1[['Tom',20],'Mary',18,['Rose',10],'Jack',19]4.3.2列表的基本操作4.向列表追加、插入、修改和删除元素(2).列表的删除（del、remove、pop、clear）list1=[0,1,2,3,4,5,6,7,8,9]dellist1[i] 删除列表list1的索引为i位置的元素>>>dellist1[0]>>>list1[1,2,3,4,5,6,7,8,9]dellist1[i:j:k] 删除列表list1第i到第j（不包括j）索引位置以K为步长的元素>>>dellist1[0:8:2]>>>list1[2,4,6,8,9]list1.remove(x)删除列表list1中出现的第一个x元素>>>list1.remove(4)>>>list1[2,6,8,9]4.3.2列表的基本操作4.向列表追加、插入、修改和删除元素(2).列表的删除list1.pop(i)返回列表list1中索引为i位置的元素并删除该元素list1.pop()返回列表list1中最后一个元素并删除该元素>>>list1.pop(2)8>>>list1[2,6,9]>>>list1.pop()9>>>list1[2,6]list1.clear() 删除列表list1中的所有元素>>>list1.clear()>>>list1[]4.3.2列表的基本操作4.向列表追加、插入、修改和删除元素(3).列表的排序list1.reverse()将列表list1中的元素反转>>>list1=["Monday","Tuesday","Wednesday","Thursday","Friday","Saturday","Sunday"]>>>list1.reverse()>>>list1['Sunday','Saturday','Friday','Thursday','Wednesday','Tuesday','Monday']4.3.2列表的基本操作4.向列表追加、插入、修改和删除元素(3).列表的排序list1.sort(key=None,reverse=False)若省略参数，对列表list1中的元素按升序排序；若参数reverse=True，则按降序排序;key指定排序规则>>>list1.sort()>>>list1['Friday','Monday','Saturday','Sunday','Thursday','Tuesday','Wednesday']>>>list1.sort(reverse=True)>>>list1['Wednesday','Tuesday','Thursday','Sunday','Saturday','Monday','Friday']>>>list1.sort(key=len)>>>list1['Friday','Monday','Sunday','Tuesday','Saturday','Thursday','Wednesday']4.3.2列表的基本操作4.向列表追加、插入、修改和删除元素(4).列表的复制list1.copy()复制生成一个包括list1中所有元素的新列表>>>list1=[1,2,3,4]>>>list3=list1>>>list2=list1.copy()>>>list1[0]="a">>>list1['a',2,3,4]>>>id(list1)53290824>>>list2[1,2,3,4]>>>list3['a',2,3,4]4.3.2列表的基本操作4.向列表追加、插入、修改和删除元素【例4-14】对于例4-11创建的列表，在列表末尾增加尼日利亚、孟加拉国、俄罗斯和墨西哥，使其显示世界人口排名前十的国家。然后将墨西哥从列表中删除，并将列表的国家按人口数量的升序显示>>>country=['中国','印度','美国','印度尼西亚','巴西','巴基斯坦']>>>country.extend(['尼日利亚','孟加拉国','俄罗斯','墨西哥'])>>>country.pop()>>>country.reverse()>>>print(country)['俄罗斯','孟加拉国','尼日利亚','巴基斯坦','巴西','印度尼西亚','美国','印度','中国']4.3.2列表的基本操作5.对列表进行统计和计算list1=[2,4,6,8,10,2](1)list1.count(x)返回元素x在列表list1中的出现次数>>>list1.count(2)2(2)list1.index(x) 返回元素x在列表list1中首次出现的索引位置>>>list1.index(2)0(3)sum(list)

统计数值列表list1中各元素的和>>>sum(list1)324.3.2列表的基本操作5.对列表进行统计和计算list1=[2,4,6,8,10,2](4)len(list1) 返回列表list1的长度>>>len(list1)6(5)max(list1) 返回列表list1中元素的最大值>>>max(list1)10(6)min(list1) 返回列表list1中元素的最小值>>>min(list1)24.3.2列表的基本操作5.对列表进行统计和计算【例4-15】新建程序文件E4-15.py，定义一个保存10名学生计算机课成绩的列表，统计出10名学生的平均成绩，并统计得100分的人数。123456#E4-15.pysc=[90,78,100,92,86,100,79,83,62,93]print("平均成绩为：")print(sum(sc)/len(sc))print("得100分的人数为：")print(sc.count(100))平均成绩为:86.3得100分的人数为:2程序的运行结果：4.4.1元组的概念4.4.2元组的基本操作4.4元组4.4.3列表与元组的转换4.4.4元组与列表的区别4.4.1元组的概念元组(tuple)是Python中另一个重要的序列结构，它是包含0个或多个元素的不可变序列类型。在形式上，元组的所有元素通常放在一对“()”中，两个相邻元素间使用“,”分隔。例如：tuple1=(10,20,30)或tuple1=10,20,304.4.2元组的基本操作与列表相似，元组的基本操作包括创建元组，访问元组元素,元组切片操作等。此外，也可以使用for循环遍历元组4.4.2元组的基本操作1.创建元组>>>num=(2,6,8,12,35,68,96)>>>poets=('李白','杜甫','白居易','王维','苏轼')>>>tup=(("屠呦呦",85),["诺贝尔奖","青蒿素"])>>>name=("Mary",)>>>t1=tuple(range(1,10,2))>>>t1(1,3,5,7,9)>>>t2=tuple(“hello”)>>>t2('h','e','l','l','o')4.4.2元组的基本操作2.元组的访问>>>poets=('李白','杜甫','白居易','王维','苏轼')>>>poets[1]="孟浩然"TypeError:'tuple'objectdoesnotsupportitemassignment

>>>poets[0]'李白'>>>poets[1:3]('杜甫','白居易')>>>tup2=num+name>>>tup2(2,6,8,12,35,68,96,"Mary")#该方法同样适用于列表4.4.2元组的基本操作3.删除元组>>>deltup2>>>tup2Traceback(mostrecentcalllast):File"<pyshell#8>",line1,in<module>tup2NameError:name'tup2'isnotdefined4.4.2元组的基本操作4.元组的其它操作>>>tup3=(10,20,30,40,50)>>>sum(tup3)150>>>max(tup3)50>>>min(tup3)10>>>len(tup3)5>>>20intup3True>>>60notintup3True>>>tup3.index(30)2>>>tup3.count(10)14.4.3列表与元组的转换Python中，列表与元组可以互相转换。内置函数tuple(<列表>)可以将一个列表作为参数转换成包含同样元素的元组.同样，list(<元组>)可以将一个元组作为参数转换成包含同样元素的列表。>>>list1=[10,20,30,40,50]>>>tuple(list1)(10,20,30,40,50)>>>type(list1)#查看调用函数tuple()后list1的类型<class'list'>#list1类型是列表并没有改变

>>>tup1=("Hello","World","!")>>>list(tup1)['Hello','World','!']>>>type(tup1)#查看调用函数list()后tup1的类型<class'tuple'>#tup1类型是元组并没有改变

4.4.4元组与列表的区别(1)列表属于可变序列，它的元素可以随时修改或者删除；元组属于不可变序列，其中的元素不可以修改。(2)列表可以使用append()、extend()、insert()、remove()和pop()等方法实现添加和修改列表元素，而元组没有这几个方法，所以不能向元组中添加、修改或删除元素。(3)元组比列表的访问和处理速度快，所以当只需要对其中的元素进行访问，而不进行任何修改时，建议使用元组。(4)列表不能作为字典的键，而元组则可以。元组与列表的区别4.5.1jieba库简介4.5.2jieba库分词函数4.5jieba库的使用4.5.1jieba库简介在自然语言处理技术中，中文分词是其他中文信息处理的基础，比如搜索引擎、机器翻译（MT）、语音合成、自动分类、自动摘要、自动校对等等，都需要用到分词。jieba是Python中一个重要的第三方中文分词库，具有分词、添加用户词典、提取关键词和词性标注等功能4.5.1jieba库简介jieba库的分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组。它支持3种分词模式：（1）精确模式：试图将句子最精确地切开，适合文本分析。（2）全模式：把句子中所有可以成词的词语都扫描出来，速度快，但是不能解决歧义问题。（3）搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适用于搜索引擎分词。4.5.2jieba库分词函数jieba库主要提供分词功能，可以辅助自定义分词词典。jieba库中包含的主要函数如表4-11所示函数说明jieba.cut(s)精确模式，返回一个可迭代的数据类型，可以通过for循环来取里面的每一个词jieba.cut(s,cut_all=True)全模式，输出文本s中所有可能的单词，返回一个可迭代的数据类型jieba.cut_for_search(s)搜索引擎模式，适合搜索引擎建立索引的分词结果，返回一个可迭代的数据类型jieba.lcut(s)精确模式，返回一个列表类型jieba.lcut(s,cut_all=True)全模式，返回一个列表类型jieba.lcut_for_search(s)搜索引擎模式，返回一个列表类型【例4-17】jieba库的分词基本应用>>>importjieba>>>str2="AlphaGo是第一个战胜围棋世界冠军的人工智能机器人">>>ji

人人文库> 全部分类> 教育资料 > 作文作品

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第4章序列最终版

文档简介

温馨提示

最新文档

评论

第4章 序列最终版

文档简介

温馨提示

最新文档

评论

相关文档

第4章序列最终版