




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
——文本数据处理e7d195523061f1c0d3ba7f298e59d031c9c3f97027ed136f882110EF8F17BAD1F2C348D17C7856EF46CB4678CC9E44EE1ABA681E3133328A7B4D22AAF822B2429426B2355AA8CC4431B8568D2CF3B73AE9F4AE98D5A0D6A5566EF967553E96D781C502472DAB692B5E92B1CB5B32F40BF8CF6181A24AB2F2CD3A9A53F0FE7F0D4E247476572CCFAC《项目五》2341Contents目录文本的编码转换字符串的基本操作字符串处理函数用正则表达式处理字符串e7d195523061f1c0d3ba7f298e59d031c9c3f97027ed136f882110EF8F17BAD1F2C348D17C7856EF46CB4678CC9E44EE1ABA681E3133328A7B4D22AAF822B2429426B2355AA8CC4431B8568D2CF3B73AE9F4AE98D5A0D6A5566EF967553E96D781C502472DAB692B5E92B1CB5B32F40BF8CF6181A24AB2F2CD3A9A53F0FE7F0D4E247476572CCFACe7d195523061f1c0d3ba7f298e59d031c9c3f97027ed136f882110EF8F17BAD1F2C348D17C7856EF46CB4678CC9E44EE1ABA681E3133328A7B4D22AAF822B2429426B2355AA8CC4431B8568D2CF3B73AE9F4AE98D5A0D6A5566EF967553E96D781C502472DAB692B5E92B1CB5B32F40BF8CF6181A24AB2F2CD3A9A53F0FE7F0D4E247476572CCFAC1文本的编码转换1.1 字符串的编码e7d195523061f1c0d3ba7f298e59d031c9c3f97027ed136f882110EF8F17BAD1F2C348D17C7856EF46CB4678CC9E44EE1ABA681E3133328A7B4D22AAF822B2429426B2355AA8CC4431B8568D2CF3B73AE9F4AE98D5A0D6A5566EF967553E96D781C502472DAB692B5E92B1CB5B32F40BF8CF6181A24AB2F2CD3A9A53F0FE7F0D4E247476572CCFAC在计算机内存中统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候就转换为UTF-8编码。浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器。ASCII编码可以被看成是UTF-8编码的一部分,大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。1.2字符串类型在Python中,有两种常用的字符串类型,分别为str和byte。str表示Unicode字符,一个字符对应若干个字节(1-6个字节)str通过encode()方法可以将字符串编码为指定的byte类型;byte类型可通过decode()方法进行解码,变为str类型用。电脑编码(encode)strunicode解码(decode)1.3编码和解码
str通过解码函数decode()转换为unicode,unicode通过编码函数encode()转换为str。
e7d195523061f1c0d3ba7f298e59d031c9c3f97027ed136f882110EF8F17BAD1F2C348D17C7856EF46CB4678CC9E44EE1ABA681E3133328A7B4D22AAF822B2429426B2355AA8CC4431B8568D2CF3B73AE9F4AE98D5A0D6A5566EF967553E96D781C502472DAB692B5E92B1CB5B32F40BF8CF6181A24AB2F2CD3A9A53F0FE7F0D4E247476572CCFAC2字符串的基本操作2.1用format格式化字符串%格式化:占位符%,搭配%符号一起使用;format()格式化:占位符{},搭配format()函数一起使用;f-string格式化:占位符{},搭配f符号一起使用;常用的三种输出方式:2.2
字符串拼接1.字符串拼接2.数字与字符串的拼接Python中不允许直接拼接数字和字符串,必须先将数字转换为字符串。可借助str()和repr()函数将数字转换为字符串。【数字+字符串实例】str()用于将数据转换成适合人类阅读的字符串形式repr()用于将数据转换成适合解释器阅读的字符串形式2.3字符串截取字符串索引图Python允许从字符串的两端使用索引:以字符串的左端为起点时,索引是从0开始计数的,字符串的第一个字符的索引为0,第二个字符的索引为1,第三个字符串的索引为2……当以字符串的右端(字符串的末尾)为起点时,索引是从-1开始计数的;字符串的倒数第一个字符的索引为-1,倒数第二个字符的索引为-2,倒数第三个字符的索引为-3……2.3字符串截取指定一个范围来获取多个字符,使用切片的方法,具体格式为:使用切片截取字符串name[0:3]name[3:5]name[1:-1]name[2:])name[::-2]abcdebcdecdeffdb假设有字符串name=“abcdef”,则:2.3字符串截取【应用实例】e7d195523061f1c0d3ba7f298e59d031c9c3f97027ed136f882110EF8F17BAD1F2C348D17C7856EF46CB4678CC9E44EE1ABA681E3133328A7B4D22AAF822B2429426B2355AA8CC4431B8568D2CF3B73AE9F4AE98D5A0D6A5566EF967553E96D781C502472DAB692B5E92B1CB5B32F40BF8CF6181A24AB2F2CD3A9A53F0FE7F0D4E247476572CCFAC3字符串处理函数3.1合并和分割字符串1.分割字符串splite函数:通过指定分隔符对字符串进行切片参数如下:str:表示要进行分割的字符串;sep:用于指定分隔符,可以包含多个字符。maxsplit:可选参数,用于指定分割的次数。如果不指定或者指定为-1,则表示分割次数没有限制。3.1合并和分割字符串2.合并字符串合并字符串使用join()方法,将列表中多个字符串连接在一起。newstr=str.join(iterable)参数如下:newstr:表示合并后生成的新字符串;str:用于指定合并时的分隔符;iterable:做合并操作的源字符串数据,允许是列表、元组等3.2获取字符串的长度或字节数使用len函数可以知道一个字符串有多少个字符,或者一个字符串占用多少个字节。两者有何不同?3.3检索字符串find函数:检测字符串是否包括子字符串参数如下:str:表示原字符串;sub:表示要检索的目标字符串;start:表示开始检索的起始位置。如果不指定,则默认从头开始检索;end:表示结束检索的结束位置。如果不指定,则默认一直检索到结尾。3.3检索字符串count()函数:用于检索指定字符串在另一字符串中出现的次数。参数如下:str:表示原字符串;sub:表示要检索的字符串;start:指定检索的起始位置。如果不指定,默认从头开始检索;end:指定检索的终止位置,如果不指定,则表示一直检索到结尾。3.3检索字符串index()函数:检索是否包含指定的字符串,不存在时,index()方法会抛出异常。参数如下:str:表示原字符串;sub:表示要检索的目标字符串;start:表示开始检索的起始位置。如果不指定,则默认从头开始检索;end:表示结束检索的结束位置。如果不指定,则默认一直检索到结尾。3.4字符串大小写转换字符串中的字母进行大小写转换,字符串变量提供了3种方法,分别是title()、lower()和upper()。【语法】【实例】title()函数3.4字符串大小写转换字符串中的字母进行大小写转换,字符串变量提供了3种方法,分别是title()、lower()和upper()。【语法】【实例】upper()函数str.upper()mystr='helloworlditheimaanditheimaApp'newStr=mystr.upper()HELLOWORLDITHEIMAANDITHEIMAAPP3.4字符串大小写转换字符串中的字母进行大小写转换,字符串变量提供了3种方法,分别是title()、lower()和upper()。【语法】【实例】lower()函数str.lower()mystr=GOOD,MORNING!'newStr=mystr.upper()good,morning!3.5
去除字符串中的空格和特殊字符问题用户输入数据时,有可能无意中会输入多余的空格和字符,或者在一些场景中,要求字符串前后不允许出现空格和特殊字符,此时就需要去除字符串中的空格、字符和特殊字符。解决方法(1)使用str内置方法。使用提供的strip()函数去除字符串左、右两侧的空格和特殊字符;lstrip()函数去除字符串左边的空格和特殊字符;rstrip()函数去除字符串右边的空格和特殊字符。(2)使用切片+拼接的方法来删除单个或连续的字符。(3)使用字符串的replace()方法或者正则表达式re.sub()
来删除任意位置的字符。(4)使用字符串translate()方法,同时删除多种不同字符。3.5
去除字符串中的空格和特殊字符使用strip()函数使用replace()函数使用切片+拼接的方式【实例】e7d195523061f1c0d3ba7f298e59d031c9c3f97027ed136f882110EF8F17BAD1F2C348D17C7856EF46CB4678CC9E44EE1ABA681E3133328A7B4D22AAF822B2429426B2355AA8CC4431B8568D2CF3B73AE9F4AE98D5A0D6A5566EF967553E96D781C502472DAB692B5E92B1CB5B32F40BF8CF6181A24AB2F2CD3A9A53F0FE7F0D4E247476572CCFAC4用正则表达式处理字符串4.1正则表达式正则表达式是由普通字符(就是0-9、a-z、A-Z等)和特殊字符(也称为"元字符",如\w、\w、*、?)组成的“特殊字符串”,通常也称为模式。构造正则表达式就是构造一个既符合正则表达式规范,又能达到匹配出所有待处理目标字符串的一个特殊字符串;匹配文本就是将正则表达式通过编程语言提供的功能用于待处理的文本串上,使之能匹配到要处理的目标字符串;处理匹配的结果,就是对匹配到的目标字符串,进行处理,如替换、删除等操作。常用的正则表达式4.1正则表达式可在/front-end/854/在线测试4.2正则表达式的应用【实例】查找一个匹配的字符串。【输出结果】4.2正则表达式的应用【实例】字符串分割为列表【输出结果】4.2正则表达式的应用【实例】字符串替换【输出结果】【本章小结】本章主要介绍的是Python中字符串的常用处理方法,包括字符串的基本操作、字符串内置函数的使用和如何使用正则表达式处理字符串相关数据等。希望读者可以多加以理解,并熟练
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025产品购销合同范本简单
- 2025年企业商务差旅服务合同范本
- 2025深圳市劳动合同样板
- 2025FIDIC设计采购施工EPC交钥匙工程合同条件银皮书合同指南
- 2025年国防科技合作保密合同范本
- 2025年劳动合同法执行规则修订
- 2025年妇女儿童基金会笔试复习计划
- 2025年山西安全员实操考试题库含答案
- 2025年宠物营养师高级实操练习题库
- 与餐饮企业合作供应无公害蔬菜创新创业项目商业计划书
- CJ/T 120-2016给水涂塑复合钢管
- T/CNIDA 010-2023核电厂建(构)筑物变形监测系统技术规程
- T/CECS 10214-2022钢面镁质复合风管
- 既有供暖蒸汽管网及设施改造项目建议书(参考范文)
- 公交从业人员考试试题及答案
- 智联招聘协议书
- 2025-2030中国细胞分选机行业市场发展趋势与前景展望战略研究报告
- 中国特色社会主义知识点总结中职高考政治一轮复习
- 《界面设计》课件
- 2024年家政服务业职业技能大赛家庭照护赛项技术工作文件
- 北师大版五年级下册分数加减法简便计算400道及答案
评论
0/150
提交评论