Python 中拼音库 PyPinyin 用法详解_第1页
Python 中拼音库 PyPinyin 用法详解_第2页
Python 中拼音库 PyPinyin 用法详解_第3页
Python 中拼音库 PyPinyin 用法详解_第4页
Python 中拼音库 PyPinyin 用法详解_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第Python中拼音库PyPinyin用法详解最近碰到了一个问题,项目中很多文件都是接手过来的中文命名的一些素材,结果在部署的时候文件名全都乱码了,导致项目无法正常运行。

后来请教了一位大佬怎么解决文件名乱码的问题,他说这个需要正面解决吗?不需要,把文件名全部改掉,文件名永远不要用中文,永远不要。

我想他这么说的话,一定也是凭经验得出来的。

这里也友情提示大家,项目里面文件永远不要用中文,永远不要!

好,那不用中文用啥?平时来看,一般我们都会用英文来命名,一般也不会出现中文,比如resource,controller,result,view,spider等等,所以绝大多数情况下,是不会出现什么问题的。但是也有个别的情况,比如一些素材、资源文件可能的中文命名的,那么这时候该咋办呢?

首先像,因为是中文资源文件,我们要改成非中文命名的,无非两种,一种是英文,一种是拼音。

如果改英文,当然可以翻译、我们想翻译的话,逐个人工翻译成本太高,机器翻译的话,翻译完可能有些文不对题了,而且我们自己也不知道一些奇怪的资源英语应该叫什么,所以到时候真的找起来都找不到了。

所以第二种解决方案,那就是拼音了。中文转拼音,很自然,而且一个字就对应一串拼音,而且也非常容易从拼音看懂是什么意思,所以这确实是一个不错的方案。

那么问题就来了,怎样把一批中文文件转拼音命名呢?下面就让我们来了解Python的一个库PyPinyin吧!

Python中提供了汉字转拼音的库,名字叫做PyPinyin,可以用于汉字注音、排序、检索等等场合,是基于hotto/pinyin这个库开发的,一些站点链接如下:

GitHub:/mozillazg/python-pinyin

文档:https://pypinyin.readthedocs.io/zh_CN/master/

PyPi:/project/pypinyin/

它有这么几个特性:

根据词组智能匹配最正确的拼音。

支持多音字。

简单的繁体支持,注音支持。

支持多种不同拼音/注音风格。

是不是等不及了呢?那就让我们来了解一下它的用法吧!

首先就是这个库的安装了,通过pip安装即可:

pip3installpypinyin

安装完成之后导入一下这个库,如果不报错,那就说明安装成功了。

importpypinyin

好,接下来我们看下它的具体功能。

首先我们进行一下基本的拼音转换,方法非常简单,直接调用pinyin方法即可:

frompypinyinimportpinyin

print(pinyin('中心'))

运行结果:

[['zhōng'],['xīn']]

可以看到结果会是一个二维的列表,每个元素都另外成了一个列表,其中包含了每个字的读音。

那么如果这个词是多音字咋办呢?比如“朝阳”,它有两个读音,我们拿来试下:

frompypinyinimportpinyin

print(pinyin('朝阳'))

运行结果:

[['zhāo'],['yáng']]

好吧,它只给出来了一个读音,但是如果我们想要另外一种读音咋办呢?

其实很简单,只需添加heteronym参数并设置为True就好了,我们试下:

frompypinyinimportpinyin

print(pinyin('朝阳',heteronym=True))

运行结果:

[['zhāo','cháo'],['yáng']]

OK了,这下子就显示出来了两个读音了,而且我们也明白了结果为什么是一个二维列表,因为里面的一维的结果可能是多个,比如多音字的情况就是这样。

但这个多少解析起来有点麻烦,很多情况下我们是不需要管多音字的,我们只是用它来转换一下名字而已,而处理上面的二维数组又比较麻烦。

所以有没有一个方法直接给我们一个一维列表呢?有!

我们可以使用lazy_pinyin这个方法来生成,尝试一下:

frompypinyinimportpinyin

print(pinyin('聪明的小兔子'))

运行结果:

['cong','ming','de','xiao','tu','zi']

这时候观察到得到的是一个列表,并且不再包含音调了。

这里我们就有一个疑问了,为啥pinyin方法返回的结果默认是带音调的,而lazy_pinyin是不带的,这里面就涉及到一个风格转换的问题了。

我们可以对结果进行一些风格转换,比如不带声调风格、标准声调风格、声调在拼音之后、声调在韵母之后、注音风格等等,比如我们想要声调放在拼音后面,可以这么来实现:

frompypinyinimportlazy_pinyin,Style

style=Style.TONE3

print(lazy_pinyin('聪明的小兔子',>

运行结果:

['cong1','ming2','de','xiao3','tu4','zi']

可以看到运行结果每个拼音后面就多了一个声调,这就是其中的一个风格,叫做TONE3,其实还有很多风格,下面是我从源码里面找出来的定义:

NORMAL=0

#:标准声调风格,拼音声调在韵母第一个字母上(默认风格)。如:中国-``zhōngguó``

TONE=1

#:声调风格2,即拼音声调在各个韵母之后,用数字[1-4]进行表示。如:中国-``zho1ngguo2``

TONE2=2

#:声调风格3,即拼音声调在各个拼音之后,用数字[1-4]进行表示。如:中国-``zhong1guo2``

TONE3=8

#:声母风格,只返回各个拼音的声母部分(注:有的拼音没有声母,详见`#27`_)。如:中国-``zhg``

INITIALS=3

#:首字母风格,只返回拼音的首字母部分。如:中国-``zg``

FIRST_LETTER=4

#:韵母风格,只返回各个拼音的韵母部分,不带声调。如:中国-``onguo``

FINALS=5

#:标准韵母风格,带声调,声调在韵母第一个字母上。如:中国-``ōnguó``

FINALS_TONE=6

#:韵母风格2,带声调,声调在各个韵母之后,用数字[1-4]进行表示。如:中国-``o1nguo2``

FINALS_TONE2=7

#:韵母风格3,带声调,声调在各个拼音之后,用数字[1-4]进行表示。如:中国-``ong1uo2``

FINALS_TONE3=9

#:注音风格,带声调,阴平(第一声)不标。如:中国-``ㄓㄨㄥㄍㄨㄛˊ``

BOPOMOFO=10

#:注音风格,仅首字母。如:中国-``ㄓㄍ``

BOPOMOFO_FIRST=11

#:汉语拼音与俄语字母对照风格,声调在各个拼音之后,用数字[1-4]进行表示。如:中国-``чжун1го2``

CYRILLIC=12

#:汉语拼音与俄语字母对照风格,仅首字母。如:中国-``чг``

CYRILLIC_FIRST=13

有了这些,我们就可以轻松地实现风格转换了。

好,再回到原来的问题,为什么pinyin的方法默认带声调,而lazy_pinyin方法不带声调,答案就是:它们二者使用的默认风格不同,我们看下它的函数定义就知道了:

pinyin方法的定义如下:

defpinyin(hans,'default',strict=True)

lazy_pinyin方法的定义如下:

deflazy_pinyin(hans,'default',strict=True)

这下懂了吧,因为pinyin方法默认使用了TONE的风格,而lazy_pinyin方法默认使用了NORMAL的风格,所以就导致二者返回风格不同了。

好了,有了这两个函数的定义,我们再来研究下其他的参数,比如定义里面的errors和strict参数又怎么用呢?

在这里我们先做一个测试,比如我们传入无法转拼音的字,比如:

frompypinyinimportlazy_pinyin

print(lazy_pinyin('你好☆☆,我是xxx'))

其中包含了星号两个,还有标点一个,另外还包含了一个xxx英文字符,结果会是什么呢?

['ni','hao','☆☆,','wo','shi','xxx']

可以看到结果中星号和英文字符都作为一个整体并原模原样返回了。

那么这种特殊字符可以单独进行处理吗?当然可以,这里就用到刚才提到的errors参数了。

errors参数是有几种模式的:

u

下面是errors这个参数的源码实现逻辑:

def_handle_nopinyin_char(chars,errors='default'):

"""处理没有拼音的字符"""

ifcallable_check(errors):

returnerrors(chars)

iferrors=='default':

returnchars

eliferrors=='ignore':

returnNone

eliferrors=='replace':

iflen(chars)1:

return''.join(text_type('%x'%ord(x))forxinchars)

else:

returntext_type('%x'%ord(chars))

当处理没有拼音的字符的时候,errors的不同参数会有不同的处理结果,更详细的逻辑可以翻看源码。

好了,下面我们来尝试一下,比如我们想将不能转拼音的字符去掉,则可以这么设置:

frompypinyinimportlazy_pinyin

print(lazy_pinyin('你好☆☆,我是xxx',errors='ignore'))

运行结果:

['ni','hao','wo','shi']

如果我们想要自定义处理,比如把☆转化为※,则可以这么设置:

print(lazy_pinyin('你好☆☆,我是xxx',errors=lambdaitem:''.join(['※'ifc=='☆'elsecforcinitem])))

运行结果:

['ni','hao','※※,','wo','shi','xxx']

如上便是一些相关异常处理的操作,我们可以随心所欲地处理自己想处理的字符了。

最后再看下strict模式,这个参数用于控制处理声母和韵母时是否严格遵循《汉语拼音方案》标准。

下面的一些说明来源于官方文档:

当strict参数为True时根据《汉语拼音方案》的如下规则处理声母、在韵母相关风格下还原正确的韵母:

21个声母:bpmfdtnlgkhjqxzhchshrzcs(y,w不是声母)

i行的韵母,前面没有声母的时候,写成yi(衣),ya(呀),ye(耶),yao(腰),you(忧),yan(烟),yin(因),yang(央),ying(英),yong(雍)。(y不是声母)

u行的韵母,前面没有声母的时候,写成wu(乌),wa(蛙),wo(窝),wai(歪),wei(威),wan(弯),wen(温),wang(汪),weng(翁)。(w不是声母)

ü行的韵母,前面没有声母的时候,写成yu(迂),yue(约),yuan(冤),yun(晕);ü上两点省略。(韵母相关风格下还原正确的韵母ü)

ü行的韵跟声母j,q,x拼的时候,写成ju(居),qu(区),xu(虚),ü上两点也省略;但是跟声母n,l拼的时候,仍然写成nü(女),lü(吕)。(韵母相关风格下还原正确的韵母ü)

iou,uei,uen前面加声母的时候,写成iu,ui,un。例如niu(牛),gui(归),lun(论)。(韵母相关风格下还原正确的韵母iou,uei,uen)

当strict为False时就是不遵守上面的规则来处理声母和韵母,比如:y,w会被当做声母,yu(迂)的韵母就是一般认为的u等。

具体差异可以查看源码中tests/test_standard.py中的对比结果测试用例。

自定义拼音

如果对库返回的结果不满意,我们还可以自定义自己的拼音库,这里用到的方法就有load_single_dict和load_phrases_dict方法了。

比如刚才我们看到“朝阳”两个字的发音默认返回的是zhaoyang,我们想默认返回chaoyang,那可以这么做:

frompypinyinimportlazy_pinyin,load_phrases_dict

print(lazy_pinyin('朝阳'))

personalized_dict={

'朝阳':[['cháo'],['yáng']]

load_phrases_dict(personalized_dict)

print(lazy_pinyin('朝阳'))

这里我

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论