2 2 基于文本内容的垃圾短信识别_第1页
2 2 基于文本内容的垃圾短信识别_第2页
2 2 基于文本内容的垃圾短信识别_第3页
2 2 基于文本内容的垃圾短信识别_第4页
2 2 基于文本内容的垃圾短信识别_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于文本内容的垃圾短信识别目录1背景与目标2 数据探索3 数据预处理 文本的向量表示4 朴素贝叶斯5 模型训练与评价6 大数据挖掘专家2背景与目标大数据挖掘专家 3背景与目标大数据挖掘专家 4背景与目标垃圾短信 2018年,全国约84.0亿条(360互联网安全中心) 以银行诈骗、互联网虚假网购、电信诈骗等内容为主。大数据挖掘专家 5背景与目标我国目前的垃圾短信现状: 垃圾短信黑色利益链 缺乏法律保护 短信类型日益多变大数据挖掘专家 6背景与目标现状一:垃圾短信黑色利益链 由于短信的方便、低成本等特点,垃圾短信已经形成了黑色利益链,严重为害社会公众安全。 由于监管缺失,一些不良组织通过各式各样的

2、渠道收集个人手机信息,并将手机信息卖给有需求的商家和业务人员获取利益,同时商家等通过发送广告推销、诈骗等垃圾短息,来谋取利益,严重了短信用户的信息安全及正常生活。 主要的黑色利益链存在形式:站商家大数据挖掘专家 7背景与目标现状二:缺乏法律保护 公安部、信息、中国银行业监督管理委员会联合发出在全国范围内统一严机违法短信息等; 但目前规范短信业务的制度法来说,仍属空白;大数据挖掘专家 8背景与目标现状三:垃圾短信形式日益多变1.2.3.投放方式不断改进垃圾短信内容多变垃圾短信类型多样大数据挖掘专家 9背景与目标更多报告:360互联网安全中心(/report/)大数据

3、挖掘专家 10背景与目标案例目标:垃圾短信识别。基于短信文本内容,建立识别模型,准确地识别出垃圾短信,以解决垃圾短信过滤问题短信 1短信 2短信 3垃圾短信 1正常短信 0model 大数据挖掘专家11目录背景与目标12数据探索3数据预处理文本的向量表示4朴素贝叶斯5模型训练与评价6 大数据挖掘专家12总体流程抽取数据部署建模分词建模准备数据准备数据清洗评价与优化80万数据太大,抽取2万数据处理 大数据挖掘专家 13数据探索数据展示大数据挖掘专家 14id类别 短信内容 10商业的性那是维系其商业价值和地位的前提条件之一 21气 皇 数据探索观察数据,请思考: 建模前需要对文本数据做哪些处理?

4、 需要怎么评价模型的好坏?大数据挖掘专家 15数据探索数据分布对原始80万条数据进行数据探索,发现数据中并无存在空值,进一步查看垃圾短信和非垃圾短信的分布情况。大数据挖掘专家 16数据探索欠抽样垃圾短信及非垃圾短信中各取1万数据 通过增加少数类样本来提高少数类的分类性能处理后处理前垃圾短信过抽样非垃圾短信90%垃圾短信50%10%非垃圾短信50%欠抽样通过减少多数类样本来提高少数类的分类性能 大数据挖掘专家17数据探索数据抽取随机抽取上文的2W条文本处理后的数据的80%作为测试样本,其余作为测试集样本,基于上文建立的朴素贝叶斯模型进行训练。大数据挖掘专家 18目录背景与目标12 数据探索数据预

5、处理3 文本的向量表示4 朴素贝叶斯5 模型训练与评价6 大数据挖掘专家19数据预处理第一步 分词第二步 添词典去停用词第三步 绘制词云第四步大数据挖掘专家 20数据清洗数据预处理去除空格空格及全角情况下的空格 大数据挖掘专家 21判别 短信 0有图有哦1南口阿玛施新春第一批限量春装到店啦?春暖花开淑女裙、冰蓝色公主衫?气质粉小西装、冰丝长半裙、?皇 数据预处理x序列银行账户 电话、固话、QQ价格日期 大数据挖掘专家 22序号 判别 短信 1921亲,金汕教育春季班从x月x号起陆续开班啦!报名热线xxxxxxxx,或者直接回复需要补习的年级科目,我们会尽快跟您联系的。 2141xxxxxxxx

6、xxxxxxxxxxx沈宇 工商银行 2241各位老板,元旦节快乐!现在淘汰母猪漂亮的x.x元一斤,公猪x.x元一斤,如有需要苹联系xxxxxxxxxxx殷水良,谢谢!祝您六畜兴旺 2861您有来自莆田长富:x月x日至x月xx日订长富巴氏鲜奶x个月送同品xx份, 订奶热线:xxxxxxx或xxxxxxx,请注意查收。【群鸿】 3891老凤祥“春彩女人季”!x月x日起时尚黄金满xxxx减xxx,钻石珠宝缤纷让利, “爱唯一”美钻一口价稀售!更有绚彩K金买x送x。祝您三 数据预处理对于x字符串一般贷记卡的位数都是16位,借记卡位数根据银行不同, 是16位到19位不等,号C账户C 大数据挖掘专家23

7、序号 判别 短信中间存在空格等字符4851你打款号,农行,陈勇,xxxxxxxxxxxxxxxxxxx2141xxxxxxxxxxxxxxxxxxx沈宇 工商银行 38771建行刘艳清xxxxxxxxxxxxxxxxxxx,交行刘艳清xxxxxxxxxxxxxxxxxxx,工行何程龙 xxxxxxxxxxxx58861玉xxxxxxxxxxxxxxxxxxx。农行,车晓玉xxxxxxxxxxxxxxxxxxx。邮政,李炳侠 xxxxxxxxxxxxxx95951农业银行 xxxx xxxx xxxx xxxx xxx 户名 宁上林 建设银行 xxxx xxxx xxxx xxxx xxx 户

8、数据预处理对于x字符串手机(11位数) 固话(区号+号码)电话、固话T电话T 大数据挖掘专家24序号 判别 短信 121(长期诚信在本市作各类资格职称(以及、牌、等。祥:x x x x x x x x x x x 李伟%1951家长您好:旗帜数学本着提高学生成绩的宗旨,新学期开课啦。招生电话:xxxxxxxxxxx xxxxxxxxxxx地址:五完小西十 2241各位老板,元旦节快乐!现在淘汰母猪漂亮的x.x元一斤,公猪x.x元一斤,如有需要苹联系xxxxxxxxxxx殷水良,谢谢!祝您六畜兴旺 5041x.x-x.x来张家边苏宁!抢美的空调! 预存xx元:最低=xxx元,最高=xxxx元!预

9、约电话: 李店长:xxxxxxxxxxx6561冲上云霄男女神三对高空爱恋澳门风云x发哥斗智勇赢尽天下xD钟馗伏魔成龙演绎xD天将雄师订票xxxxxxxx【金字塔影城】 数据预处理对于x字符串数字+元、万 满xxx返xx现金券价格P价格P大数据挖掘专家 25序号 判别 短信 91一次价值xxx元王牌项目;可充值xxx元店内项目卡一张;可以参与V动好生活百分百抽奖机会一次!预约电话:xxxxxxxxxxx1420全新世嘉xxxx元购车红包 2241各位老板,元旦节快乐!现在淘汰母猪漂亮的x.x元一斤,公猪x.x元一斤,如有需要苹联系xxxxxxxxxxx殷水良,谢谢!祝您六畜兴旺 2711x雅轩

10、美发会所迎x周年店庆携手x.x节推出大型回馈活动 老会员续充可按充值金额百分 之十返送 充值xxx元送xxx元 xxxx元送x5041x.x-x.x来张家边苏宁!抢美的空调! 预存xx元:最低=xxx元,最高=xxxx元!预约电话: 李店长:xxxxxxxxxxx数据预处理对于x字符串年月日、号日期D时间D大数据挖掘专家 26序号 判别 短信 211红都百货x楼婷美专柜x.x节活动火热进行中。一年仅一次的最大活动力度!充值送:充xxx送xxxxxxx送xxxxxxx送xxxxxxx送xxxxxxxx送xxxx时间:x.xx-x.x日。欢迎各位美女们前来选购! 2581台州银行xxxx期,限量版

11、稳进账”理财产品:投资期限xx天(xxxx年x月xx日-xxxx年x月 xx日),预期最高收益率x.x%,认 4060xxxx年x月被列为南京市文物保护单位 2711x雅轩美发会所迎x周年店庆 携手x.x节推出大型回馈活动 老会员续充可按充值金额百分 之十返送充值xxx元送xxx元xxxx元送x5041x.x-x.x来张家边苏宁!抢美的空调! 预存xx元:最低=xxx元,最高=xxxx元!预约电话: 李店长:xxxxxxxxxxx数据预处理文本去重在数据的的储存和提取过程中,由于技术和某些客观的原因,造成了相同短信文本内容缺失等情况,因此需要对文本数据进行去重,去重即仅保留重复文本中的一条记录

12、。表一 原短信数据表重复文本大数据挖掘专家 27短信ID识别短信文本内容-0晚上的旅游项目组织大家观看泰山封禅表演-0晚上的旅游项目组织大家观看泰山封禅表演数据预处理中文分词中文分词是指以词作为基本单元,使用计算机自动对中文文本进行词语的切分,即使词之间有空格,这样方便计算机识别出各语句的重点内容。分词之前:将汽车工程和建筑设计完美融为一体中文分词分词结果:将汽车工程和建筑设计完美融为一体大数据挖掘专家 28数据预处理正向最大匹配法词库:“有效”、“效率”大数据挖掘专家 29“有效”“率”“的”“方法”分词“有效率的方法”逆向正向数据预处理NLP概率图:HMM针对中文分词应用-Viterbi算

13、法利用Viterbi算法找出一条概率最大路径。BBBBBBBBBBBBBBEEEEEEEEEEEEEEMMMMMMMMMMMMMMSSSSSSSSSSSSSS大数据挖掘专家 30高 提 一 进 平 水 活 生 和 入 收 民 人 步 数据预处理python 结巴分词(jieba)支持三种分词模式 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典大数据挖掘专家 31数据预处理停用词过滤 中文表达中最常

14、用的功能性词语是限定词,如“的”、“一个”、“这”、“那”等。这些词语的使用较大的作用仅仅是协助一些文本的名词描述和概念表达,并没有太多的实际含义。 而大多数时候停用词都是非自动生产、人工筛选录入的,因为需要根据不同的研究主题人为地判断和选择合适的停用词语。停用词过滤结果大数据挖掘专家 32源数据: 家长您好:旗帜数学本着提高学生成绩的宗旨,新学期开课啦。招生电话:地址:五完小西十分词之后: 家长 您好 旗帜 数学 本着 提高 学生 成绩 的宗旨新学期开课 啦招生 电话 地址 五完小 西十停用词过滤: 家长您好 旗帜 数学 提高 学生 成绩 宗旨新学期 开课 招生 电话地址五完小西十数据预处理

15、绘制词云图词云图是文本结果展示的有利工具,通过词云图的展示可以对短信文本数据分词后的高频词予以视觉上的强调突出效果,使得阅读者一眼就可获取到主旨信息。垃圾短信正常短信大数据挖掘专家 33背景与目标案例目标:垃圾短信识别。基于短信文本内容,建立识别模型,准确地识别出垃圾短信,以解决垃圾短信过滤问题短信 1垃圾短信 1正常短信 0短信 2短信 3model 大数据挖掘专家34思考如何将文本数据放入模型?您好刚刚打电话新理想花园女神节即将来临赠送奢宠垃圾短信 1正常短信 0model宜昌长江市场盼盼木门舒心三八节关爱特大好消息禹鑫天赋交房大数据挖掘专家 35目录背景与目标12数据探索3数据预处理文本

16、的向量表示4朴素贝叶斯5模型训练与评价6 大数据挖掘专家36文本的向量表示文本分类实例1. My dog has flea problems, help please.2. Maybe not take him to dog park is stupid.3. My dalmation is so cute. I love him.4. Stop posting stupid worthless garbage.5. Mr licks ate mu steak, what can I do?.6. Quit buying worthless dog food stupid#文档标签:是否是消极

17、情感 labels = 0,1,0,1,0,1大数据挖掘专家 37文本的向量表示One-Hot表达从非结构化数据到结构化数据转化将每个词表示为一个长长的向量,词袋:所有词的不重复构成a, ate, cat, dolphin, dog, homework, my, sandwich, the文本1:My dog ate my homework.文本2:My cat ate the sandwich.文本3:A dolphin ate the homework.a, ate, cat, dolphin, dog, homework, my, sandwich, the a:1 0 0 0 0 0

18、0 0 0ate:0 1 0 0 0 0 0 0 0大数据挖掘专家 38文本的向量表示One-Hot表达 文本转化为词向量矩阵 a, ate, cat, dolphin, dog, homework, my, sandwich, the 文本1:0 1 0 0 1 1 1 0 0 文本2:0 1 1 0 0 0 1 1 1 文本3:1 1 0 1 0 1 0 0 1 缺陷:忽略了句子词频信息文本1:My dog ate my homework.文本2:My cat ate the sandwich.文本3:A dolphin ate the homework. 大数据挖掘专家39文本的向量表示

19、TFIDF权重策略增加词频信息 文本1:0 1 0 0 1 1 2 0 0 文本2:0 1 1 0 0 0 1 1 1 文本3:1 1 0 1 0 1 0 0 1“my”在句子中出现了2次文本1:My dog ate my homework.文本2:My cat ate the sandwich.文本3:A dolphin ate the homework.归一化:避免句子长度不一致问题,即文档TF信息 文本1:0 1/5 0 0 1/5 1/5 2/5 0 0“my”在句子中出现了2次 文本2:0 1/5 1/5 0 0 0 1/5 1/5 1/5 文本3:1/5 1/5 0 1/5 0 1

20、/5 0 0 1/5 如何体现生成词袋中的词频信息?大数据挖掘专家 40文本的向量表示TFIDF权重策略 如何体现生成词袋中的词频信息? a(1), ate(3), cat(1), dolphin(1), dog(1), homework(2), my(3), sandwich(1), the(2) 词袋收集了所有文档当中的词,所以词袋的统计基数是文档数。 词条的文档频率:即某个词在几个文档(x)中出现,除以文档数(y),x/y a(1/3), ate(3/3), cat(1/3), dolphin(1/3), dog(1/3), homework(2/3), my(2/3), sandwic

21、h(1/3), the(2/3) 词袋的IDF权重如下: a log(3/1), ate log(3/3), cat log(3/1), dolphin log(3/1), dog log(3/1), homework log(3/2), my log(3/2), sandwich log(3/1), the log(3/2)大数据挖掘专家 41文本的向量表示TFIDF权重策略 权重策略文档中的高频词应具有表征此文档较高的权重,除非该词也是高文档频率词 TF:Term frequency即关键词词频,是指一篇文档中关键词出现的频率N:单词在某文档中的频次TF = N / MM:该文档的单词数

22、IDF:Inverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式D:总文档数 Dw:出现了该单词的文档数D )IDF = log(DWTF - IDF = TF IDF大数据挖掘专家 42文本的向量表示文本分类实例sklearn.feature_extraction.text#文本特征提取模块.5.6.7.分词;去除停用词;转换成词频向量转换成TF-IDF权重矩阵特征提取,构建模型1.#转化词频向量函数#转化词频向量方法#获取单词集合方法#获取数值矩阵方法#转化tf-idf权重向量函数#转成tf-idf权重向量方法CountVecto

23、rizerfit_transform() get_feature_names()toarray() TfidfTransformerfit_transform(counts)2.3.4.大数据挖掘专家 43文本的向量表示文本分类实例from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer from sklearn.naive_bayes import GaussianNB corpus = My dog has flea problems, help please., Maybe not take

24、him to dog park is stupid., My dalmation is so cute. I love him my., Stop posting stupid worthless garbage., Mr licks ate my steak, what can I do?., Quit buying worthless dog food stupid labels = 0,1,0,1,0,1 大数据挖掘专家 44文本的向量表示文本分类实例#转化tf-idf权重向量函数#转化词频向量函数transformer = TfidfTransformer()vectorizer =

25、CountVectorizer()#转成词向量#单词集合#转成ndarrayword_vec = vectorizer.fit_transform(corpus)words = vectorizer.get_feature_names()word_cout = word_vec.toarray()tfidf = transformer.fit_transform(word_cout)#转成tf-idf权重向量#转成ndarraytfidf_ma= tfidf.toarray()大数据挖掘专家 45文本的向量表示TF-IDF权值向量0.,0.,0.,0.,0.,0.,0.27912828,0.4

26、0318254,0.,.0.,0.,0.,0.,0.,0.,0.25617597,0.,0.,0.,0.,0.,.0.,03240.,0.57964,0.,0.,0.,0.27912828,0.,.0.,0.,0.,0.,0.,0.,0.25617597,0.,0.,0.,0.,0.,.0.,0.,0.,0.,0.,0.,0.27912828,0.40318254,0.,.0.,0.,0.,0.,0.,0.,0.25617597,0.,0.,0.,0.,0.,.1. My dog has flea problems, help please.2. Maybe not take him to d

27、og park is stupid.3. My dalmation is so cute. I love him my.4. Stop posting stupid worthless garbage.5. Mr licks ate mu steak, what can I do?.6. Quit buying worthless dog food stupid#文档标签:是否是消极情感 labels = 0,1,0,1,0,1大数据挖掘专家 46文本的向量表示文本分类实例clf = GaussianNB().fit(tfidf_ma:4,:,labels:4)res = clf.predic

28、t(tfidf_ma4:,:) 大数据挖掘专家 47目录背景与目标12数据探索3数据预处理文本的向量表示45朴素贝叶斯模型训练与评价6 大数据挖掘专家48朴素贝叶斯引例 已知:非洲人10个中有9个黑人,1个白人,10个人中有3个黑人7个白人。 问:你在街上遇到1个黑人,那么他是非洲人还是人? 注:全球非洲12亿人口,3.6亿人口 大数据挖掘专家49朴素贝叶斯引例A1:非洲人A2:人B1:白人B2:黑人非洲人10个中有9个黑人:P(B | A ) = 0.921P(B2 | A2 ) = 0.310个人中有3个黑人:P(A1 | B2 ) P(A2P(A1 | B2 ) P(A2or| B )|

29、 B )22大数据挖掘专家 50朴素贝叶斯贝叶斯定理贝叶斯公式:P(AB) = P(A)P(B | A)P(A | B) = P(B | A)P( A)= P(B)P(A | B)P(B)P(AB) = P(A)P(B)当A与B相互独立时:P(A | B ) = P(A1)P(B2 | A1) =12*0.912P(B )Q * P(B )P(A2P(B )Q* P(B )22大数据挖掘专家 51朴素贝叶斯“朴素”二字从何而来?x:样本属性,x1:色泽,x2:根蒂,.y:样本标签,是否是好瓜P( y)P(x | y)无法或很难获得P( y | x) =P(x)P(x | y) = P(x ,

30、x , x , x ,. | y)1234假设样本属性相互独立,则:P(x | y) = P(x | y)P(x| y)P(x | y)P(. | y)123大数据挖掘专家 52编号 色泽 根蒂 敲声 纹理 脐部 触感 密度 含糖率 好瓜 测1青绿 蜷缩 浊响 清晰 凹陷 硬滑 0.6970.46? 编号 色泽 根蒂 敲声 纹理 脐部 触感 密度 含糖率 好瓜 1乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 0.7740.376是 2乌黑 蜷缩 浊响 清晰 凹陷 硬滑 0.6340.264是 3青绿 蜷缩 沉闷 清晰 凹陷 硬滑 0.6080.318是 4浅白 蜷缩 浊响 清晰 凹陷 硬滑 0.5560

31、.215是 5青绿 稍蜷 浊响 清晰 稍凹 软粘 0.4030.237是 朴素贝叶斯“朴素”二字从何而来?得到朴素贝叶斯表达式:P( y | x) = P( y)P(x | y)P(x)dp( y)i=1=P(x | y)p(x)iP(x)相等对于样本两个类别而言dmax h( y)= p( y)P(x | y)i故目标函数为i=1y的取值:是好瓜;不是好瓜大数据挖掘专家 53编号 色泽 根蒂 敲声 纹理 脐部 触感 密度 含糖率 好瓜 测1青绿 蜷缩 浊响 清晰 凹陷 硬滑 0.6970.46? 编号 色泽 根蒂 敲声 纹理 脐部 触感 密度 含糖率 好瓜 1乌黑 蜷缩 沉闷 清晰 凹陷 硬

32、滑 0.7740.376是 2乌黑 蜷缩 浊响 清晰 凹陷 硬滑 0.6340.264是 3青绿 蜷缩 沉闷 清晰 凹陷 硬滑 0.6080.318是 4浅白 蜷缩 浊响 清晰 凹陷 硬滑 0.5560.215是 5青绿 稍蜷 浊响 清晰 稍凹 软粘 0.4030.237是 朴素贝叶斯计算P(xi | y)P青绿是P (色泽青绿好瓜是)3/8=0.37P青绿否P (色泽青绿好瓜否)3/9=0.333dmax h( y) = p( y)P(xi | y)i=1P (根蒂蜷缩好瓜是)5/8=0.375P蜷缩是P蜷缩否P (根蒂蜷缩好瓜否)3/9=0.333 P密度:0.697是P (密度0.697

33、好瓜是)exp(-(0.697 - 0.574)2 ) =1.959= 12p 0.1292 0.1292exp(- (0.697-0.496)2 ) = 1.2031=2p 0.1952 0.1952P密度:0.697否P (密度0.697好瓜否) 大数据挖掘专家 54朴素贝叶斯dmax h( y) = p( y)P(xii=1| y)计算h (好瓜是) P (好瓜是) xxxxxP青绿是P蜷缩是P浊响是P清晰是P凹陷是xxx0.038P硬滑是P密度:0.697是P含糖:0.460是h (好瓜否)P (好瓜否) xxxxxP青绿否P蜷缩否P浊响否P清晰否P凹陷否xxx6.80 x 10-5P

34、硬滑否P密度:0.697否P含糖:0.460否分类结果:好瓜大数据挖掘专家 55编号 色泽 根蒂 敲声 纹理 脐部 触感 密度 含糖率 好瓜 测1青绿 蜷缩 浊响 清晰 凹陷 硬滑 0.6970.46? 朴素贝叶斯拉普拉斯平滑处理 缺陷:受样本个数限制,若某个属性值在训练集中没有与某个同类同时出现过,如P清脆是P (敲声清脆好瓜是)0/8=0,则连乘公式 h (好瓜是)则必为零,其他属性取任意值都不能改变这一结论。 修正方法:拉普拉斯平滑处理| +1P( y) = | DyP( y) = | Dy| D | +N| D | +1P(x | y) = | Dy ,xP(x | y) = | Dy

35、 ,x| Dc | +Ni| Dc |Ni 表示训练集样本在第 i 个属性上的取值个数 N 表示训练集样本的类别数,大数据挖掘专家 56朴素贝叶斯拉普拉斯平滑处理| +1P( y) = | DyP( y) = | Dy| D | +N| D | +1P(x | y) = | Dy ,xP(x | y) = | Dy ,x| Dc | +Ni| Dc |大数据挖掘专家 57朴素贝叶斯算法处理流程大数据挖掘专家 58高斯朴素贝叶斯是连续变量时,我们可以使用高斯朴素贝叶斯 原始的朴素贝叶斯只能处理离散数据,当(Gaussian Naive Bayes)完成分类任务。 当处理连续数据时,一种经典的假设

36、是:与每个类相关的连续变量的分布是基于高斯分布的,故高斯贝叶斯的公式如下:(v - my) 1P(x = v | y ) = exp(- k)2s 2ik2ps 2ykyk 其中 m,s2x表示表示全部属于类 y的样本中变量的均值和方差kyiyk大数据挖掘专家 59朴素贝叶斯Python实现 高斯朴素贝叶斯 构造方法:sklearn.naive_bayes.GaussianNB GaussianNB 类构造方法无参数,属性值有: class_prior_ #每一个类的概率 theta_ #每个类中各个特征的平均 sigma_ #每个类中各个特征的方差 注:GaussianNB 类无score

37、方法大数据挖掘专家 60朴素贝叶斯Python实现多项式朴素贝叶斯用于文本分类构造方法:sklearn.naive_bayes.MultinomialNB(alpha=1.0 #平滑参数, fit_prior=True #学习类的先验概率, class_prior=None) #类的先验概率大数据挖掘专家 61朴素贝叶斯Python实现高斯朴素贝叶斯import numpy as npX = np.array(-1, -1, -2,-1, -3, -2,1,1,2,1,3,2)Y = np.array(1, 1, 1, 2, 2,2)from sklearn.naive_bayesimport

38、GaussianNBclf = GaussianNB()clf.fit(X, Y)大数据挖掘专家62朴素贝叶斯Python实现多项式朴素贝叶斯import numpy as npX = np.random.randint(5, size=(6,100)y = np.array(1, 2, 3, 4, 5, 6)from sklearn.naive_bayesimportMultinomialNBclf = MultinomialNB()clf.fit(X, y)大数据挖掘专家63目录背景与目标12数据探索3数据预处理文本的向量表示4朴素贝叶斯5模型训练与评价6 大数据挖掘专家64模型训练与评价sklearn. model_selection.train_test_split随机划分训练集和测试集 train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和testdata,形式为: X_train,X_test, y_train, y_test = model_selection.train_test_split(x_data, y_target, test_size=0.4,random_state=0)大数据挖掘专家

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论