自然语言处理的现代做法分享PPT课件_第1页
自然语言处理的现代做法分享PPT课件_第2页
自然语言处理的现代做法分享PPT课件_第3页
自然语言处理的现代做法分享PPT课件_第4页
自然语言处理的现代做法分享PPT课件_第5页
已阅读5页,还剩103页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

揭开机器学习的面纱,张浩爱贝叶斯总经理,1,.,贝叶斯概率,一个改变我的世界观的男人,议程,中文分词中的算法逻辑,词向量是什么,机器深度学习很快就像Photoshop一样,2,.,统计学:在随机中寻找规律性,3,.,把统计学推向日本的男神:戴明,1900年10月14日出生,天秤座!(我也是哦!)21岁,获得怀俄明大学学士学位24岁,获科罗拉多大学硕士学位27-39岁,在美国农业部任职,担任数学物理学家。39-46岁,任美国人口统计局调查顾问50岁,应日本科技联盟邀请,担任日本企业界的讲师及顾问。51岁,日本最高企业管理大奖:戴明品质奖。60岁,获日本天皇颁发的二级瑞宝勋章。60-80岁,空白80岁,参与电视节目日本能,为何我们不能,一时在美国家喻户晓。美国大都会品管协会设立戴明奖。81岁-93岁,主持“四日研讨会”,讨论改进管理方法及如何提高生产力。93岁,与世长辞。,4,.,日本+统计学+4年美国本土制造业+数十年,WHY?,盲目驾驶:只看后视镜,开车往前走。上帝保佑,前面没有转变。,5,.,问:如何让企业看到未来?答:制造与行销成为一个系统,戴明:往往我们的眼界只看到企业内部的流程,而忽略企业外部这是错误的制造与行销是一个系统。,6,.,统计学存在于该系统的每个环节!,供应商的选择方法:损失函数,2.生产的管理方法:请清变异理论,3.消费者研究:利用统计学原则调查,7,.,连供应商评比使用统计学:损失函数,买最低的整体成本=标价加上平均品质损失。该买B,因为标价相同,而B的平均品质损失为6899C,比A的平均品质12500C低。Q=平均品质损失Q=s平方+M-t平方C,其中,C=常数,S平方为曲线的变异,M为曲线的平均值,t=目标值例如,规格为目标值t=350规格下限=100,上限=600对曲线A,平均值(M)和标准差S分别为,M=250,S=50所以,QA=50平方+(250-350)平方C=12500C对曲线B,平均值(M)和标准差S分别为,M=350,S=83QB=83平方+(350-350)平方C=6889C,供应商A品质:平均值250,标准差50供应商B品质:平均值350,标准差83该买A还是该买B呢?,规格下限,规格上限,成本曲线(抛物线),供应商A供应商B,8,.,生产管理:管理者必须认清“变异”,也就是“随机性”,对稳定系统的认识和理解了解什么是特殊原因与一般原因明确变异是无所不在的:在人与人之间,在生产过程中,在服务中,在客户满意上。了解稳定系统与不稳定系统的差异性了解统计数据中的不确定因素这种对于变异的研究,事实上很有必要的。如果不懂变异,每次发现问题时,都急着改变规则,最后只是能使系统过程越来越不稳定。记住,只有稳定的系统过程,才能预测。,9,.,理解“变异”统计学知识的企业应用,管制图(舒哈特图),平均不良率,平均+3个标准差,平均-3个标准差,10,.,成本变异,是特殊原因造成,还是一般原因造成?,11,.,如果你还不理解变异(随机性),那我们做个练习吧,每一次迟到都有一个特殊原因吗?,12,.,仔细想想,迟到的原因还真不少呀!,13,.,从起床到上班地点,原来会有这么多的“随机性”!,14,.,只要做一个简单的统计,迟到的原因就找到了,15,.,统计:在“随机性”中找到“规律”,16,.,那么,你能找到迟到的“规律”吗?,言归正传:创新来自哪里?,戴明:创新从哪里来?电灯不是客户提出来才发明的。没有人主动要求过汽车与电话机。创新并非来自客户,而来自那些对自己负责,追求自我满足的制造者。比如,法拉第,他是对自己负责才发现磁力的。在那个年代,有谁要求过磁力吗?,18,.,中国人口这么多,要一个一个的了解消费者吗?,练习:请数一数,下面这个照片里有多少人?,一个街道的人数都数不清,那全中国的人口数怎么可能能数的清呢?(刚数完,就挂了或者,又出生了N个BABY),19,.,所以,【统计学科】诞生了!,正态分布图,概率,-3s-2s-1s01s2s3s,20,.,现在,统计学直接带来了经济价值,21,.,市场调查的经典案例:代号“堪萨斯工程”,百事+市场调查=大胜可口可乐+市场调查=惨败,案件发生:美国纽约1982年,22,.,故事是这样的:,在80年代,百事可乐来势汹汹,它先是推出了“百事新一代”的系列广告,将促销的锋芒直指饮料市场最大的消费群体年轻人。百事可乐公司大胆地对顾客口感试验进行了现场直播,即在不告知参与者在拍广告的情况下,请他们品尝各种没有品牌标志的饮料,然后说出哪一种口感最好。试验过程全部直播,百事可乐公司的这次冒险成功了。,23,.,可口可乐的反击,24,.,可口可乐惨败,在“新可乐”全面上市的初期,市场的反应相当好,1.5亿人在“新可乐”面世的当天就品尝了它,但很快情况有了变化。在“新可乐”上市后的一个月,可口可乐公司每天接到超过5000个抗议电话,而且更有雪片般飞来的抗议信件。可口可乐公司不得不开辟了83条热线,雇佣了更多的公关人员来处理这些抱怨和批评。有的顾客称可口可乐是美国的象征,有的顾客威胁说将改喝茶水永不再买可口可乐公司的产品。更有忠于传统可口可乐的顾客组成了“美国老可乐饮者”的组织在发动抵制“新可乐”的运动,而且许多人开始寻找已停产的传统可口可乐,这些“老可乐”的价格一涨再涨。面市后两个月,“新可乐”的销量远远低于公司的预期值,不少瓶装商强烈要求改回销售传统可口可乐。,7月1l日,戈伊朱埃塔率领可口可乐公司的高层管理者站在可口可乐标志下向公众道歉,并宣布立即恢复传统配方的可口可乐的生产。,25,.,.,统计学的“气宗”与“剑宗”之争,频数统计学,贝叶斯统计学,26,47%,21%,32%,请问今天下午“下雨”的概率,怎么计算呢?,晴天的概率,雨天的概率,阴天的概率,47%,21%,32%,传统统计学的计算方法,晴天的概率,雨天的概率,答案:收集300天的数据,统计平均每个月下雨的频率,再看今天属于哪个月。,传统统计学认为:概率是固定值!,47%,21%,32%,贝叶斯统计学的计算方法,晴天的概率,雨天的概率,贝叶斯统计学认为:概率是变化的,随着观察而修正,锐普PPT论坛chinakui首发:,做个小测试一所学校里面有60%的男生,40%的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。问题1:随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大?问题2:假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?,做个小测试一所学校里面有60%的男生,40%的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。问题1:随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大?问题2:假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?,答案一,答案二,锐普PPT论坛chinakui首发:,做个小测试一所学校里面有60%的男生,40%的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。P(女生)=40%P(女生|长裤)=25%概率条件概率,贝叶斯的应用:你是不是经常去夜店?,已知男性:则去夜店重度可能性,42%,已知条件比较少,已知:男,已婚1名孩子,无收入去夜店重度可能性,31%,已知条件比较多,贝叶斯的应用:你是不是经常去夜店?,已知女性:则去夜店重度可能性,34%,已知条件比较少,已知:女性,单身,收入3K去夜店重度可能性,39%,已知条件比较多,可可脂护肤液+大的手提袋+锌、镁营养补充剂,你不说,数据会说,87%,96%,贝叶斯公式的深入理解,P(事实|观察)=,P(观察|事实)*P(事实)P(观察),.,南京市长江大桥,南京市/长江大桥,南京/市长/江大桥,.,南京市长江大桥,方案1:南京市/长江大桥,方案2:南京/市长/江大桥,自然语言处理:词向量典型方法:离散符号(字符串)该课程很枯燥,大家觉得很无聊。w0=该w1=课程w2=很w3=枯燥w4=,w5=大家w6=觉得w7=很w8=无聊w9=。等价表示方法:one-hot表示法,问题来了,词语-如果能用实数向量表示,词向量的由来,自然语言处理常用的几种网络,ThemeGalleryisaDesignDigitalContent&ContentsmalldevelopedbyGuildDesignInc.,前馈神经网络,卷积神经网络,循环神经网络,递归神经网络,44,.,前馈神经网络,45,.,循环神经网络,46,.,递归自编码器,47,.,递归神经网络,48,.,卷积神经网络,49,.,词向量表示,50,.,前馈神经网络,51,.,前馈神经网络,52,.,词向量分布,在低维、稠密的实数向量空间中,相似的词聚集在一起,在相同的历史上下文中具有相似的概率分布!,53,.,再回到贝叶斯:贝叶斯网络,阴天,我们看到了草地湿了,那么我想推测此时的天气阴天的概率。但是草地湿了有可能是下雨,也有可能是洒水车经过,洒水车,下雨,草地湿了,54,.,贝叶斯网络特点,当某一点的证据出现,整个网络中事件的概率都变化。所谓,看到镜中一丝丝白发,就改变你对人生的重大事件的概率的推断。,55,.,当我们发现自己数学细胞不足时,谷歌开放了一套机器深度学习的源代码!,Python+Tensorflow(直接干掉壁垒!),56,.,如何让计算机识别以下数字,57,.,每一张图片包含28像素X28像素,58,.,我们把这个数组展开成一个向量,长度是28x28=784,训练中的图像个数,训练中的标签结果,59,.,14行代码-深度学习后预测准确率99.2%,cross_entropy=-tf.reduce_sum(y_*tf.log(y_conv)train_step=tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)correct_prediction=tf.equal(tf.argmax(y_conv,1),tf.argmax(y_,1)accuracy=tf.reduce_mean(tf.cast(correct_prediction,float)sess.run(tf.initialize_all_variables()foriinrange(20000):batch=mnist.train.next_batch(50)ifi%100=0:train_accuracy=accuracy.eval(feed_dict=x:batch0,y_:batch1,keep_prob:1.0)printstep%d,trainingaccuracy%g%(i,train_accuracy)train_step.run(feed_dict=x:batch0,y_:batch1,keep_prob:0.5)printtestaccuracy%g%accuracy.eval(feed_dict=x:mnist.test.images,y_:mnist.test.labels,keep_prob:1.0),60,.,机器学习来的如此之快,如此容易,,这个世界在10年内会变成什么样?,61,.,还是从真正研究“未来”的学者那里,寻找线索吧,互联网的“未来”有什么,与企业有怎么样的联系,互联网时代,【复制】成了轻而易举的事。无论你在做什么,只要发布了,就会有大量的复制,这种复制会越来越无法阻挡,特别在“中国”复制带来了“流动”,但是,企业的出路在哪里?,答:当复制品免费时,你就要去销售那些无法复制的东西。,什么东西是“无法复制”呢,具体来说,空调的未来是什么?,当我们聚精会神的欣赏冰与火之歌的时候,室内的温度忽然变的很冷,就像我们处于冰原之上,当我们看着恐怖片时,一股冷风在特定的时刻吹来了,汽车未来是什么?,我离开办公室,走向我的汽车。在车里,我还能继续刚才被打断的故事。我的汽车将办公室的资料报告同步打开,并在我开车的时候高声朗读出来。我们在路上经过沿途建筑的时候,这些建筑物认知我的车,于是播放只针对我的广告。我的车还会根据目的地,告诉我哪条路是最不拥堵的最佳路线,并提前预约好了目标餐厅的座位,以及停车位,网购如何更懂TA?,智能算法,会给消费者最懂TA的推荐,你在读网页,网页也在读你,智能推荐算法,标签体系的建立,当“大数据”遇到了“场景”那会发生什么?,78,.,假设,我们有这样一套“场景库系统”,品类热水器消费者25-35岁搜索场景泡浴享受提神解乏运动后淋浴给孩子洗浴,场景适合产品型号Y适合度:94%痛点库:12条,场景适合产品型号Y2适合度:92%痛点库:20条,场景适合产品型号Y3适合度:95%痛点库:8条,场景适合产品型号Y适合度:91%痛点库:15条,79,.,因为场景不同,消费者的心理期望是不同的,时机地点诱因影响使用方式收获产品评测,夏日夜晚自家浴室保养时刻到了享受泡澡,让皮肤水嫩,容量够大,放水很快,夏日清晨自家浴室醒意朦胧快速淋浴,提神醒脑,唤醒活力,升温要快,夏日周末健身馆浴室高强度运动后快速淋浴,保持身体的清洁,水流强有力,夏日夜晚自家浴室宝宝玩耍后边玩边洗,清洁,水温舒服,适合度80%,适合度95%,适合度98%,适合度85%,80,.,场景库矩阵表:相同场景在不同消费年龄层上的研究侧重,70后80后90后00后场景矩阵表,P=23%P=28%P=11%P=2%,P=8%P=12%P=21%P=18%,B=18%B=22%B=5%B=1%,年龄,场景,用途1:渗透率分析(Penetration,比如年龄段的渗透率,三四线城市的渗透率。P值越大越好)用途2:该场景的使用频率(Frequency,代表该场景相对其它场景的频率高与低。F值越大越好)用途3:场景进入门槛(Barrier,测评中重度其它场景的用户是否愿意进入该场景。B值越小,进入难度越大),F=1.5天F=2天F=5天F=7天,F=3天F=3天F=1.2天F=1.8天,B=3%B=30%B=15%B=2%,81,.,场景矩阵表:让企业资源投放的更智慧,让更多的人进入该场景(增加渗透率),还是提升该场景下的重度使用者比例,还是发现并占领某个细分市场?,82,.,“场景研究”的产出是什么呢?,产品使用痛点是什么?,消费者幻想的场景是什么?,产品如何摆放?如何使用?,83,.,场景研究的“六要素”,每天的时间段特殊的日子,家里,交通工具上公司的办公桌前,商场,餐馆,电梯,是什么导致你有这个需求呢?有哪些触发条件呢?,如何使用呢?分为哪几步骤?哪些步骤是重要的,不可缺少?,生理收获心理收获,什么样的人会出现在这个场景里他们的特征是什么?有没有共性?谁是场景里的主角?谁收益最多?,84,.,“场景研究”模型:与品类直接关联,85,.,让我们近距离看一下【产品摆放场景】,注:图片与标签说明均为消费者在MROC平台上自主完成,86,.,每一个场景都是有温度的,家里的老式浴箱加热器坏了,我又从家电商场买了个电热水器给配套安上了,这样不用买新的浴室,又节省了空间,浴箱的花洒也是经历了好几次的更换了,接头的部分经常坏,而且花洒出水口也会赌塞,墙上的塑料小筐,本来买来要装筷子的,回家才发现底部没有漏水孔,老公要扔了,我给拿来贴厕所装梳子,发卡,牙膏之类的,谁来了都说不错,变废为宝了,嘿嘿,插在塑料筐上的发卡是我最喜欢的一个了,从某宝淘了好几个,米白的,粉红的,宝蓝的,就这个宝蓝的戴着很高档,不俗气,87,.,适合该场景的产品一定是有原因的,主要放置在入户花园,因为通风效果好。是大容量的容积式热水器,品牌是史密斯。比较适合全家同时用水而避免水压不稳定的问题。缺点就是太费气,而且距离卫生间距离较远,要放很久的凉水才能来热水。,屋顶有吊顶装有排烟管道和浴霸,用的是MOEN的花洒和调温器,还具有按摩洒水的功能,便于冲洗不同的身体部位,整个沐浴室不好的地方就在于没有放置台,只能靠窗台作为放置台,放有沐浴露和洗发水等。,洗脸台是用的科勒的龙头,感觉有品质感,88,.,即使最简洁的场景,也有背后的故事,暖气-安装了一片大的,暖和.,浴缸:占了很大地方,地面只照了一点,浴霸-特意买了个2个灯的,热水器-用了5.6年了华帝牌的.,花洒-热水器自带的不好使,还费水,特意找了个老式的,89,.,仅仅是看产品摆设场景是不够的,90,.,猜一下,在洗浴场景,有哪些步骤呢?,洗浴过程能有几步呢?,91,.,92,.,步骤繁多,不仅仅是女士消费者,93,.,步骤繁多,不仅仅是女士消费者,94,.,步骤虽然多,但都一样重要吗?,你觉得哪些步骤最重要,最值得花费时间久点?,你觉得哪些步骤不满意还希望改进?,洗浴环节中,改善到什么程度会让你惊喜特别满足?,95,.,通过洗浴过程(行为)区分消费者类型,而非年龄、性别,大数据验证,96,.,不同类型洗浴使用者的画像:,豪华型,不在意,节时型,有重点,大众型,水瓶座,双鱼座,白羊座,巨蟹座,摩羯座,水瓶座,白羊座,天蝎座,处女座,狮子座,双鱼座,狮子座,双鱼座,射手座,天秤座,97,.,研发创意库:场景为产品研发带来的创意点【热水器】,98,.,痛点库:水温【热水器】,燃气热水器每次关水后再次启动,总需要一段时间加热,冬天洗澡的时候,由于卫生间温度太低,需要洗浴一段时间才能让身体彻底的适应,热水器水温时间有点短。个人喜欢43-45的水温,但是热水器这个温度保持的不是很好,除非边洗澡边插着电(但是这样总觉得有危险),不满意的地方就是水温调节始终不合理。一般来说清洗身体的水温和清洗头发的水温不一样,龙头左右调节水温很是费力。,99,.,营销创意库:场景为营销带来的新意亲情的回忆,洗浴中的亲情时刻,因为以前洗冷水浴的时候,发冷,父亲说叫我唱歌就可以抗寒,持续了30年有多了。所以现在我洗浴的时候,都会唱歌。收货的感受就是帮助自己放松,沐浴中我的小习惯就是在沐浴的时候刷牙和洗内衣裤。这真是跟我妈妈学的。一直是这样子的。妈妈说洗澡的时候顺便洗内衣裤,因为是热水,这样内衣裤清洁起来为更干净一些。,剃须,跟爸爸学会的,坚持了很多年了,因为洗澡的时候接触热水的时间长,胡子得到了很大的软化,剃须起来舒服多了,而且非常方便,每次剃须完毕都感觉很清爽,人也年轻了很多。,100,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论