




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电商搜索和新闻推荐用户画像
--近实时更新
王成光
2016-7-10电商搜索和新闻推荐用户画像实时更新电商搜索基本组成相关实现技术新闻推荐用户画像用户画像组成用户画像实时更新流程实时计算:Storm/SparkStreaming/Light_drtc2016-7-102电商搜索基本组成搜索框自动补全提示导航筛选器关键词检索相关实现技术ES和Solr近年发展情况ESvsSolr全方位比较ES2.X新特性2016-7-103电商搜索组成--搜索框自动补全提示2016-7-104亚马逊淘宝京东优购电商搜索组成--导航筛选器2016-7-105天猫搜索筛选器电商搜索组成--导航筛选器2016-7-106优购搜索筛选器电商搜索组成--关键词搜索2016-7-1071.同音异形搜索2.部分匹配搜索3.缺失品牌建议搜索4.同义词搜索品牌别名品类别名电商搜索技术--当前全文检索项目2016-7-108项目介绍Lucene开发语言是Java,也是Java家族中最为出名的一个开源搜索引擎,在Java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,无中文分词引擎,不支持实时搜索。Solr
SolrCloudSolr是一个用java开发的独立的企业级搜索应用服务器,它提供了类似于Web-service的API接口,它是基于Lucene的全文检索服务器,也算是Lucene的一个变种,很多一线互联网公司都在使用Solr,也算是一种成熟的解决方案.ESElasticsearch是一个采用java语言开发的,基于Lucene构造的开源,分布式的搜索引擎.设计用于云计算中,能够达到实时搜索,稳定可靠.Elasticsearch的数据模型是JSON.SphinxSphinx是一个用C++语言写的开源搜索引擎,也是现在比较主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍(以空间换取性能),在检索速度和精准度和中文分词方面比lucene支持差。MysqlMysql全文索引,自4.0开始引入,最初只支持持MyISAM引擎,自MySQL5.6起也同时支持InnoDB引擎。对中文支持不好,性能也相对较差。电商搜索技术--ES集群2016-7-109电商搜索技术--SolrCloud集群2016-7-1010电商搜索索技术--ES和Solr综合比较较2016-7-1011特性ESSolr/SolrCloud索引1.新插入10万条耗时18.8秒2.更新2万新插入8万耗时64秒3.索引文件相对较大(7612k)1.新插入10万条耗时7.2秒2.更新2万新插入8万耗时24秒3.索引文件相对较小(5280K)shard中doc数差异大比较匀称查询返回10万条数据大概15毫秒返回10万条数据大概29毫秒健壮性比较强相对弱容错性比较强相对弱中文分词支持动态添加专有词支持度不好无模式实时索引与生俱有后期增加电商搜索索技术--ES和Solr近年发展展2016-7-1012电商搜索索技术--ES和Solr近年发展展2016-7-1013电商搜搜索技技术——ES2.x新特性性2016-7-1014ES集群节节点新新增部部落节节点API级显示示支持持文档档字段段级更更新ES2.X已经废废弃FacetES2.XAggregation功能增增强,,支持持嵌套套。ES2.X开始索索引类类型index_analyzer更改为为analyzerES2.2新增查查询分分析器器:得到查查询的详细细分析析信息息,它它可以以让你你了解解和调调试查查询性性能。。查询询的每每一部部分都都独立的的记录录了统统计时时间ES2.2增强地地理位位置字段:几乎重重写,,增加50%的入库效率率,提高20-50%的查询效率率ES2.x中文分词集集成也有所所调整新闻推荐用用户画像实实时更新用户画像基基本组成内容体系分分类更新周期分分类用户画像实实时更新流流程流式分布式式实时计算算StromSparkStreamingLight_drtc(原创:/lrtdc/light_drtc)2016-7-1015用户画像基基本组成—内容分类百度数据开开放平台大数据据用户画像像标签体系2016-7-1016用户画像基基本组成—更新周期分分类依据属性变变化频繁程程度:静态标签相对短时间间内变化不大的信息息,主要指指地域、年年龄、性别别、文化、职业、收入、生活习惯、消费习惯惯等人口属属性和商业业属性等动态标签用户不断变变化的行为信息息,主要指指产品类别别、活跃频频率、产品喜好、、产品驱动、使用习惯惯、产品消消费等产品品行为,在在互联网上上,用户行为,,可以看作用用户动态信息的唯一一数据来源等依据更新时时间长短::长期兴趣标标签:更新新频率一般般为数小时时或天短期兴趣标标签:更新新频率一般般为分钟级级或秒级2016-7-1017用户画像计计算相关算算法内容相似Jaccard|S∩T|/|S∪T|余弦定理修正余弦皮尔逊相关关系数2016-7-1018用户画像计计算相关算算法关联规则支持度(Support),表示项项集{X,Y}在总项集里里出现的概概率。公式为:Support(X→Y)=P(X,Y)/P(I)=P(X∪Y)/P(I)=num(XUY)/num(I)置信度((Confidence),置信度度表示在先先决条件X发生的情况况下,由关关联规则“X→Y”推出Y的概率。即即在含有X的项集中,,含有Y的可能性。。公式为:Confidence(X→Y)=P(Y|X)=P(X,Y)/P(X)=P(XUY)/P(X)提升度(Lift),提升度度表示含有有X的条件下,,同时含有有Y的概率,与与不含X的条件下却却含Y的概率之比比。公式为:Lift(X→Y)=P(Y|X)/P(Y)强关联规则则:满足最小支支持度和最最小置信度度的规则。。如果Lift(X→Y)>1,则规则“X→Y””是有效的强强关联规则则。如果Lift(X→Y)<=1,则规则“X→Y””是无效的强强关联规则则。特别地,如如果Lift(X→Y)=1,则表示X与Y相互独立。。2016-7-1019用户画像计计算相关算算法协同过滤::基于user协同过滤和和基于item协同过滤2016-7-1020用户画像计计算相关算算法主题模型逻辑回归兴趣时间衰减减牛顿冷却定理理:物体的冷却速度,与与其当前温度度与室温之间间的温差成正正比。本期得分=上一期得分xexp(-(冷却系数)x间隔的小时数数)2016-7-1021新闻推荐用户户画像实时更更新流程2016-7-1022实时计算框架架Storm2016-7-1023实时计算框架架Storm2016-7-1024实时计算框架架SparkStream
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏省前黄中学2025届高三下学期二模适应性考试(二)语文试卷
- 2025保险公司合同管理制度规范
- 甘肃省天水市2024~2025学年 高一下册第三阶段测试(5月月考)数学试卷附解析
- 福建省龙岩市2024-2025学年高二下册第二次月考(3月)数学试卷附解析
- 安徽省六安市2024~2025学年 高二下册4月月考B班数学试卷附解析
- 2025届广东省中考二模数学试卷
- 虚实界限-青年亚文化在数字时代的抵抗性边界-洞察阐释
- 上海交通大学医学院附属瑞金医院招聘笔试真题2024
- 陕西延安“优师计划地方专项”师范毕业生招聘笔试真题2024
- 2025年古文字基础试题
- 剖宫产术后肠梗阻护理课件
- 木材加工安全知识讲座
- 国开电大+可编程控制器应用实训+形考任务1
- 社区糖尿病病例管理中的药物治疗优化策略
- 老年性眼病知识讲座
- 肺结核的诊疗与护理
- 16J934-3中小学校建筑设计常用构造做法
- 智能传感器系统(第二版)(刘君华)1-5章
- 大学生应急救护智慧树知到课后章节答案2023年下西安欧亚学院
- 《高中生物必修3课件:细胞分裂和遗传》
- GB 4806.7-2023食品安全国家标准食品接触用塑料材料及制品
评论
0/150
提交评论