下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、文档名称:组附件出价建议详细设计bdforcast2.1.4 出价建议引入 crm网络技术(北京) 所有,()网络技术(北京)- 1 -模块名称展现概率提示与分析所属系统dr-budget/bdforcast2.1.4模块项目吴清华作者吴清华文档提交日期2011.3.9文档名称:组附件出价建议详细设计修改网络技术(北京)- 1 -No修改后版本号修改内容简介修改日期修改人1V1.0全文2011-03-09吴清华文档名称:组附件出价建议详细设计目 录Bdanalyze1.0.0 预算分析详细设计错误!未定义书签。123背景1名词解释1设计目标13.13.23.33.43.5实现的功能1设计的性能
2、指标错误!未定义书签。系统环境(可选)2假设及与其它模块.2相关软件及硬件245设计思路及折衷2服务模块设计错误!未定义书签。5.1模块架构、类、流程及说明错误!未定义书签。5.1.15.1.25.1.3模块架构图及说明错误!未定义书签。类图错误!未定义书签。主线程流程图及说明错误!未定义书签。5.25.35.45.55.6数据结构及说明错误!未定义书签。与其它模块的接口错误!未定义书签。异常处理错误!未定义书签。配置项说明错误!未定义书签。各子模块设计错误!未定义书签。5.6.15.6.25.6.35.6.45.6.5数据子模块错误!未定义书签。算法子模块错误!未定义书签。网络服务子模块错误
3、!未定义书签。文件更新子模块错误!未定义书签。动态子模块错误!未定义书签。6计算模块设计26.1 各子模块设计错误!未定义书签。6.1.16.1.26.1.3下最大点击和消费子模块错误!未定义书签。模块错误!未定义书签。流量最高预算和平均预算子模块错误!未定义书签。7风险评估及对其它模块/系统影响(可选)107.1 已知的或可预知的风险107.2 与其它模块/系统可能的影响10设计评审意见10附件及参考资料1189网络技术(北京)- 2 -文档名称:组附件出价建议详细设计1 背景是和客户之间的桥梁,一方面负责帮助和指导客户学会使用,管理账户,不断提升客户 ROI,提高客户对的忠诚和依赖度的作用
4、。另一方面,作为利益的代表,客服是提高客户消费,促进长期增长的驱动动力之一。基于以上的,有两个优势特征:一,更加熟悉和了解客户,积累了丰富的跟不同客户打交道的经验,客户对的信任度和依赖性也会更高,所以从入手去影响客户比直接影响客户会更有效果;二,并有投机的动力,反而会利用尽量影响客户;综上,我们决定从为切入点,通过指导出价,进而影响客户出价,从而达到提升的效果。结构化词库是 CRM 中为提供快速使用词库的系统工具,立足于帮助更好地为客户提交质量高,并且与客户业务范围关联紧密的,从而可以快速输出为客户定制的结构化包,提升方案质量和制作效率。目前结构化词库只是做到了推荐这个环节,获得推荐以后还需要
5、线下制作创意和设定出价等步骤才能形成完整方案,后期工作量仍然比较大,希望能够在系统中完成完整方案的制作,以提高效率。综合的优势以及当前结构化词库进一步完善的需求,决定在结构化词库中引入创意制作和出价建议环节,解决需求的同时,利用系统建议出价达到引导出价提升的目标。2 名词解释左侧首屏:左上(pp 或ppim)区域排名第 1第i 的位置(i 默认取 3):与web 物料列表页面看到的生效状态的定义是一致的:自身未被暂停、已被激活、生效已被人工审核通过、已被审核通过,出价大于起价的未删除的;展现概率:一个(winfoid)在精确触发下在某个区域(首屏或首位)一段时间的展现次数/该广告在精确触发下该
6、时间段内(时间段的定义请见正文)的总展现次数;这里展现次数的计算不包括外部(如微软等)和小频道的展现情况,仅考虑 cmatch 为 201、204 和 225;首屏展现价格:对于一次检索,如果要出在左侧首屏需要的出价。3 设计目标3.1 实现的功能网络技术(北京)第 1 页 共 11 页文档名称:组附件出价建议详细设计3.1.1出价建议计算竞价客户数!=0 且 7 天历史检索次数=C 的(word)的建议出价.除去以上情况下的,均采用行业的出价。3.2 系统环境(可选)计算共有两轮 map reduce,第一轮:每天的 asp 日志,输出 query 以及对应的首屏展现价格列表。第二轮:累计
7、7 天的信息,输出检索次数=C 的 query 以及首屏展现价格列表。3.3 假设及与其它模块3.4 相关软件及硬件建议配置:4 设计思路及折衷5 模块设计5.1出价建议5.1.1 aspl一天的 asp 日志文件对于每一条 asp 日志,根据 cmatch(201,204,225)挑选出属于的检索,并计算属于首屏的最后一个位置(即第3 位的)的q*bid, 计算左侧队列中的最小q 值 q=avg_rate。其中 avg_q 是左侧的平均 q 值。1. 如果首屏不满 3 条,则说明对应的只需要出一定的价格就可以展现在首屏。因此,首屏展现价格=默认的建议价格,在hadoop 中采用0 来代替,然
8、后在单机上处理时替换成默认的建议价格。2. 如果首屏数=3, 则首屏展现价格 screen_bid=q*bid/q+0.01对于每一次检索,map 阶段输出:query 签名值, screen_bid,以 query 作为 key 来分桶。第一轮 reduce:输出 query 签名值、bid 列表1. query 次数 阈值 MAX_QUERY_PV,则进行抽样, 最后输出的 bid 个数为 MAX_QUERY_PV.网络技术(北京)第 2 页 共 11 页项目内存硬盘操作系统数目计算模块16Glinux文档名称:组附件出价建议详细设计将同一个 query 对应的各个 bid 取值组成集合,
9、采用逗号进行分割。如果 bid 集合的元素个数超过 MAX_QUEYR_PV, 则去掉 0 ( 如果全部为 0 , 则输出MAX_QUERY_PV 个 0)。如果去掉 0 后,小于 MAX_QUERY_PV 个 bid,则小于的部分用 0 补充。如果大于 MAX_QUERY_PV 的话,则对剩余的 bid 进行等距离抽样。间隔的距离为: (bid_num_new 1)/(MAX_QUERY_PV 1), 这样可以保证 bid 列表中的最小 bid 和最大bid 都包含进来。其中 bid_num_new 是去掉 0 之后的 bid 个数。l统计 7 天的结果文件map: catreduce:将
10、7 天的 bid 列表合并成一个,bid 之间用逗号分割,对 bid 进行排序后输出.统计 7 天 query 的检索次数(即:7 天所有 bid 的个数),如果 query 的次数C(配置的最低展现次数),则不做处理。否则:1. query 次数 阈值 MAX_QUERY_PV,则进行抽样, 最后输出的 bid 个数为 MAX_QUERY_PV.处理方式与第一轮 reduce 是一样的。对 bid 进行排序输出。(采用 python 实现)5.1.1.1 流程图及说明第一轮 map 流程图如下:(src 增加 219 判定,用于区分某些非大搜索的内部 asp 请求)网络技术(北京)第 3 页
11、 共 11 页文档名称:组附件出价建议详细设计否Asp日志同时包含src=1,204,213是否Pn=0是包含cmatch=201,204,225,左侧=3是否输出query签名, q*bid/(avg_rate)输出query签名,0备注:min_q 更改为 avg_q, 如果左侧是 pp 队列,则使用 ppq 计算平均 q 值,如果左侧是 ppim 队列,则使用 leftq 计算平均 q 值。第二轮map:catreduce:将 7 天的bid 集合再次合并成一个集合,如果 bid 列表个数=C,则输出 query”t”bid 列表。在输出 bid 列表的时候,如果 bid 个数 bid_
12、num 超过了 MAX_QUERY_PV 个,则去掉 0,采用等距离抽样, 方法同第一轮的 map reduce。(采用 python 实现)5.1.1.2 数据结构与配置项第一轮 map网络技术(北京)第 4 页 共 11 页cal_conf获取第3位的q*bid(如果是pp队列,则用ppq,如果是ppim,则用leftq)是遍历左侧的,计算avg_q一条asp日志文档名称:组附件出价建议详细设计5.1.1.3 与其他子模块接口集群上 7 天的 asp 展现日志5.1.2 出价计算模块将 hadoop 上asp后的结果文件到单机上。文件数据格式:query 签名, bid 列表(以逗号分隔)
13、其他外部输入文件:1.2.3.atom wordlist 文件:wordid,word 字面行业分类文件(wordid、行业),建立 trade_hash行业价格文件(tradid、价格)4.5.库文件,用于统计 hash_usernum竞价区间阈值文件,建立数组 thres_percent输出文件:wordid、bid、word 字面。整体处理过程(拆分来做):1.竞价区间文件,建立数组 thres_percentuser_num 字段中。(hash_word 全集表示有生效客户数的 wordid 集合)3.atom 文件,将字面填充到 hash_word中的 word 字段,同时生成has
14、h_word_id,注意:此处需要对 word 进行预处理,然后求 md5 值,处理网络技术(北京)第 5 页 共 11 页2.库文件,统计每个的竞价客户数,填充到 hash_word 中的q_rate: first_page_pos: comlog device_num: 1procname: rp_asp_parser level: 4 comlog.devicetype : ULLOG path : ./logfile :recmd_price.log syslevel : 16size : 2048open : 1文档名称:组附件出价建议详细设计函数与 pvstat 的处理保持一致。4
15、.遍历 hash_word,查找数组 thres_percent,根据竞价客户数找到对应的百分比,填充到 hash_word中的 thres 字段中。5.行业价格文件,建立 hash_tradeprice6.行业分类文件(wordid, tradeid),查找hash_tradeprice, 找到对应的建议出价,查找hash_word,将对应的 price 填充到 trade_price 字段。 7.asp后的文件,将 query 进行,然后查找 hash_word_id 找到对应的 wordid,然后查找 hash_word 找到对应的的信息, 将bid 列表中的 0 替换成 trade_p
16、rice, 然后进行排序,取出 index = thres/100*bid_num -1 所对应的价格作为出价。输出 wordid、出价、word 字面。如果查找不到,说明没有生效的竞价客户数,则不用输出对应的建议出价。拆分成以下 3 个小模块:1.A.计算 wordid 对应的阈值(可参考展现概率 show_rate/calc_cwords/src/calc_cwords.cpp) 库文件字段分别为:1.winfoid 2.unitid 3.planid 4.userid 5.wordid该文件,建立 bsl:hashset _hs_wordusr, 其中key = (wordid 32)
17、+ userid;B.遍历_hs_wordusr,计算每个 wordid 对应的 userid 数,生成 bsl_hashmap_hm_usrcntC.竞价区间阈值文件,字段分别为:1.竞价客户数起始值,2.竞价客户数截至值,3.对应的百分比数值建立数组 usercnt_thres,分别保存(竞价客户数起始值,竞价客户数截止值,百分比)D. 遍历_hm_usrcnt,根据每个 wordid 对应的 usercnt 数,查找 usercnt_thres 数组,找到对应的百分比,输出:wordid”t”usercnt_thres 文件。2.A.每个 word 对应的默认建议价格 (也可以用 pyt
18、hon,hash一下即可)计算行业对应的价格建立 bsl:hashmap _hm_tradeprice; 其中 key 为:tradeid,value 为 price.B.行业分类文件,文件字段分别为: 1. wordid; 2. tradeid; 3. word 字面查找_hm_tradeprice,找出每个 wordid 对应的行业的价格输出:wordid”t”price3.生成最后的文件a)步骤 1 生成的文件, bsl:hashmap _hm_wordinfo; 其中key=wordid, value 中的 thres=文件中的第二个字段取值,price=0.0;步骤 2 生成的文件,
19、将文件的第二个字段,即默认价格填充到_hm_wordinfo 中的default_price 字段。b)c)wordlist 文件,文件字段格式为:wordid t word(以“t”分割,word 字面可能有特殊网络技术(北京)第 6 页 共 11 页文档名称:组附件出价建议详细设计字符,所以第一个”t”之前的部分是 wordid,其余部分是 word 字面)查找_hm_wordinfo, 如果存在,则将 word 字面填充到_word_info_t.word 字段,同时生成bsl:hashmap_hm_query_id, 其中 key=处理后的 word 字面的 md5 值,value=w
20、ordid. 此处的处理函数直接调用展现概率项目中的 word_pretreat 函数。d)过的 asp 结果文件,文件字段内容:1. query 签名值; 2.bid 列表(列表元以逗号分隔)间根据 query 签名值查找_hm_query_id,找出对应的 wordid。如果没有,则不处理这条。若找到 wordid,则查找_hm_wordinfo 字典,找到该 wordid 对应的信息(default_price, word字面,thres)。将bid 列表中的bid 取值保存到一个数组bid_list 中。查找defalut_price 在bid_list中的位置 insert_pos,
21、统计 0 的个数 zero_num,那么小于 defult_price 的元素个数less_num=insert_pos - zero_num 。我们需要的 bid 是排序后的数组中 index=thres*bid_num -1 对应的数值。比较 index 与位置的大小,然后找到 index 对应的 bid 值,输出 wordid”t”bid”t”word字面。排序前的数组:排序之后的数字如下:为了减少排序移动数据,直接计算排序后 index 对应的位置在原数组中的位置。如果 index=insert_pos, 那么 bid = bid_listindex如果 index = less &
22、index =default_price(insert_pos)【insert_pos, bid_num)0 【 less_num, insert_pos)=default_price(insert_pos)default_price (less_num)0(zero_num)文档名称:组附件出价建议详细设计START到库文件的每一条记遍历完 _hs_worduser到竞价(winfoid, uintid, planid,否是(start_num,userid, wordid)?th否END是遍历是Wordid+userid在_hs_worduser中Wordid在_hm_usercnt中否_
23、hs_worduser.insert(wordi d32+userid)_hm_usecnt.insertUsercnt+第 3 个小模块的处理流程图:网络技术(北京)第 8 页 共 11 页_hm_usercnt?否输出wordid, thres在数组usercnt_thres中查找usercnt对应的阈值thres出(wordid, userid)文件的一条保存到数组usercnt_thres中end_num, res)文档名称:组附件出价建议详细设计START是END完asp文件(query,完(wordid,thres)文件完(wordid, price)文件完wordlist文件 (
24、wordid,word)是是是bid列表)否否否在_hm_wordid中查找到query对应的wordid_hm_wordinfo 字典中找到wordid?找到_hm_wordinfo.find(wordi d)Wordinfo.price=0; Wordinfo.thres=thres; Wordinfo.word=NULL;_hm_wordinfo.insert是是根据wordid查找_hm_wordinfo,找到对应的value将word保存到内存,地址为word_ptr value.word=word_ptr Query=word_pretreat(word)_hm_wordid.insert5.1.2.2 系统说明内存估计:1. 有生效竞价客户数的= 1G量大概为:1 千万,所以内存为:10M*(4+4+4+4+64+4)+10M*(8+4+4)2. 行业
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025智慧办公行业市场发展现状竞争评估投资规划分析研究发展报告
- 苹果黑星病治理方法
- 企业数据展示合同协议
- 2025年工业AI区块链专项训练
- 江西工程学院《初等数学研究II》2025-2026学年第一学期期末试卷
- 母婴店奶粉专供协议(品牌直供版)
- 湖南外贸职业学院《中小学语文教学技能》2025-2026学年第一学期期末试卷
- 新乡医学院《专业日语单计算机组成原理》2025-2026学年第一学期期末试卷
- 山东建筑大学《建筑认识与表达》2025-2026学年第一学期期末试卷
- 广西科技大学《检测技术与信号处理》2025-2026学年第一学期期末试卷
- 中国中草药种植行业发展前景预测及投资战略研究报告
- 电力系统安全稳定性控制介绍
- 员工社保补贴合同协议
- 爱永在 二部合唱简谱
- 2025仪器仪表维修工(技师)技能鉴定精练考试指导题库及答案(浓缩300题)
- 2025年湖南省安全员-B证考试题库及答案
- 【MOOC期末】《大学体育射箭》(东南大学)中国大学慕课答案
- 2024-2025学年成都市金牛区九年级上期末(一诊)英语试题(含答案)
- 《矿井井下电缆及其连接装置》 培训课件2025
- 日产150吨高白酒瓶玻璃厂熔制车间工艺设计
- 卫生院职工五年来的工作总结范文
评论
0/150
提交评论