版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、技术创新,变革未来分布式图数据库的应用实践分布式图数据库在贝壳找房的应用实践分享提纲贝壳图数据库应用场景图数据库技术选型图数据库平台建设原理&优化&不足图数据库场景行业知识图谱覆盖房源、客户、经纪人、开发商、 小区、地铁、医院、学校、商场等 140多个类别,共计500多亿三元组偏事实关系应用场景:搜索推荐,智能问答例:查询开发商是XXX,小区绿化率 大于20%,周边200米有大型商场, 500米有地铁,1000米有三甲医院, 2000米有升学率超过60%的高中, 房价在800W以内,最近被经纪人带 看次数最多的房子??图数据库场景贝壳关系图谱节点:经纪人、房源、客户关系:浏览、关注、带看等偏行
2、为关系应用场景:房源推荐、客源维护、影响力分级例:当某个用户经常浏览关注或者咨 询某个房源时,该房源的维护人A1会 邀请该用户的维护人A2带客户来看房。图数据库场景风控关系图谱事实图谱、行为图谱、 社交图谱、作业图谱、 工商图谱风控场景:虚假房源、 虚假客源、虚假带看、 私单飞单贝壳图数据库应用场景行业知识图谱贝壳关系图谱风控关系图谱分别使用不同图数据库,各自为战:分享提纲图数据库在贝壳的应用场景图数据库技术选型图数据库平台建设原理&优化&不足图数据库技术选型开源成熟扩展文档性能稳定运维易用图数据库技术选型图数据库技术选型主流图数据库对比图数据库Neo4jOrientDBArangoDBJan
3、usGraphDGraph初次release20072010201220172016是否开源社区版开源开源开源开源开源是否收费企业版收费webUI管理模块收费企业版收费免费免费数据模型graphdoc、graph、 KVdoc、graph、 KVgraphgraphSQL不支持类SQL不支持不支持不支持存储系统原生原生RockDB依赖其他存储原生分布式企业版支持后期支持后期支持原生支持原生支持相关文档非常多多多少少图数据库技术选型JanusGraph架构图数据库技术选型Dgraph架构Zero:集群大脑,用于控制集群,将服务器 分配到一个组,并均衡数据。通过raft选主Alpha:存储数据并处
4、理查询,托管谓词和索引Group:多个alpha组成一个group,数据 分片存储到不同group,每个group内数据 通过raft保证强一致性Ratel:可视化界面,用户可通过界面来执行查询,更新或修改schema图数据库技术选型性能对比类型JanusGraphDgraph写入性能实时写入点15000/s35000/s边9000/s10000/s初始化写入三元组24W/s查询性能(随机1W次平均)查询结点的所有属性1.63 ms2.24 ms查询结点的一度关系1.25 ms2.30 ms查询和当前结点关联的所有一度结点11.84 ms3.18 ms查询两节点间小于6度的所有最短路径4.37
5、 ms1.03 ms查询一度以内所有顶点及属性36.36 ms3.26 ms查询二度以内所有顶点及属性307.07 ms3.58 ms查询三度以内所有顶点及属性763.21 ms3.76 ms测试机器:3台物理机,48核,128G内存,SATA硬盘测试数据集:4800w点,6300w边,4.5亿三元组,大小30G图数据库技术选型Dgraph VS JansGraph特性DgraphJanusGraph架构分布式构建于其他分布式数据库之上副本强一致性依赖底层DB数据均衡自动依赖底层DB语言GraphQL+-Gremlin全文检索原生支持依赖外部检索系统正则表达式原生支持依赖外部检索系统地理位置检
6、索原生支持依赖外部检索系统可视化原生支持依赖外部系统维护成本低很高写入性能高较高查询性能简单和复杂查询都很快复杂查询较慢分享提纲贝壳图数据库应用场景图数据库技术选型图数据库平台建设原理&优化&不足图数据库平台建设集群搭建dgraph zero -replicas 3dgraph alpha -zero localhost:5080图数据库平台建设数据写入图数据库平台建设数据查询查询名字包含“秀园”,绿化率大于30%的小区附近1km的幼儿园图数据库平台建设GraphSQL查询名字包含“秀园”,绿化率大于30%的小区附近1km的幼儿园图数据库平台建设GraphSQL图数据库平台建设GraphSQL
7、/LianjiaTech/dgraph-sql图数据库平台建设GraphSQL分享提纲图数据库在贝壳的应用场景图数据库技术选型图数据库平台建设原理&优化&不足原理&优化Dgraph原理存储引擎Badger:一个高效和持久化的,基于 LSM的键值数据库,纯Go语言编写随机读比RocksDB快3.5倍存储结构(Predicate, Subject) - sorted list of ValueId(friend, me) - person1,person2,person3,person4,person5数据分片根据谓词分片,相同谓词的数据按序存储在同一个节点,减少RPC定期数据均衡(rebalan
8、ce_interval)group根据replicas和alpha启动顺序确定高可用每个group至少3个alpha,互为副本,raft协议保证强一致性write-ahead logs,预写日志原理&优化Dgraph原理例:查询我所有朋友的朋友中就职于贝壳的人。Dgraph:避免广播,一次网络调用 执行一次连接,低延迟,可预测原理&优化Dgraph优化Bulkloader导入优化,解决内存溢出问题,分布式导入改造行业图谱500亿三元组导入时间:48h - 15h 提升 3 倍(9物理机)增加数据均衡开关,业务高峰期禁止均衡,避免影响实时写入原理&优化&不足Dgraph不足不支持多重边任意一对顶
9、点,相同标签类型的边只允许存在一条一个集群只支持一个图企业版支持多图大数据生态兼容不够Spark写入容易overload容易出现超级“边”不是很成熟分享提纲贝壳图数据库应用场景图数据库技术选型图数据库平台建设原理&优化&不足新的选型Nebula GraphNebula Graph VS Dgraph查询Dgraph最大QPS/avg/p99Nebula Graph最大QPS/avg/p99查询指定节点7个属性10475/18ms/71ms99053/6ms/11ms查询一度节点3个属性5995/32ms/145ms5403/36ms/78ms查询二度节点3个属性1899/48ms/344ms2526/39ms/156ms查询三度节点3个属性1315/51ms/368ms698/56ms/640ms查询四度节点3个属性1134/60ms/529ms655/60ms/764ms测试场景:带过滤条件多度查询,结果集在1000以内,返回部分属性,压测最大QPS测试数据:小区子图,200w点,8000W边,1亿RDF测试机器:3台物理机,48核,128G内
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保护视力纳入考核制度
- 施工单位考勤考核制度
- 体育科目考核制度及流程
- 通信工程检查考核制度
- 影像中心绩效考核制度
- 宝健直销新人考核制度
- 企业内部审计考核制度
- 得物金牌客服考核制度
- 分包单位安全考核制度
- it运维人员考核制度
- 2025至2030中国铁路联轴节行业调研及市场前景预测评估报告
- 2026年湖南有色金属职业技术学院单招职业适应性测试题库及参考答案详解1套
- 酒精性多神经病个案护理
- ESD术中穿孔紧急处理策略与实践
- 2024-2025中国纺织服装行业社会责任年度报告
- 中医体质分类判定自测表
- 车辆智能共享出行技术课件 第2章 共享经济与汽车共享出行
- CNAS-CL01-G001-2024检测和校准实验室能力认可准则全套质量手册和程序文件
- 电力施工方案范本
- 2025年国家开放大学(电大)《中国法律史》期末考试复习题库及答案解析
- 2025及未来5年中国橡胶膏剂市场调查、数据监测研究报告
评论
0/150
提交评论