




已阅读5页,还剩78页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
标项2:网络交易监测系统1. 项目概况在市场监督管理机构改革的大背景下,以“最多跑一次”改革为契机,聚合市场监管涉网职能,面向全国网络市场监管,建设与网络市场规范和发展相适应的电子商务信用建设工程(网络交易监管平台),进一步推进依法管网、以网管网、信用管网、协同管网,全面提升网络综合治理能力,为全国网络市场监管提供基础平台支撑,努力提升网络市场监管服务水平,全力打造促进网络经济持续快速健康发展的良好营商环境。1.1 工程名称工程名称:电子商务信用建设工程(网络交易监管平台)-网络交易监测系统1.2 招标范围本工程全部建设内容包括网络交易监测系统设计、政务云资源需求、应用系统开发、安装、调试、验收及质保期服务。网络交易监测系统具体涵盖数据采集平台、计算资源平台、数据资源平台,智能算法平台,规则引擎管理平台,平台运维服务、网络监测应用7大部分。1.3 项目建设目标电子商务信用建设工程(网络交易监管平台)的建设,旨在进一步推进依法管网、以网管网、信用管网、协同管网,共同探索网络市场监管与服务的新路径与新经验。建立全国市场监管系统统一应用的网监平台,充分发挥全国市场监管系统优势、集合全国主要电商平台数据和技术优势,合力建设与网络市场规范与发展相适应的新体制、新机制,努力提升网络市场监管服务水平,全力打造促进网络经济持续快速健康发展的良好营商环境。网络交易监测系统是网络交易监管平台子系统,以主动采集和平台推送相结合形式,集聚电子商务网络交易核心数据,并运用大数据和人工智能的先进技术,实现网络交易违法行为的精准发现精准打击。网络交易监测系统的具体建设目标包括:1) 本阶段重点聚焦整个电子商务监测中心的顶层设计,初步完成整个平台的基础设施建设,包括系统软硬件运行环境,系统基础技术架构,大数据、云计算等核心支撑平台;2)完成监督系统内业务系统与电商主体基础库的对接;建立信用信息基础库与主要电子商务平台间的电子商务信用信息共享;3) 本阶段完成网络交易主体监管建设,建立与电子商务平台在电子商务主体验证、备案、审核体制;4) 建立网络交易监管大数据可视化平台基础,采用专业大数据可视化方案,搭建专业水准的可视化应用,满足工作展示、业务监控、风险预警、数据分析等多种业务的可视化需求;5)建设网络交易监测系统和数据安全机制,保障网络交易监测运维安全;6)建立网络交易监测数据采集体系;7)建设网络交易违法行为的监测发现能力。包括网络经营主体和交易在线监测系统,实现对网络假冒侵权、网络炒信、销售敏感违禁商品等部分重点违法行为的监测发现能力,通过监测发现一批违法线索,为线下精准打击提供支撑。建设图片智能识别和管理系统,实现商品聚类;建立违法识别样本库,实现的监测信息的有效判别。1.4 项目建设参考标准电子商务信用建设工程(网络交易监管平台)网络交易监测系统建设过程中原则上参考和依循以下建设标准进行项目的相关建设,建设内容与设计要求发生偏差时,以下述标准为准:GBT 30850.1-2014 电子政务标准化指南 第1部分:总则;GBT 28827.1-2012 信息技术服务 运行维护 第1部分:通用要求;GBT 19668.1-2014 信息技术服务 监理 第1部分:总则;GBT 30850.3-2014 电子政务标准化指南 第3部分 网络建设;GW0104-2014国家电子政务外网安全等级保护实施指南;GW0206-2014接入政务外网的局域网安全技术规范;GBT 19486-2004 电子政务主题词表编制规则;GBT 19487-2004 电子政务业务流程设计方法 通用规范;GBT 21064-2007 电子政务系统总体设计要求;GBT 29799-2013 网页内容可访问性指南;GBT 32430-2015 信息技术 SOA 应用的服务分析与设计;GBT 19488.1-2004 电子政务数据元 第1部分:设计和管理规范;GBT 19488.2-2008 电子政务数据元 第2部分:公共数据元目录;GBT 21062.1-2007 政务信息资源交换体系 第1部分:总体框架;GBT 21062.2-2007 政务信息资源交换体系 第2部分:技术要求;GBT 21062.3-2007 政务信息资源交换体系 第3部分:数据接口规范;GBT 21062.4-2007 政务信息资源交换体系 第4部分:技术管理要求;GBT 34950-2017 非结构化数据管理系统参考模型;GBT 30850.4-2017 电子政务标准化指南 第4部分:信息共享;GBT 32630-2016 非结构化数据管理系统技术要求;GBT 32633-2016 分布式关系数据库服务接口规范;GBT 32908-2016 非结构化数据访问接口规范;GBT 32909-2016 非结构化数据表示规范;GBT 33453-2016 基础地理信息数据库建设规范;GBT 34950-2017 非结构化数据管理系统参考模型;GBZ 18219-2008 信息技术 数据管理参考模型;GBT 25062-2010 信息安全技术 鉴别与授权 基于角色的访问控制模型与管理规范;GBT 30275-2013 信息安全技术 鉴别与授权 认证中间件框架与接口规范;GBT 30850.5-2014 电子政务标准化指南 第5部分:支撑技术;GBT 30883-2014 信息技术 数据集成中间件;GBT 31501-2015 信息安全技术 鉴别与授权 授权应用程序判定接口规范;GBT 32393-2015 信息技术 工作流中间件 参考模型和接口功能要求;GBT 32419.2-2016 信息技术 SOA技术实现规范 第2部分:服务注册与发现;GBT 32419.6-2017 信息技术 SOA技术实现规范 第6部分:身份管理服务;GBT 26232-2010 基于J2EE的应用服务器技术规范;GBT 29263-2012 信息技术 面向服务的体系结构(SOA)应用的总体技术要求;GBT 30882.1-2014 信息技术 应用软件系统技术要求 第1部分:基于BS体系结构的应用软件系统基本要求;GBT 31506-2015 信息安全技术 政府门户网站系统安全技术指南;GBT 32419.5-2017 信息技术 SOA技术实现规范 第5部分:服务集成开发;GBT 33846.4-2017 信息技术 SOA支撑功能单元互操作 第4部分:服务编制;GBT 25058-2010 信息安全技术 信息系统安全等级保护实施指南;GBT 25068.2-2012 信息技术 安全技术 IT网络安全 第2部分:网络安全体系结构;GBT 25070-2010 信息安全技术 信息系统等级保护安全设计技术要求;GBT 28449-2012 信息安全技术 信息系统安全等级保护测评过程指南;GBT 28452-2012 信息安全技术 应用软件系统通用安全技术要求;GBT 32399-2015 信息技术 云计算 参考架构;GBT 33780.1-2017 基于云计算的电子政务公共平台技术规范 第1部分:系统架构;GBT 33780.2-2017 基于云计算的电子政务公共平台技术规范 第2部分:功能和性能;GBT 33780.3-2017 基于云计算的电子政务公共平台技术规范 第3部分:系统和数据接口;GBT 33780.6-2017 基于云计算的电子政务公共平台技术规范 第6部分:服务测试;GBT 34079.3-2017 基于云计算的电子政务公共平台服务规范 第3部分:数据管理;GBT 34080.1-2017 基于云计算的电子政务公共平台安全规范 第1部分:总体要求;GBT 34080.2-2017 基于云计算的电子政务公共平台安全规范 第2部分:信息资源安全;GBT 35279-2017 信息安全技术 云计算安全参考架构;GBT 29262-2012 信息技术 面向服务的体系结构(SOA) 术语;GBT 29263-2012 信息技术 面向服务的体系结构(SOA)应用的总体技术要求;GBT 32419.1-2015 信息技术 SOA技术实现规范 第1部分:服务描述;GBT 32419.2-2016 信息技术 SOA技术实现规范 第2部分:服务注册与发现;GBT 32419.3-2016 信息技术 SOA技术实现规范 第3部分:服务管理;GBT 32419.4-2016 信息技术 SOA技术实现规范 第4部分:基于发布_订阅的数据服务接口;GBT 32419.5-2017 信息技术 SOA技术实现规范 第5部分:服务集成开发;GBT 32419.6-2017 信息技术 SOA技术实现规范 第6部分:身份管理服务;GBT 32427-2015 信息技术 SOA 成熟度模型及评估方法;GBT 32428-2015 信息技术 SOA 服务质量模型及测评规范;GBT 32429-2015 信息技术 SOA 应用的生存周期过程;GBT 32431-2015 信息技术 SOA 服务交付保障规范;GBT 33846.1-2017 信息技术 SOA支撑功能单元互操作 第1部分:总体框架;GBT 33846.2-2017 信息技术 SOA支撑功能单元互操作 第2部分:技术要求 ;GBT 33846.3-2017 信息技术 SOA支撑功能单元互操作 第3部分:服务交互通信;GBT 33846.4-2017 信息技术 SOA支撑功能单元互操作 第4部分:服务编制。2. 业务目标及需求2.1 参考依据本项目建设依据中华人民共和国电子商务法、中华人民共和国消费者权益保护法、网络交易管理办法、产品质量法、反不正当竞争法、合同法、商标法、广告法、侵权责任法、食品安全法、网络购买商品七日无理由退货暂行办法等国家相关法律、法规对网络交易市场依法进行监测。2.2 业务目标依据国家相关法律法规,利用先进信息网络和大数据人工智能技术,对网络交易市场当中违法行为进行全方位识别、监测,实现加快推进网络市场监管的信息化、精准化、系统化,合力建设与网络市场规范与发展相适应的新体制、新机制,努力提升网络市场监管服务水平,全力打造促进网络经济持续快速健康发展的良好营商环境。2.3 业务需求2.3.1 业务对象对全国主要的电商平台依法进行监测,且根据电商行业发展形势的变化及实际监管的需要,项目建设方有权要求增加、变更监测对象。项目承建方需无条件满足该项需求。监测对象包括但不限于以下名单:淘宝、天猫、阿里巴巴(1688)、全球速卖通、聚划算、京东、唯品会、亚马逊、苏宁易购、国美、当当、1号店、拼多多、聚美优品、网易严选、网易考拉、蘑菇街、贝贝网、麦乐购、惠民网、洋码头、珍品网、麦包包、淘粉吧、有货网、必要、一折特卖、丰趣海淘、豌豆公主、顺丰优选、蜜芽、宝贝格子、好乐买、卷皮网、中粮我买网、本来生活、识货、体博网、咕咚商城、小李子足球装备网、汇通达、乐村淘、惠农网、中国农产品网、酒仙网、美团外卖、饿了么、百度糯米、大众点评、美团网、盒马鲜生等。要求提供:1、网上交易额覆盖全国90%以上的电商平台名单2、采集电商平台一级类目和二级商品目录2.3.2 采集内容要求采集的内容需覆盖所爬取网页全部可获得信息,包括但不限于经营主体信息、商品信息、交易行为信息等。经营主体信息:店铺名称;联系电话;联系IM类型和名称;店铺评分;注册时间;注册地;公司名称;法人代表;注册资本;营业执照号;有效期;营业执照图等。商品信息:商品URL;商品ID;商品标题;商品主图;商品价格以及价格信息中的原价、优惠价、发货地;商品商标;商品详情;商品型号;商品参数;商品评价;服务保障等。交易行为信息:价格变化;销量变化;库存变化等。2.3.3 业务需求 电商经营主体违规监测一、主体身份包括但不限于以下内容:主体公示信息是否真实一致;经营状态是否合法合规;主体信息公示是否合法合规。二、经营资质违规包括但不限于以下内容:许可证公示信息是否真实一致;经营状态是否合法合规;信息公示是否合法合规。 电商经营商品违规监测一、商品禁限售包括但不限于以下具体行为:禁售,指市场监管法律规定禁止销售商品以及禁止在网上销售的商品;限售,指限制销售的商品以及限制在网上销售的商品,包括但不限于应当取得行政许可或备案销售的商品。二、产品质量违规包括但不限于以下具体行为:未取得强制性认证,伪造或者冒用认证标志等质量标志;三无产品或伪造产品的产地,伪造或者冒用他人的厂名、厂址;销售不合格或缺陷商品;不符合强制性标准;风险产品提示信息。三、知识产权包括但不限于以下具体行为:使用他人商品的特有名称、包装、装潢、标识(混淆);未经权利人许可销售相近或相同商标的商品(假货);使用不允许作为商标的标志;将未注册商标冒充注册商标。 电商经营行为违规监测一、虚假宣传包括但不限于以下具体行为:利用广告或者其他方法,对商品的质量、制作成分、性能、用途、生产者、有效期限、产地等作引人误解的虚假宣传。二、价格违规包括但不限于以下具体行为:虚构原价、超低价欺诈(无法以宣传底价购买到商品)、虚假折扣欺诈、哄抬价格欺诈、价外加价欺诈、特价搭售欺诈、商品比价欺诈、以次充优高价销售。三、刷单炒信包括但不限于以下具体行为:对平台新注册卖家或热销商品的暴增销量、集中退货、雷同用户评价、商品调换、物流空包等异常情况进行追踪取证监测。四、商业诋毁包括但不限于以下具体行为:在网络经营过程中,损害他人商业信誉或商品声誉,侵犯他人商誉权的行为。五、有奖销售包括但不限于以下具体行为:对有奖销售作虚假不实的表示,巨奖销售、利用有奖销售手段推销质次价高或积压滞销的商品。 电商平台违规行为监测包括但不限于平台未履行以下法律法规规定的平台责任:平台规则的公示是否合法合规;终止网店经营是否公示;平台内知识产权侵权通知、声明及处理结果是否公示。 电商营商环境监测一、电商营商环境分析包括但不限于以下内容:网络交易成交规模、增长趋势;网店生存状态分析;网售商品品牌市场占有率分析等。二、市场热点监测包括但不限于以下内容:热点商品、行业、类目以及季节性热点。三、消费者反馈分析包括但不限于以下内容:消费者投诉、评论等情况分析。3. 建设内容3.1 系统建设内容系统建设内容包括数据采集平台、计算资源平台、数据资源平台、风控算法平台、智能风控平台、运维安全服务以及网络交易监测模型。3.1.1 数据采集平台建设数据采集平台,数据采集平台从互联网定期自动抓取电商商品及卖家相关信息,并将抓取结果输出到计算及数据资源平台。电子商务本身业务模式决定了其背后数据存在数据多维、分散、数据变化快、数据量大,容易伪造等特点,相应会给监管方带来各种挑战。没有持续稳定的高时效高质量数据采集输入,很难形成有效的监管。因此,数据采集不仅是最基础的工作,也是决定整个监管质量的最重要的环节。爬虫采集和数据接口相结合,通过数据相互交叉验证,从而更加有效的保障数据的真实性和完整性。两种方法结合并加上交叉验证不仅可以起到很好的震慑作用,也让主动监测和被监管方的上报行为形成了更好的平衡与制约。通过爬虫采集+平台主动上传数据相结合的方式,可以较好的达到数据采集的目标,进而构建起稳定的基础数据层。3.1.2 计算资源平台计算资源平台以政务云平台为基础,包含虚拟服务器、对象存储、微服务架构、大数据分布式计算、分布式数据库、关系性数据库、消息队列、缓存等基础服务。“云”架构在以上各层均可以横向扩展,使系统最终体现出整体计算能力的横向扩展性,即云的弹性伸缩特性。该部分通过项目预算外资金由浙江省政务云提供网络交易监测系统所需的计算资源。3.1.3 数据资源平台建设数据资源平台,数据资源平台为系统提供数据存储,数据预处理和数据管控的能力,包括数据治理的管控,数据建模,数据开发所需的工具,数据服务设计,数据分类标准等。3.1.4 智能算法平台建设智能算法平台,智能算法平台是网络交易监测系统的核心部分,实现对所有业务监控的分析算法。算法平台包括基础算法部分和核心算法部分,基础算法部分提供对网络交易监测系统所需的基础能力,包括相似图片识别,LOGO识别,OCR处理,关键词查找等。核心算法实现系统核心功能,包括对主体合法性识别,经营合法性识别,商品合法识别等。3.1.5 规则引擎管理平台建设规则引擎管理平台,规则引擎平台为用户提供一个统一的应用门户,用户可以对电商风险布防和管理。运用规则引擎、模型引擎、关系网络、设备画像、文本识别、语义分析、强化学习等算法和工程技术。包括风险定义、风险分析、风险识别、风险排查、审核打标、决策处置、数据资产等内容。3.1.6 运维安全服务运维管理包括风控引擎、数据采集平台维护、资源生命周期管理、用户管理、平台组件运行监控、基础设施监控告警、自动化运维调度、基础设施资源管理等。3.1.7 数据可视化系统大数据可视化需要对数据采集平台、数据资源平台、模型算法平台、应用系统、电商监测报告分析、安全与运维管理平台的运行情况进行展示,包括但不限于:1. 采集对象统计情况包括采集电商平台的商铺数量2. 采集结果统计情况包括采集电商平台数量、电商类型分布、电商平台主体归属地、主体注册时间、主体注册资本等统计3. 资源平台运行统计情况包括硬件资源(存储、CPU、内存、网络)的使用情况4. 模型算法运行统计情况包括违规电商平台数量、违规类型分布、违规平台数量趋势、违规主体地域分布等5. 应用系统运行统计情况包括系统活跃用户数量、违规处置情况等6.电商监测报告分析包括互联网宏观营商形势分析、合规经营分析、历史趋势、商家经营、实时热点追踪等统计分析7. 安全与运维平台统计情况包括系统所遭受安全攻击次数、数据接口调用情况、数据交换情况、敏感权限活跃情况等电商数据统计分析展示:系统需实现电商数据统计,提供了一套多维的统计功能。通过多条件属性字段来查询特定范围内的查看各个数据的走势、月度走势以及年度走势。用户可以通过统计图形象、直观的明了不同种类的实时数据或不同月份之间的间接关系。用户可以通过观察折线图清楚的看出实时数据的变化趋势;可以通过观察柱形图分析实时数据在不同条件下的优劣程度;也可以通过饼图分析实时数据在一定时期内的各项指标所占比例等。(1)电商主体分析满足通过登记机关等条件,进行单一或组合条件统计。实现对电商主体的统计,并将结果以图、表等形式进行展现。(2)交换统计分析满足通过数据交换时间、交换单位等条件,进行单一或组合条件统计。实现对交换单位数据交换情况的统计,并将结果用图、表等形式展现。(3)数据质量统计分析满足通过数据交换时间、交换单位等条件,进行单一或组合条件统计。实现对电商数据质量情况的统计,并将结果用图、表等形式展现。(4)数据比对统计分析满足通过比对时间、交换单位等条件,进行单一或组合条件统计。实现对交换共享数据比对情况的统计,并将结果用图、表等形式展现。(5)趋势分析满足通过统计时间、处罚单位,处罚类型等条件,进行单一或组合条件统计。实现对电商主体被处罚(工商处罚、许可单位行政处罚,司法判决等)情况的统计,并将结果用图、表等形式展现。数据可视化系统图形展现支持以下内容:支持图表基本类型包括:柱形图、折线图、面积图、饼图,、散点图、雷达图、仪表盘、全距图、股价图、多坐标轴混合图等,支持多种类型的混合显示。支持地图报表,即支持以地图形式表现数据;支持气泡图展现。支持数据图表,即支持在图表当中添加数据表,使得图表分类轴与数据表列名一一对应的图表展示。支持在线切换图表样式,即仅需要在设计中设计一个图表,选择多种展示类型即可。支持图表的灵活交互,即可通过点击图表系列改变同一报表中的其它图表元素,达到图表数据联动分析的效果。支持双数据模型统计图,即可以数据集为数据模型设计统计图,也可以以单元格为数据模型设计统计图。支持图表的数据点提示,提示内容可自由组合设定。支持图表热点链接,即图表中可通过点击图表的元素实现数据钻取,且链接传值能够支持中文。支持图表属性,即图表标题可以支持公式动态获取,分类轴标签支持多种显示方式;数值标签可自由配置多种组合;图例支持自由定义显示位置与个数;绘图区背景与报表背景除支持常规的颜色,纹理,图片背景,还能够支持渐变色背景。提供多种数据可视化场景模板提供监测动态直播、数据综合展示、设备监控预警等多种场景模板,稍加修改就能够直接服务于可视化需求。拖拽式界面布局通过拖拽即可实现灵活的可视化布局,在模板的基础上任何人都能够发挥创意,实现自定义的可视化应用。动态地理绘制以WebGL技术作为支撑,能够绘制海量数据下的地理轨迹、飞线、热力、区块、3D地图/地球,支持多层叠加。3.2 系统总体设计要求3.2.1 系统总体框架设计要求(对应评分标准) 系统整体框架设计要求总体架构层次分为数据采集平台、计算资源平台、数据资源平台、智能算法平台、规则引擎管理平台、运维安全服务以及网络交易监测模型。 要求投标人提供网络交易监测系统功能架构设计图.1 系统功能以及架构设计要求网络交易监测系统功能包括数据采集功能模块、网络交易监测系统模块、智能算法平台、规则引擎管理平台以及电商监测报告。要求提供网络交易监测系统整体功能架构以功能模块设计.2 系统业务流程架构设计要求网络交易监测系统业务流程从采集数据、数据清洗、按数据规范入库至数据资源平台、数据交换共享、对外应用数据调用以及周边系统数据对接的整体业务架构流程设计。要求提供网络交易监测系统整体业务流程架构方案3.2.2 网络交易监测系统建设要求3.2.3 爬虫部署方案要求区别于线下销售商品的平台,互联网化的电商平台监管更多依赖于互联网数据采集引擎的效率和准确度,才能够更快、更便捷的获取被监管方的商品信息,设计一套分布式数据采集引擎.提供数据采集需要的爬取服务、反爬服务、加速服务、解析服务,完成电商商品类目、价格、商品详情、图片、评论、网站用户的采集。分布式数据采集引擎是整体大数据监管的重中之重,作为核心引擎,其必须具备以下的能力:爬虫方案能力要求 灵活性在实际应用中,数据采集引擎应该有良好的对外接口,能够适应不同环境,只需要较少的改动就能应用它。 低成本和高性能引擎应该能够处理大规模的网页,并且运行在一个低成本的硬件环境中。 速度和访问控制需要控制在不同时段的下载速度。 可管理和可配置性管理员应该能够动态调整某些运行参数。 负载平衡性要求保证在一定时间内每个节点负责搜集的Web主机数目基本相等。 健壮性第一,能够处理不能连接的 URL 的情况、异常的服务器反应等情况。第二,系统任务分配算法,每当发现节点出现故障,应该将其对系统的影响降到最低点。爬取能力包含不限以下要求:1.支持普通网页爬取,网页在内容服务在服务端渲染;2.支持网页API接口爬取,分析电商网站的数据组织方式,支持http、https的协议的API接口数据爬取;3.支持网页在客户端渲染的数据爬取;4. 支持数据加密后,通过在模拟浏览器方式进行数据爬取5.支持普通APP数据爬取,普通APP数据:APP数据接口没有加密,协议为一般的http,https方式。6.支持加密APP数据爬取,加密APP数据:APP数据接口有随机参数的校验和加密。反爬能力包含不限以下要求:1.支持自定义UA和UA池,可以根据需求设置UA,或者从UA池中随机设置每次请求的UA;2.支持设置代理IP,并提供优质的代理IP池,能自动管理IP的可用性,即剔除无效的或者已经被封禁的IP;3.提供验证码识别,能进行字符型图片验证的识别;4.能进行用户行为模拟,对于反爬比较严密的网站,结合IP池、UA池,Cookie池,模拟实际用户操作行为,达到爬取数据的目的;加速爬虫能力包含不限以下要求:1.支持分布式爬取,爬虫规模可以横向扩展,爬取任务可以被分片、去重后分散在多个爬虫的worker上同时爬取;2.支持多任务调度,爬取任务可以按优先级进行调度。支持失败任务重试、单点worker故障后能进行任务转移;3.提供去重服务,支持待爬取任务根据URL去重、支持解析结果去重存储、支持按业务分组进行任务去重,同时支持重爬;4.提供资源下载服务,支持图片、视频的异步下载;资源下载完成后,提供下载完成的回调机制;解析能力包含不限以下要求:1.支持XPATH、正则表达式、CSS Selector数据解析;2. 支持使用javascript code进行数据解析;3.支持使用groovy code进行数据解析;4.支持网页配置数据解析的字段;5.支持对数据解析的字段进行数据校验,提供非空数据校验、日期格式数据校验、数字校验(价格)、图片校验;6.支持商品类目解析、价格解析、商品详情解析、图片解析、评论解析、网站用户解析;采集能力交付包含不限以下要求:采集服务发布上线时,按照需求给出的诉求配置采集类目、关键字、采集总量、采集周期等能力点。数据采集管控平台需要准备提供可视化控制台,通过权限控制,实现多管理员的权限划分。完成采集任务的配置,包括采集类目、关键字、采集总量、采集周期等。采集状态的配置,可配置查看采集完成度,采集商品总量及每个类目、关键字下的数量等。除了爬虫技术、反爬虫服务、加速服务、解析服务要求外,还需要提供采集生命周期(爬虫生命周期、链接生命周期)、爬虫策略、爬虫任务调度与监控、爬虫对抗技术、爬虫数据预处理方案以及爬虫部署方案等;1. 提供详细数据爬虫建设、部署方案以及爬虫技术迭代方案2. 要求对数据采集任务、采集监测对象、调度提供可视化操作界面3. 爬虫能力不能以服务形式输出,以软件知识产权形式交付3.2.4 数据治理方案要求 数据标准规范要求数据标准包括:基础数据标准、指标数据标准,主要是对指标的业务含义、规则做出解释,对指标数据类型、长度等技术参数进行定义。数据标准管理平台核心目标就是给用户提供简单易用数据标准创建,并落地映射至数据库,可及时查看标准,保证用户对同一指标(事物)的理解是一致的1.支持新建数据标准系统提供灵活方便的操作界面,根据用户选择合适的方式,快速创建数据标准,支持用户手动创建数据标准,同时支持更新、删除等操作。2.支持数据标准分类不同的数据标准拥有不同的业务含义,故数据标准管理平台可对标准进行分类,可依次设置标准主题、标准大类、标准子类、标准小类,让数据标准管理更加方便有效合理。3.支持数据标准的查询检索,并可根据需要选择数据标准的编号、中文名称、创建时间、标准状态等进行检索要求结合网络交易监测系统提供数据标准规范 数据质量管理要求数据质量管理目标要求:1.在数据处理主要阶段设置数据质量检测点,支持对数据质量的全程监控,建立有效的数据质量监控机制,提供全面及时的数据质量报告,预防和控制错误范围的扩大;2.建立数据质量知识库,积累数据质量问题及其处理过程的相关知识,为相同或相近问题的处理提供参考;3.初步建立数据质量评估的应用,通过评估发现数据质量潜在的问题和规律;4.开发数据质量对外服务功能,提高数据质量管理对业务管理系统的技术支撑力度;5.初步建立数据质量监控和预警,通过和运维管理系统的接口,实现数据质量问题的发现、处理、闭环等流程管理。 元数据管理要求建立元数据管理体系提供可靠、便捷的工具支持。绘制数据地图、统一数据口径、标明数据方位、分析数据关系、管理模型变更。从而更加有效的发掘和利用信息资产的价值,实现精准高效的分析和决策,推进系统变更管理,降低项目风险。要求提供元数据管理方案,包括异构数据管理可视化、元模型管理可视化、元数据采集以及元数据分析可视化 数据安全管理要求数据安全管理提供对数据安全规范的定义,根据此规范对数据进行备份、审计以及数据权限的管理,保障行业信息化过程中的数据的安全可用。数据安全管理的主要目标就是审查信息系统和数据的安全隐患。如:舞弊、系统中断、非法更改、不恰当的访问等。这些安全隐患可能中断正常工作活动,丢失宝贵的信息资产,泄露隐私等。因此,保障数据的安全为正确判断信息的真实性、可靠性提供依据。要求结合网络交易监测系统提供数据安全管理方案3.2.5 数据仓库建设方案要求数据仓库是实现数据资源跨区域、跨层级、跨部门的互联互通、融合共享的基础。为了将数据建设问题简单化、以及便于处理业务的变化,对数据仓库分层建设。基础数据层:结构与源系统保持一致的增量数据。汇聚部门业务系统源头数据。也是ETL加工过程的缓冲区;操作数据层:指结构与源系统保持一致的全量数据,做了标准化数据清洗;数据仓库明细层:对数据按照主题划分,整合,清洗,形成一套标准化数据模型;专题应用层,服务于单个应用,应用之间数据不能共享,所有数据均来自操作数据层和数据仓库明细层;结合网络交易监测系统业务和需求,提供电商数据仓库建设方案、3.2.6 数据仓库建设内容要求要求提供基于电子商务监测所需的图片、长文本、关键词、名单样本的样本库提供样本的匹配服务,将样本快速转换为安全防控能力。包括但不限于:1. 电商禁售、限售的敏感词、长文本、图片匹配过滤服务2. 涉及知识产权、假货领域的敏感词、图片匹配过滤服务3. 涉及违反广告法的违规广告相关的敏感词、图片匹配过滤服务4. 网站的涉政、涉暴类恐风险内容的敏感词、图片匹配过滤服务对样本库数据能力要求要求沉淀10万以上敏感词、100 万风险图片、10万以上风险文本。涵盖的业务范围包括电商业务相关的禁售、限售、假货、虚假宣传、欺诈、炒作,网站内容相关的涉政、涉暴恐等各类内容。除了知识库或样本库外,需要建立主体库、资质库、商标库、类目库、商品规格库、商品信息库开放结构化分析结果数据,包括商品、商品类别、关联的评论等,并提供增删改查接口 3.2.7 智能算法平台、模型技术方案要求算法平台功能包括违规分析判定、违规规则以及识别算法违规判定参考业务目标及需求章节中业务需求内容为实现对违法行为的监测,需对采集的数据进行建模分析,如虚假宣传、价格欺诈、商标识别、违禁敏感商品、刷单炒信等分析模型。1.虚假宣传模型运用自然语言处理算法,进行虚假宣传行为关键字典库构建,然后利用关键字检索、语义模型识别以及图形识别的方式,对商品文字进行虚假宣传语义判定。2.价格模型需能够支撑网络非法促销监测、刷单炒信、不正当竞争等行为的监测,如当某件商品价格低于某一临界值,商品售价远低于商品本身材料所需成本时,也同样有极大可能存在商品劣质的风险,此类商品可以作为重点关注风险或直接跟进做相应处罚。3.商标识别模型在权利人端维权场景,配合低价策略以形成较强的侵权探知能力,依托大数据建立网络打假分析模型,为保护知识产权、打击假冒伪劣提供数据支持。4.违禁敏感商品模型当有主动敏感监测需求时,需要对违禁敏感字建立字库模型,有例如word2vec或知识图谱等技术,对于输入的敏感词,建立对应相关敏感对象,然后再进行全库检索来找出对应的敏感商品。5.刷单炒信模型通过模型能够判断商品是否提供刷单违法行为的服务以及价格和交易行为特征是否符合刷单对象。识别算法种类主要图像OCR、以图比图、图像log识别、SPU聚类算法、劣质商品算法、分类目的侵权算法、分类目的明显假货算法等; 违规规则包括违规定义、违规识别、违规决策、违规处置、违规审核、违规排查;一、违规定义违规定义环节,为风控体系提供数据准备、数据源定义、业务逻辑分类定义、指标逻辑管理等。二、违规识别1. 违规识别环节,提供离线、人工方式进行风险防控,同时全过程进行数据决策支持。2. 规则中心:包括离线策略维护,运行数据统计。3. 模型平台:包括模型列表浏览、逻辑维护,和运行数据浏览。4. 离线算法:指算法自助服务,支持离线数据源过人脸、ocr、logo等算法三、违规决策违规识别后,对违规是否成立,违规程度的输入进行综合判断,并提供合理的处置手段。该产品负责决策逻辑的管理和配置。同时支持人工策略逻辑和算法智能模式。四、违规处置违规决策后,进入执行处置环节。对不同实体和对象进行合理有效的处置落地动作。五、违规审核审核平台提供通用业务审核和数据打标功能, 支持自定义审核消息结构,自定义页面模版。包括消息接入、应用接入、应用设置等。六、违规排查违规排查是基于专家经验的规则引擎管理平台。通过构建基于违规特征的索引,能快速检索大数据。主要服务于内容防控场景,处理监管下发、舆情等场景,并抽象、沉淀特征于违规识别策略中。1.要求开放预测模型(如果不是规则)的训练数据开放和预测API,便于二次训练 2.要求提供基础识别API(图片OCR,商品和商标的相似度匹配)3.要求结合违规判定和违规规则提供网络交易监测系统违规识别算法平台详细设计方案,具体包含算法平台设计及部署方案、人工智能技术、常用算法库,如何保证模型可迭代,算法模型可持续性4.要求提供网络交易监测各个违法行为的监测模型,通过算法平台提供详细的建模方案,具体模型方案要求包含模型选择、模型训练、模型评估、模型应用等5.要求智能算法平台有可视化操作界面,通过简单拖拉拽方式,快速构建数据模型,从算法选择、模型训练、模型评估以及模型用到数据分析展示,直观展示3.2.8 数据共享方案要求共享平台经过简单配置可以把数据库中的数据共享给其他系统。主要基于数据仓库建设的数据库如何对外提供共享,包括数据库每个层次共享方式,包括API接口、数据库访问方式、多租户方式、数据交换等等。在数据资源平台上,不论是以数据提供为主还是以数据使用为主,都是数据资源平台的的参与者。上层的算法应用以及需要服务的业务系统应用,都需要基于原始的数据进行混合计算,且有对外部数据整合进行混合计算的需求,都希望通过各方数据补全自身数据,进行对自身服务或者业务应用的提升。数据共享提供以下功能满足数据共享场景:针对不同的系统、不同的权限级别,可以提供差异化的数据。1.数据访问控制大数据平台具有海量数据的处理能力,同时它也具有多租户的特性,各部门的数据将会存储在各租户之内,租户间存储、计算等资源隔离,默认情况下无法直接跨部门访问数据。通过数据访问控制,针对这种数据资源平台下多租户间的数据交换,这种模式的交换数据不发生物理上的搬移,“数据可用、交换不搬家”,实现直正极速的数据共享。2.数据授权方式有3种访问控制方式:ACL(Access Control List)、Policy、Label:1)ACL:ACL授权(即访问控制列表, Access Control List)是一种基于实体对象的授权。只有当被授权内容(表、函数、资源等)已经存在时,才能进行ACL授权操作;当对象被删除时,通过ACL授权的权限数据也会被自动删除;2)POLICY:Policy授权是一种新的授权机制,它主要解决ACL授权机制无法解决的一些复杂授权场景,比如:一次操作对一组对象进行授权,如所有的函数、所有以 “abc_” 开头的表、带限制条件的授权,如授权只会在指定的时段内才会生效、当请求者从指定的IP地址发起请求时授权才会生效、或者只允许用户使用SQL(而不允许其它类型的Task)来访问某张表;3)LABEL:基于标签的安全是租户级别的一种强制访问控制策略,它的引入是为了让租户管理员能更加灵活地控制用户对列级别敏感数据的访问。3.数据安全交换区提供数据安全区,安全交换会将双方相应数据放入安全交换空间中进行不公开计算,并将计算所得结果提供给需求方,防止使用方直接接触数据,对应数据可用不可见。安全交换区除了提供对应数据加工内容,同时提供对应更严格的加工和审计模式,保障强管控的数据安全共享交换。要求结合网络交易监测系统提供数据共享平台详细设计方案3.2.9 系统接口设计要求(对应评分标准)1. 系统内部接口设计,对网络交易监测接口描述;2. 系统外部接口设计,通过网络交易监管协同平台系统接口要求,实现对周边系统包括电子证据管理系统、电子商务主体信用系统、社交和移动电商监测系统、国家市场监督管理总局以及其它省市市场监督管理局数据接口交互、数据同步,接口设计要求至少包括以下几点:(1)接口的名称标识(2)接口在该应用系统中的地位和作用(3)接口在该应用系统中与其他功能和接口之间的关系(4)接口的功能定义(5)接口的规格和技术要求,包括各自适用的标准、协议或约定(6)各个接口的数据特性(7)各个接口的资源要求,包括硬件和存储资源分配(8)接口程序的数据处理要求(9)接口的特殊设计要求(10)接口对程序编制的要求3.3 电商监测报告分析要求3.3.1 互联网宏观营商形势分析通过对电商行业、商品类目等多维度的统计分析,客观度量互联网电商宏观营商形势,主要形成如下的分析报告:n 按地域、时间统计电商行业分布,主要统计维度包括:u 所属行业、电商类目:如服装,食品,药品等电商平台商品类目u 商家数量:统计各行业在相应维度上的商户数量u 商品数量:统计各行业在相应维度上的商品数量u 交易规模:统计各行业在相应维度上的交易量u 违规情况:按行业统计在相应维度上的违规情况,包括违规数量,违规等级,处罚情况等u 行业健康度:根据行业商品、交易总量以及违规数量,等级等数据加权计算描述行业健康度的综合指标3.3.2 合规经营分析通过对各电商平台的行业、商品、商户、交易规模、违规情况等的分析,客观度量各电商平台的合规经营状况,主要形成如下的分析报告:n 针对各电商平台,分析平台总体经营合规情况,按照时间、电商类目等进行分析,统计维度包括:u 平台名称:平台名称u 行业分布:按平台维度统计平台行业分布情况u 商家数量:按平台统计商家数量u 商品数量:按平台统计商品数量u 交易规模:按平台统计交易规模u 违规情况:按平台统计违规情况,包括违规数量,违规等级,处罚情况等u 平台健康度:按平台根据行业商品、交易总量以及违规数量,等级等数据加权计算描述行业健康度的综合指标3.3.3 消费者反馈分析结合平台收集到的用户评价信息等内部监管系统获取的关于消费者投诉、举报信息,综合统计分析消费者对平台、商品、商家、行业的整体消费满意度情况,主要形成如下的分析报告:n 按电商平台、行业、品牌分析平台总体经营合规情况,按时间,电商类目等进行统计分析,统计维度包括:u 评价等级突变:对各平台用户评价数据进行加权分析,得到总体评价等级u 违规情况突变:按行业统计在相应维度上的违规情况,包括违规数量,违规等级,处罚情况等u 商品数量:按统计维度统计商品数量u 交易规模:按统计交易规模u 违规情况:按维度统计违规情况,包括违规数量,违规等级,处罚情况等u 消费者满意健康度:按维度根据行业商品、交易总量以及违规数量,等级等数据加权计算描述行业健康度的综合指标3.3.4 商家经营状况分析通过原始用户评价数据等内部监管系统获取的关于消费者投诉举报信息,综合按平台、地域类目统计所属商家的经营难度。n 按平台、地域类目统计所属商家的经营难度情况,统计维度包括:u 总体评价等级:对各维度用户评价数据进行加权分析,得到总体评价等级u 商家数量:统计维度内的商家数量分布情况u 商品数量:按统计维度统计商品数量u 交易规模:按统计交易规模u 违规情况:按维度统计违规情况,包括违规数量,违规等级,处罚情况等u 经营难度:按维度根据行业商品、交易总量以及违规数量,等级等数据加权计算描述经营度的综合指标3.3.5 实时热点追踪从时间线维度,对各平台、类目、行业、地域的商品等多维数据,进行智能分析,统计其变化趋势,对于显现出的突出显著变化的热点进行实时精准捕获及追踪n 持续按平台,地域,类目统计所属多维智能化指标,捕获实时热点:u 总体评价等级突变:精准捕捉消费者评价总体等级出现突变的平台,类目,商品及地区u 行业健康度突变:精准捕捉行业健康指数出现突变的平台,类目,商品及地区u 平台合规突变:精准捕捉平台合规情况出现突变的平台,类目,商品及地区u 交易规模突变:精准捕捉交易规模出现突变的平台,类目,商品及地区u 违规情况突变:精准捕捉违规指数出现突变的平台,类目,商品及地区u 经营难度突变:精准捕捉经营难度出现突变的平台,类目,商品及地区u 消费者反馈突变:精准捕捉消费者反馈出现突变的平台,类目,商品及地区要求支持大数据可视化方案需支持多维视图展现、视图过滤、视图分析、视图统计、视图窗口布局、视图历史回溯等功能;通过大数据可视化对互联网宏观营商形势分析、合规经营分析、历史趋势、商家经营、实时热点追踪等统计分析。3.4 系统技术指标要求3.4.1 数据爬虫技术指标要求1. 支持每天1000万商品爬取,1000万商品分析,10亿次页面抓取;2.支持分钟级的接口数据爬取;3. IP池提供至少1000个高质量的静态IP,10000个动态IP;4.有较强针对反爬虫的对抗能力,解决验证码(滑动,数学计算,字符识别),IP封禁,会员身份等手段;5.支持对全国所有电商数据进行采集,支持至少1PB数据存储,并可动态扩容;3.4.2 智能算法及规则引擎管理平台技术指标要求1.支持自由定义风险事件接入,风险事件来源可以是已存在的大规模数据集(单个数据表需要支持1TB以上)。2.支持自由配置风险识别规则,规则的识别条件全部均可自由配置,条件的左变量支持风险事件的任意属性,条件的操作符支持等于、不等于、大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年宠物美容师高级面试题
- 2025年药物滥用公共卫生安全教育题及答案
- 2025年人际关系心理学考试试题及答案解析
- 2025年宠物动物营养学初级考试重点题
- 2025年建筑工程师执业资格考试试题及答案解析
- 2025年家政服务管理师职业资格考试试题及答案解析
- 2025年安全生产培训题库及模拟测试
- 2025年电子竞技行业入门初级面试预测题解析
- 2025年养老机构等级评定预测题
- 2025年公共关系执行师专业知识考试试题及答案解析
- 充电桩知识培训课件
- 人工智能智能客服系统
- 个人安全管理工作存在的不足及整改措施
- 公司登记(备案)申请书
- 八下政治全册思维导图
- 供水管网工程监理实施细则
- 科研伦理与学术规范-期末考试答案
- 2024年秋季学期人教版七年级上册历史全册教学课件(新版教材)
- 化学-安徽省1号卷A10联盟2025届高三上学期8月开学摸底考试试题和答案
- 创业大赛承办服务投标方案(技术方案)
- JGJ/T235-2011建筑外墙防水工程技术规程
评论
0/150
提交评论