




已阅读5页,还剩153页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
标项1:社交和移动电商监测系统1. 项目概况在市场监督管理机构改革的大背景下,以“最多跑一次”改革为契机,聚合市场监管涉网职能,面向全国网络市场监管,建设与网络市场规范和发展相适应的电子商务信用建设工程(网络交易监管平台),进一步推进依法管网、以网管网、信用管网、协同管网,全面提升网络综合治理能力,为全国网络市场监管提供基础平台支撑,努力提升网络市场监管服务水平,全力打造促进网络经济持续快速健康发展的良好营商环境。1.1. 工程名称工程名称:电子商务信用建设工程(网络交易监管平台)社交和移动电商监测系统。1.2. 招标范围本项目工程全部建设内容包括社交和移动电商监测系统的设计、开发、安装、调试、验收及质保期服务。具体涵盖数据采集平台、数据资源平台、模型算法平台、大数据可视化平台、安全和运维管理平台五部分1.3. 建设目标电子商务信用建设工程(网络交易监管平台)的建设,旨在进一步推进依法管网、以网管网、信用管网、协同管网,共同探索网络市场监管与服务的新路径与新经验。建立全国市场监管系统统一应用的网监平台,充分发挥全国市场监管系统优势、集合全国主要电商平台数据和技术优势,合力建设与网络市场规范与发展相适应的新体制、新机制,努力提升网络市场监管服务水平,全力打造促进网络经济持续快速健康发展的良好营商环境。社交和移动电商监测系统是电子商务信用建设工程(网络交易监管平台)的子系统,利用现代信息技术,以大数据、云技术和移动互联网技术为依托,构建针对社交和移动电商的网络信息提取、分析、监测、预警、处置和可视化的综合执法监管系统。本次监测系统的建设目标包括:1) 本阶段完成社交和移动电商监测系统的顶层设计和整个平台的基础设施建设,包括系统软硬件运行环境,系统基础技术架构,大数据、云计算等核心支撑平台;2)建设分布式电子商务主体和网络交易行为数据采集体系,完成移动互联网数据采集平台建设;3)实现对移动互联网的交易违法行为的监测发现能力。包括移动互联网经营主体和在线交易的监测,实现对销售违禁限售和侵权伪劣商品、涉嫌传销与违规直销、虚假宣传、主体违规、刷单炒信、价格欺诈等部分重点违法行为的监测发现能力;4)建设社交和移动电商监测系统大数据可视化平台基础,采用专业大数据可视化方案,搭建专业水准的可视化应用,满足会议展览、业务监控、风险预警、市场信息分析等多种业务的展示需求;5)建设社交和移动电商监测系统数据安全机制和运维体系,保证系统安全稳定运行;1.4. 项目建设参考标准电子商务信用建设工程(网络交易监管平台)社交和移动电商监测系统建设过程中原则上参考和依循以下建设标准进行项目的相关建设,建设内容与设计要求发生偏差时,以下述标准为准:GBT 30850.1-2014 电子政务标准化指南 第1部分:总则;GBT 28827.1-2012 信息技术服务 运行维护 第1部分:通用要求;GBT 19668.1-2014 信息技术服务 监理 第1部分:总则;GBT 30850.3-2014 电子政务标准化指南 第3部分 网络建设;GW0104-2014国家电子政务外网安全等级保护实施指南;GW0206-2014接入政务外网的局域网安全技术规范;GBT 19486-2004 电子政务主题词表编制规则;GBT 19487-2004 电子政务业务流程设计方法 通用规范;GBT 21064-2007 电子政务系统总体设计要求;GBT 29799-2013 网页内容可访问性指南;GBT 32430-2015 信息技术 SOA 应用的服务分析与设计;GBT 19488.1-2004 电子政务数据元 第1部分:设计和管理规范;GBT 19488.2-2008 电子政务数据元 第2部分:公共数据元目录;GBT 21062.1-2007 政务信息资源交换体系 第1部分:总体框架;GBT 21062.2-2007 政务信息资源交换体系 第2部分:技术要求;GBT 21062.3-2007 政务信息资源交换体系 第3部分:数据接口规范;GBT 21062.4-2007 政务信息资源交换体系 第4部分:技术管理要求;GBT 34950-2017 非结构化数据管理系统参考模型;GBT 30850.4-2017 电子政务标准化指南 第4部分:信息共享;GBT 32630-2016 非结构化数据管理系统技术要求;GBT 32633-2016 分布式关系数据库服务接口规范;GBT 32908-2016 非结构化数据访问接口规范;GBT 32909-2016 非结构化数据表示规范;GBT 33453-2016 基础地理信息数据库建设规范;GBT 34950-2017 非结构化数据管理系统参考模型;GBZ 18219-2008 信息技术 数据管理参考模型;GBT 25062-2010 信息安全技术 鉴别与授权 基于角色的访问控制模型与管理规范;GBT 30275-2013 信息安全技术 鉴别与授权 认证中间件框架与接口规范;GBT 30850.5-2014 电子政务标准化指南 第5部分:支撑技术;GBT 30883-2014 信息技术 数据集成中间件;GBT 31501-2015 信息安全技术 鉴别与授权 授权应用程序判定接口规范;GBT 32393-2015 信息技术 工作流中间件 参考模型和接口功能要求;GBT 32419.2-2016 信息技术 SOA技术实现规范 第2部分:服务注册与发现;GBT 32419.6-2017 信息技术 SOA技术实现规范 第6部分:身份管理服务;GBT 26232-2010 基于J2EE的应用服务器技术规范;GBT 29263-2012 信息技术 面向服务的体系结构(SOA)应用的总体技术要求;GBT 30882.1-2014 信息技术 应用软件系统技术要求 第1部分:基于BS体系结构的应用软件系统基本要求;GBT 31506-2015 信息安全技术 政府门户网站系统安全技术指南;GBT 32419.5-2017 信息技术 SOA技术实现规范 第5部分:服务集成开发;GBT 33846.4-2017 信息技术 SOA支撑功能单元互操作 第4部分:服务编制;GBT 25058-2010 信息安全技术 信息系统安全等级保护实施指南;GBT 25068.2-2012 信息技术 安全技术 IT网络安全 第2部分:网络安全体系结构;GBT 25070-2010 信息安全技术 信息系统等级保护安全设计技术要求;GBT 28449-2012 信息安全技术 信息系统安全等级保护测评过程指南;GBT 28452-2012 信息安全技术 应用软件系统通用安全技术要求;GBT 32399-2015 信息技术 云计算 参考架构;GBT 33780.1-2017 基于云计算的电子政务公共平台技术规范 第1部分:系统架构;GBT 33780.2-2017 基于云计算的电子政务公共平台技术规范 第2部分:功能和性能;GBT 33780.3-2017 基于云计算的电子政务公共平台技术规范 第3部分:系统和数据接口;GBT 33780.6-2017 基于云计算的电子政务公共平台技术规范 第6部分:服务测试;GBT 34079.3-2017 基于云计算的电子政务公共平台服务规范 第3部分:数据管理;GBT 34080.1-2017 基于云计算的电子政务公共平台安全规范 第1部分:总体要求;GBT 34080.2-2017 基于云计算的电子政务公共平台安全规范 第2部分:信息资源安全;GBT 35279-2017 信息安全技术 云计算安全参考架构;GBT 29262-2012 信息技术 面向服务的体系结构(SOA) 术语;GBT 29263-2012 信息技术 面向服务的体系结构(SOA)应用的总体技术要求;GBT 32419.1-2015 信息技术 SOA技术实现规范 第1部分:服务描述;GBT 32419.2-2016 信息技术 SOA技术实现规范 第2部分:服务注册与发现;GBT 32419.3-2016 信息技术 SOA技术实现规范 第3部分:服务管理;GBT 32419.4-2016 信息技术 SOA技术实现规范 第4部分:基于发布_订阅的数据服务接口;GBT 32419.5-2017 信息技术 SOA技术实现规范 第5部分:服务集成开发;GBT 32419.6-2017 信息技术 SOA技术实现规范 第6部分:身份管理服务;GBT 32427-2015 信息技术 SOA 成熟度模型及评估方法;GBT 32428-2015 信息技术 SOA 服务质量模型及测评规范;GBT 32429-2015 信息技术 SOA 应用的生存周期过程;GBT 32431-2015 信息技术 SOA 服务交付保障规范;GBT 33846.1-2017 信息技术 SOA支撑功能单元互操作 第1部分:总体框架;GBT 33846.2-2017 信息技术 SOA支撑功能单元互操作 第2部分:技术要求 ;GBT 33846.3-2017 信息技术 SOA支撑功能单元互操作 第3部分:服务交互通信;GBT 33846.4-2017 信息技术 SOA支撑功能单元互操作 第4部分:服务编制。2. 业务目标及需求2.1. 参考依据本项目建设依据中华人民共和国电子商务法、中华人民共和国消费者权益保护法、网络交易管理办法、产品质量法、反不正当竞争法、合同法、商标法、广告法、侵权责任法、食品安全法、网络购买商品七日无理由退货暂行办法等国家相关法律、法规对移动互联网交易市场依法进行监测。2.2. 业务目标依据国家相关法律法规,利用先进信息网络和大数据人工智能技术,对移动互联网中出现的电子商务主体和违法交易行为进行全方位识别、监测,对网络市场中的电商舆情进行监测,实现加快推进网络市场监管的信息化、精准化、系统化,建设与移动互联网市场规范发展相适应的新体制、新机制,努力提升移动互联网市场监管服务水平,全力打造促进移动互联网经济持续快速健康发展的良好营商环境。2.3. 业务需求2.3.1. 监测对象监测对象包括但不限于以下范围,且根据电商行业发展形势的变化及实际监管的需要,项目建设方有权要求增加、变更监测对象。项目承建方需无条件满足该项需求。. 社交和移动电商APP对所有社交和移动电商平台APP进行监测,包括自营类电商平台APP和商家入驻类电商平台APP,特别是在社交和移动渠道大量传播,交易量靠前的APP,需要重点监测。要求投标人提供重点监测的不少于300家APP目录. 微信公众号截至2017年底,微信公众号数量已超过2000万,月活跃账户数超过350万,需对所有活跃账户公众号文章进行抓取,识别出电商类相关公众号,并采集其公众号ID、公众号主体公司、以及销售行为等信息。在社交和移动渠道大量传播、访问量靠前的公众号需要重点监测。要求投标人提供重点监测的不少于1000个的微信公众号. 微信小程序截止2019年1月,微信小程序数量已超230万,需对其中不低于30%比例的电商类小程序,通过模拟器加载小程序的执行,提取里面的元素进行交易行为识别,获取其商品、店铺信息等信息,识别其中违法行为。在社交和移动渠道大量传播、交易量靠前的小程序需要重点监测。要求投标人提供重点监测的不少于100个的微信小程序. 非平台独立销售网站对在全网的社交和移动电商平台内每日传播的亿级别的站点进行爬取,识别其中的销售网站进行分析。. 社交平台对所有的社交平台进行监测,识别其中的交易线索。活跃用户数靠前的社交平台需要重点监测。要求投标人提供重点监测的不少于50个的社交平台. 论坛贴吧论坛贴吧的特点是,用户可以自己发布电商类相关宣传信息或者在回复消息里发布电商类宣传信息。一些传销平台、微商平台,由于参与的普通人众多,这些人需要通过宣传来发展下线,论坛贴吧成为了此类需要重点监管平台的聚集之地,需要对所有论坛贴吧进行信息采集,识别违法行为。活跃用户数靠前的论坛贴吧需要重点监测。要求投标人提供重点监测的不少于80个的论坛贴吧. 新闻客户端对所有新闻平台的电商相关舆情进行全面监测。访问量靠前的新闻客户端需求重点监测。要求投标人提供重点监测的不少于100个的新闻客户端2.3.2. 采集内容要求采集的内容需覆盖所爬取网页全部可获得信息,包括但不限于经营主体信息、商品信息、交易行为信息等。经营主体信息:店铺名称;联系电话;联系IM类型和名称;店铺评分;注册时间;注册地;公司名称;法人代表;注册资本;营业执照号;有效期;营业执照图等。商品信息:商品URL;商品ID;商品标题;商品主图;商品价格以及价格信息中的原价、优惠价、发货地;商品商标;商品详情;商品型号;商品参数;商品评价;服务保障等。交易行为信息:价格变化;销量变化;库存变化等。2.3.3. 业务需求. 电商经营主体违规监测一、 主体身份包括但不限于以下内容:主体公示信息是否真实一致;经营状态是否合法合规;主体信息公示是否合法合规。二、 经营资质包括但不限于以下内容:许可证公示信息是否真实一致;经营状态是否合法合规;信息公示是否合法合规。. 电商经营商品违规监测一、 商品禁限售包括但不限于以下具体行为:禁售,指市场监管法律规定禁止销售商品以及禁止在网上销售的商品;限售,指限制销售的商品以及限制在网上销售的商品,包括但不限于应当取得行政许可或备案销售的商品;二、 产品质量包括但不限于以下具体行为:未取得强制性认证,伪造或者冒用认证标志等质量标志;三无产品或伪造产品的产地,伪造或者冒用他人的厂名、厂址;销售不合格或缺陷商品;不符合强制性标准;风险产品提示信息。三、 知识产权包括但不限于以下具体行为:使用他人商品的特有名称、包装、装潢、标识(混淆);未经权利人许可销售相近或相同商标的商品(假货);使用不允许作为商标的标志;将未注册商标冒充注册商标。. 电商经营行为违规监测一、 涉嫌传销包括但不限于以下具体行为:通过传销网络舆情、网页数据搜集、企业关联数据以及举报信息等判断企业是否为传销;对于商品进行传销相关信息关键词监测,并且通过价格和交易规律特征判断商品是否异于正常商品,并符合传销特征来判断该商品是否有传销嫌疑。二、 虚假宣传包括但不限于以下具体行为:利用广告或者其他方法,对商品的质量、制作成分、性能、用途、生产者、有效期限、产地等作引人误解的虚假宣传;三、 刷单炒信包括但不限于以下具体行为:对平台新注册卖家或热销商品的暴增销量、集中退货、雷同用户评价、商品调换、物流空包等异常情况进行追踪取证监测。四、 价格违规包括但不限于以下具体行为:虚构原价、超低价欺诈(无法以宣传底价购买到商品)、虚假折扣欺诈、哄抬价格欺诈、价外加价欺诈、特价搭售欺诈、商品比价欺诈、以次充优高价销售。五、 商业诋毁包括但不限于以下具体行为:在网络经营过程中,损害他人商业信誉或商品声誉,侵犯他人商誉权的行为。六、 有奖销售包括但不限于以下具体行为:对有奖销售作虚假不实的表示,巨奖销售、利用有奖销售手段推销质次价高或积压滞销的商品。. 电商平台违规监测包括但不限于平台未履行以下法律法规规定的平台责任:平台规则的公示是否合法合规;终止网店经营是否公示;平台内知识产权侵权通知、声明及处理结果是否公示。3. 建设需求3.1. 总体建设内容1. 数据采集平台:数据采集平台的数据来源包括公网数据、电商平台报送数据、监管部门数据、投诉举报数据等。其中,公网数据主要从移动互联网定期自动抓取电商商品及卖家相关信息、网络舆情信息等; 2. 数据资源平台:数据资源平台提供数据融合存储功能,具备数据治理能力;3. 模型算法平台:采用NLP、OCR、CNN等AI技术智能,识别违规商品和行为,实现电商舆情监测、移动互联网中全量电商主体的风险等级分析功能;4. 大数据可视化平台:利用数据分析结果,进行数据多维度展示。5. 安全和运维管理平台:对接电子商务信用建设工程(网络交易监管平台)的总集成标段的安全和运维系统建设要求,建成统一安全和运维管理平台。3.2. 系统总体设计要求(对应评分标准)3.2.1. 系统整体架构设计要求通过全方位的采集相关数据,对采集到的数据融合存储和清洗,基于清洗后的数据针对性的建立各种分析模型,从而建立起多层次、全覆盖、高效率的社交移动电商风险监测预警机制。图 1系统架构要求投标人结合社交和移动电商监测系统提供整体架构设计3.2.2. 系统功能设计要求社交和移动电商监测系统功能包括数据采集功能模块、数据融合存储功能模块、数据分析功能模块和应用系统Web功能。. 数据采集功能具备对各类移动互联网渠道数据进行采集获取并识别的能力,包括:(1) 社交和移动电商APP对自营类电商平台APP和商家入驻类电商平台类APP内的信息进行采集。通过APP的商品目录结构遍历、对传播的商品链接抓取的方式,获取商品与店铺信息。(2) 微信公众号对重点公众号文章进行抓取,识别电商相关的公众号。(3) 微信小程序对主流的微信小程序进行采集,识别其中的电商类小程序,采集主体和商品数据,进行分析。(4) 社交平台对主流社交软件中传播的交易线索进行全面监测,获取商品与店铺信息。(5) 论坛贴吧信息采集与识别对论坛贴吧发布的信息进行监测,识别其中交易宣传相关的信息,提取其中的商品名、平台名、项目名、生产经营企业名、微信号、QQ号、电话、电子邮箱等信息。(6) 新闻客户端信息采集与识别覆盖当前主流新闻客户端进行全方位监测采集,在此基础上实现对国内外主要新闻客户端里的关于电商的相关报道进行动态采集,用于舆情监测。(7) 全网非平台类的销售网站识别通过对在全网的社交和移动电商平台内每日传播的亿级别的站点做网页内容采集,建立机器学习分类模型,识别出销售类网站。. 数据融合存储功能系统需要的存储资源在PB级别,需要通过大数据分布式处理技术来存储和融合运算;系统必须具备亿级节点和边的图数据的表达能力。基于海量搜索数据分析,支持亿级以上数据秒级响应检索,支持百亿级以上数据的统计分析、聚合分析、关联分析。. 数据分析功能.1. 违规商品识别基于全电商渠道数据发现移动电商平台并持续监测,通过商品分类信息库结合语义分析判定所售商品是否为禁售、限售、假冒伪劣类商品。.2. 违规行为识别基于全电商渠道数据,包括文本类和非文本类数据,构建违规行为知识库,识别违规行为,包括但不限于以下识别模型:1. 涉嫌传销识别2. 虚假宣传识别3. 主体违规识别4. 刷单炒信识别5. 价格违规识别6. 商业诋毁识别7. 有奖销售识别8. 平台违规识别.3. 电商舆情实时扫描子系统基于全网公开发布数据、传播路径,分析公众对电商监管领域相关热点事件和公共政策的认知趋势,辅助制定电商相关市场政策和法律法规。系统应具备舆情事件主动发现、趋势分析,舆情关注用户画像分析,舆情报告定制,舆情查看和告警,舆情相关报道列表,舆情监测关键词配置等功能。.4. 风险等级分析模块基于全量社交和移动电商主体库数据(包括但不限于公司主页内容、关联数据、客服通讯数据、官方APP数据等数据来源),聚焦主体典型风险维度,针对不同类型主体的商业模式,进行定性、定量分析运算,形成多维度评价。模块应具备风险平台的发现,风险分类,违规原因描述,风险平台影响用户趋势,市场主体关联等功能。. 应用系统Web可视化功能对电商大数据进一步挖掘,实现电商数据的全景可视化,发现一些规律性行为,让决策者可以快速的从宏观层面对市场整体情况和历史趋势做出判断。 要求投标人结合社交和移动电商监测系统提供详细的功能模块设计3.2.3. 系统业务流程架构设计要求社交和移动电商监测系统业务流程从采集数据、数据清洗、按数据规范入库至数据资源平台、数据交换共享、对外应用数据调用以及周边系统(网络交易监测系统、电子商务主体信用系统、网络交易监管协同平台、电子证据管理系统)数据对接的整体业务架构流程设计。要求投标人结合社交和移动电商监测系统提供整体业务流程架构方案3.2.4. 系统接口设计要求1. 系统内部接口设计,对社交和移动电商监测系统接口描述;2. 系统外部接口设计,通过网络交易监管协同平台系统接口要求,实现对周边系统:电子证据管理系统、电子商务主体信用系统、网络交易监测系统、国家市场监督管理总局以及其它省市市场监督管理部门数据接口交互、数据同步,接口设计要求至少包括以下几点:(1)接口的名称标识(2)接口在该应用系统中的地位和作用(3)接口在该应用系统中与其他功能和接口之间的关系(4)接口的功能定义(5)接口的规格和技术要求,包括各自适用的标准、协议或约定(6)各个接口的数据特性(7)各个接口的资源要求,包括硬件和存储资源分配(8)接口程序的数据处理要求(9)接口的特殊设计要求(10)接口对程序编制的要求要求投标人结合社交和移动电商监测系统提供数据接口设计方案3.3. 系统建设方案要求(对应评分标准)3.3.1. 爬虫建设方案要求提供数据采集需要的爬取服务、反爬服务、加速服务、解析服务;具备对采集数据的预处理能力,识别与电商相关内容;完成电商商品类目、价格、商品详情、图片、评论、网站用户的采集;具备持续对抗能力,能应对各数据源不断升级的反爬措施。爬虫方案能力要求l 灵活性具备良好的对外接口,不同的网站能适配不同的采集规则。l 低成本和高性能能够处理大规模的网页,并且运行在一个低成本的硬件环境中。l 速度和访问控制能够控制下载的速度l 可管理和可配置性能够监视系统的运行状态、动态调整运行参数。l 负载平衡性能够保证在一定时间内每个节点负责搜集的Web主机数目基本相等。l 健壮性能够处理不能连接的 URL 、异常的服务器反应等情况;能够及时发现故障节点,将其影响降到最低点。爬取能力包含但不于限以下要求:1. 支持普通网页爬取,网页内容服务在服务端渲染;2. 支持静态和动态网站采集。3. 支持网页API接口爬取,分析电商网站的数据组织方式,支持http、https协议的API接口数据爬取;4. 支持网页在客户端渲染的数据爬取;5. 支持数据加密后,通过模拟浏览器方式进行数据爬取6. 支持普通APP数据爬取,普通APP数据:APP数据接口没有加密,协议为一般的http,https方式。7. 支持加密APP数据爬取,加密APP数据:APP数据接口有随机参数的校验和加密。应对反爬能力包含但不限于以下要求:1.支持自定义UA和UA池,可以根据需求设置UA,或者从UA池中随机设置每次请求的UA;2.支持设置代理IP,并提供优质的代理IP池,能自动管理IP的可用性,即剔除无效的或者已经被封禁的IP;3.提供验证码识别,能进行字符型图片验证的识别;4.能进行用户行为模拟,对于反爬比较严密的网站,结合IP池、UA池,Cookie池,模拟实际用户操作行为,达到爬取数据的目的;加速爬虫能力包含不限以下要求:1.支持分布式爬取,爬虫规模可以横向扩展,爬取任务可以被分片、去重后分散在多个爬虫的worker上同时爬取;2.支持多任务调度,爬取任务可以按优先级进行调度。支持失败任务重试、单点worker故障后能进行任务转移;3.提供去重服务,支持待爬取任务根据URL去重、支持解析结果去重存储、支持按业务分组进行任务去重,同时支持重爬;4.提供资源下载服务,支持图片、视频的异步下载;资源下载完成后,提供下载完成的回调机制;解析能力包含不限以下要求:1.支持XPATH、正则表达式、CSS Selector数据解析;2. 支持使用javascript code进行数据解析;3.支持使用groovy code进行数据解析;4.支持网页配置数据解析的字段;5.支持对数据解析的字段进行数据校验,提供非空数据校验、日期格式数据校验、数字校验(价格)、图片校验;6.支持商品类目解析、价格解析、商品详情解析、图片解析、评论解析、网站用户解析;采集能力交付包含不限以下要求:采集服务发布上线时,按照需求给出的诉求配置采集类目、关键字、采集总量、采集周期等能力点。数据采集管控平台需要准备提供ui控制台,通过权限控制,实现多管理员的权限划分。完成采集任务的配置,包括采集类目、关键字、采集总量、采集周期等。采集状态的配置,可配置查看采集完成度,采集商品总量及每个类目、关键字下的数量等。除了爬虫技术、反爬虫服务、加速服务、解析服务要求外,还需要提供采集生命周期(爬虫生命周期、链接生命周期)、爬虫策略、爬虫任务调度与监控、爬虫对抗技术、爬虫数据预处理方案以及爬虫部署方案等;要求投标人提供详细数据爬虫建设、部署方案以及爬虫技术迭代和持续对抗方案,需针对不同的数据源3.3.2. 数据治理方案要求. 数据标准规范要求数据标准包括:基础数据标准、指标数据标准,主要是对指标的业务含义、规则做出解释,对指标数据类型、长度等技术参数进行定义。数据标准管理平台核心目标就是给用户提供简单易用数据标准创建,并落地映射至数据库,可及时查看标准,保证用户对同一指标(事物)的理解是一致的1、支持新建数据标准系统提供灵活方便的操作界面,根据用户选择合适的方式,快速创建数据标准,支持用户手动创建数据标准,同时支持更新、删除等操作。2、支持数据标准分类不同的数据标准拥有不同的业务含义,故数据标准管理平台可对标准进行分类,可依次设置标准主题、标准大类、标准子类、标准小类,让数据标准管理更加方便有效合理。3、支持数据标准的查询检索,并可根据需要选择数据标准的编号、中文名称、创建时间、标准状态等进行检索。要求投标人结合社交和移动电商监测系统提供数据标准规范. 数据质量管理要求面对海量电商数据资源,如何管理和治理这些数据,是大数据的基础。通过数据治理的手段来提升数据质量,建立数据的置信度评价体系是用户很重要的业务需求。数据质量管理目标要求:1.在数据处理主要阶段设置数据质量监测点,支持对数据质量的全程监控,建立有效的数据质量监控机制,提供全面及时的数据质量报告,预防和控制错误范围的扩大;2.建立数据质量知识库,积累数据质量问题及其处理过程的相关知识,为相同或相近问题的处理提供参考;3.初步建立数据质量评估的应用,通过评估发现数据质量潜在的问题和规律;4.开发数据质量对外服务功能,提高数据质量管理对业务管理系统的技术支撑力度;5.初步建立数据质量监控和预警,通过和运维管理系统的接口,实现数据质量问题的发现、处理、闭环等流程管理。. 元数据管理要求建立元数据管理体系,提供可靠、便捷的工具支持。绘制数据地图、统一数据口径、标明数据方位、分析数据关系、管理模型变更。从而更加有效的发掘和利用信息资产的价值,实现精准高效的分析和决策,推进系统变更管理,降低项目风险。要求投标人提供元数据管理方案,包括异构数据管理、元模型管理、元数据采集以及元数据分析. 数据安全管理要求数据安全管理提供对数据安全规范的定义,根据此规范对数据进行备份、审计以及数据权限的管理,保障行业信息化过程中的数据的安全可用。数据安全管理的主要目标就是审查信息系统和数据的安全隐患。如:舞弊、系统中断、非法更改、不恰当的访问等。这些安全隐患可能中断正常工作活动,丢失宝贵的信息资产,泄露隐私等。因此,保障数据的安全为正确判断信息的真实性、可靠性提供依据。要求投标人结合社交和移动电商监测系统提供数据安全管理方案3.3.3. 数据仓库建设方案要求数据仓库是实现数据资源跨区域、跨层级、跨部门的互联互通、融合共享的基础。为了将数据建设问题简单化、以及便于处理业务的变化,对数据仓库分层建设。基础数据层:结构与源系统保持一致的增量数据。汇聚爬虫数据和部门业务系统源头数据。也是ETL加工过程的缓冲区;操作数据层:指结构与源系统保持一致的全量数据,做了标准化数据清洗;数据仓库明细层:对数据按照主题划分,整合,清洗,形成一套标准化数据模型;专题应用层,服务于单个应用,应用之间数据不能共享,所有数据均来自操作数据层和数据仓库明细层;结合投标人社交和移动电商监测系统业务和需求,提供电商数据仓库建设方案。3.3.4. 模型算法平台技术方案要求模型算法平台功能主要实现数据分析功能,识别违规商品和行为、电商舆情分析、风险等级分析。. 模型建设要求:系统需针对业务需求中的不同违规内容建立相应的违规识别模型设计,针对当前主流违规平台对抗手段(图片、视频等非文本呈现)设计相应的对抗模型。系统需包含但不限于以下监测模型:(1) 违规商品识别模型基于全电商渠道(微信、QQ、微信公众号、电商平台、普通网站)数据发现移动电商平台并持续监测,通过商品分类信息库结合语义分析判定所售商品是否为禁售、限售、伪劣类商品;通过自然语言处理技术和图片OCR、图片相似度判定技术,鉴定内容中商品名、公司名、商标、标识、厂址等信息是否侵权。(2) 涉嫌传销与违规直销识别模型需要通过对涉嫌传销、违规直销行为建模,识别违规推广经营的网址、APP、公众号、项目名、平台名、企业名,对其参与人数规模、地域分布、发展变化趋势等进行监测。(3) 虚假宣传识别模型依据广告相关的有关法律条款,构建一套违规宣传词典库,对网站、APP、公众号的内容进行词典库匹配,找出违规的宣传内容,关联其违规主体。支持对文字类宣传载体、图片类宣传载体、语音类宣传载体、视频类宣传载体的分析识别。(4) 违规经营识别模型构建企业资质库包括增值电信业务经营许可证、互联网药品信息服务资格证、互联网药品交易服务机构资格证书、互联网保健食品交易服务资格证、营业执照、电信增值业务许可证等、医疗器械经营许可证等。(5) 刷单炒信识别模型抓取商品的评价信息,通过对评价建模分析,识别其中可疑的评价商品,包括评论账号头像相似度分析、评论文本内容相似度分析、评论账号昵称相似度分析、评论账号购物记录相似度分析、刷单账号标记等。(6) 价格欺诈识别模型抓取商品价格进行长期监测,识别其中的价格欺诈行为,包括虚构原价、虚假折扣、哄抬价格、特价搭售、虚假宣传“全网最低价”等。(7) 电商舆情分析模型包括但不限于于电商风险事件感知模型、情感分析模型、态势分析模型。(8) 风险等级分析模型包括但不限于存货指数模型、平台指数模型、商业指数模型、经营指数模型等。要求投标人提供各业务场景的监测模型,通过算法平台提供详细的建模方案,具体模型方案要求包含模型选择、模型训练、模型评估、模型应用等。. 算法支持要求:1. 支持常见的机器学习算法,包括监督学习(SVM支持向量机、贝叶斯分类器、最近邻、神经网络、决策树、逻辑回归等)和非监督学习(K-means、主成分分析方法PCA、DBSCAN算法等);2. 底层支持CPU/GPU的扩展、硬件资源的调度和分配、具有弹性计算能力;3. 数据解析,将采集的数据解析成可以识别的数据;4. 集成深度学习框架、Spark、机器学习;5. 支持模型的管理(模型加载、模型资源调度和分配、模型评估、模型部署);6. 平台加固和安全能力。 要求投标人结合系统功能提供社交和移动电商监测系统算法平台详细设计方案,包括算法平台部署架构方案,人工智能技术、常用算法库、各违法行为监测模型,模型管理方案3.3.5. 大数据可视化方案要求大数据可视化方案需支持多维视图展现、视图过滤、视图分析、视图统计、视图窗口布局、视图历史回溯等功能;通过大数据可视化能够从宏观层面对市场整体情况和历史趋势做出判断。大数据可视化需要对数据采集平台、数据资源平台、模型算法平台、应用系统、安全与运维管理平台的运行情况进行展示,包括但不限于:1. 采集对象统计情况包括采集APP、公众号、微信小程序、支付宝小程序、抖音小程序、网站、社交媒体数量2. 采集结果统计情况包括采集电商平台数量、电商类型分布、电商平台主体归属地、主体注册时间、主体注册资本等统计3. 资源平台运行统计情况包括硬件资源(存储、CPU、内存、网络)的使用情况4. 模型算法运行统计情况包括违规电商平台数量、违规类型分布、违规平台数量趋势、违规主体地域分布等5. 应用系统运行统计情况包括系统活跃用户数量、违规处置情况等6. 安全与运维平台统计情况包括系统所遭受安全攻击次数、数据接口调用情况、数据交换情况、敏感权限活跃情况等。电商数据统计分析展示:大数据可视化方案需实现电商数据统计,提供了一套多维的统计功能。通过多条件属性字段来查询特定范围内的查看各个数据的走势、月度走势以及年度走势。用户可以通过统计图形象、直观的明了不同种类的实时数据或不同月份之间的间接关系。用户可以通过观察折线图清楚的看出实时数据的变化趋势;可以通过观察柱形图分析实时数据在不同条件下的优劣程度;也可以通过饼图分析实时数据在一定时期内的各项指标所占比例等。(1)电商主体分析满足通过登记机关等条件,进行单一或组合条件统计。实现对电商主体的统计,并将结果以图、表等形式进行展现。(2)交换统计分析满足通过数据交换时间、交换单位等条件,进行单一或组合条件统计。实现对交换单位数据交换情况的统计,并将结果用图、表等形式展现。(3)数据质量统计分析满足通过数据交换时间、交换单位等条件,进行单一或组合条件统计。实现对电商数据质量情况的统计,并将结果用图、表等形式展现。(4)数据比对统计分析满足通过比对时间、交换单位等条件,进行单一或组合条件统计。实现对交换共享数据比对情况的统计,并将结果用图、表等形式展现。(5)趋势分析满足通过统计时间、处罚单位,处罚类型等条件,进行单一或组合条件统计。实现对电商主体被处罚(工商处罚、许可单位行政处罚,司法判决等)情况的统计,并将结果用图、表等形式展现。数据可视化系统其他图形展现支持以下内容:支持图表基本类型包括:柱形图、折线图、面积图、饼图,、散点图、雷达图、仪表盘、全距图、股价图、多坐标轴混合图等,支持多种类型的混合显示。支持地图报表,即支持以地图形式表现数据;支持气泡图展现。支持数据图表,即支持在图表当中添加数据表,使得图表分类轴与数据表列名一一对应的图表展示。支持在线切换图表样式,即仅需要在设计中设计一个图表,选择多种展示类型即可。支持图表的灵活交互,即可通过点击图表系列改变同一报表中的其它图表元素,达到图表数据联动分析的效果。支持双数据模型统计图,即可以数据集为数据模型设计统计图,也可以以单元格为数据模型设计统计图。支持图表的数据点提示,提示内容可自由组合设定。支持图表热点链接,即图表中可通过点击图表的元素实现数据钻取,且链接传值能够支持中文。支持图表属性,即图表标题可以支持公式动态获取,分类轴标签支持多种显示方式;数值标签可自由配置多种组合;图例支持自由定义显示位置与个数;绘图区背景与报表背景除支持常规的颜色,纹理,图片背景,还能够支持渐变色背景。提供多种可视化场景模板:提供动态监测直播、数据综合展示、设备监控预警等多种场景模板,稍加修改就能够直接服务于可视化需求。拖拽式界面布局通过拖拽即可实现灵活的可视化布局,在模板的基础上任何人都能够发挥创意,实现自定义的可视化应用。动态地理绘制以WebGL技术作为支撑,能够绘制海量数据下的地理轨迹、飞线、热力、区块、3D地图/地球,支持多层叠加。要求投标人结合社交和移动电商监测系统提供大数据可视化技术方案以及展示内容3.3.6. 数据共享方案要求共享平台经过简单配置可以把数据库中的数据共享给其他系统。主要基于数据仓库建设的数据库如何对外提供共享,包括数据库每个层次共享方式,包括API接口、数据库访问方式、多租户方式、数据交换等等。在数据资源平台上,不论是以数据提供为主还是以数据使用为主,都是数据资源平台的的参与者。上层的算法应用以及需要服务的业务系统应用,都需要基于原始的数据进行混合计算,且有对外部数据整合进行混合计算的需求,都希望通过各方数据补全自身数据,进行对自身服务或者业务应用的提升。数据共享提供以下功能满足数据共享场景:针对不同的系统、不同的权限级别,可以提供差异化的数据。1、数据访问控制大数据平台具有海量数据的处理能力,同时它也具有多租户的特性,各部门的数据将会存储在各租户之内,租户间存储、计算等资源隔离,默认情况下无法直接跨部门访问数据。通过数据访问控制,针对这种数据资源平台下多租户间的数据交换,这种模式的交换数据不发生物理上的搬移,“数据可用、交换不搬家”,实现直正极速的数据共享。2、数据授权方式有3种访问控制方式:ACL(Access Control List)、Policy、Label:1)ACL:ACL授权(即访问控制列表, Access Control List)是一种基于实体对象的授权。只有当被授权内容(表、函数、资源等)已经存在时,才能进行ACL授权操作;当对象被删除时,通过ACL授权的权限数据也会被自动删除;2)POLICY:Policy授权是一种新的授权机制,它主要解决ACL授权机制无法解决的一些复杂授权场景,比如:一次操作对一组对象进行授权,如所有的函数、所有以 “abc_” 开头的表、带限制条件的授权,如授权只会在指定的时段内才会生效、当请求者从指定的IP地址发起请求时授权才会生效、或者只允许用户使用SQL(而不允许其它类型的Task)来访问某张表;3)LABEL:基于标签的安全是租户级别的一种强制访问控制策略,它的引入是为了让租户管理员能更加灵活地控制用户对列级别敏感数据的访问。3、数据安全交换区提供数据安全区,安全交换会将双方相应数据放入安全交换空间中进行不公开计算,并将计算所得结果提供给需求方,防止使用方直接接触数据,对应数据可用不可见。安全交换区除了提供对应数据加工内容,同时提供对应更严格的加工和审计模式,保障强管控的数据安全共享交换。要求投标人结合社交和移动电商监测系统提供数据共享平台详细设计方案3.4. 系统性能及技术要求3.4.1. 数据爬虫技术指标要求1. 支持每天10亿次页面抓取;2. 支持每天1000万去重商品爬取入库;3. 支持每天1000万商品分析;4. 支持电商APP全类目爬取;5. 支持对网址进行去重、抓取失败重试策略;6. 支持对每日百万级新增微信公众号文章的去重、内容抓取;7. 支持采用Xpath、CSS Selector的配置化策略进行制定数据项提取;8. 支持应对常见的反爬策略;9. 支持实时获取主流手机应用市场应用更新;10. 支持特定场景下使用群控机器人进行数据采集;3.4.2. 电商平台态势(影响范围)感知要求1.能够实时评估主流社交和移动电商APP的影响范围(地域分布和影响人数),针对违规平台能够根据态势(总体影响范围)设定处置优先级;2.能够对主流社交和移动电商平台(公众号、支付宝小程序、微信小程序、抖音小程序等涉及网络交易的平台)进行态势影响评估(地域分布和影响人数),并对相关违规平台根据影响评估设定处置优先级;3.能够对微商平台进行态势影响评估(地域分布和影响人数),并对相关违规平台根据影响评估设定处置优先级。3.4.3. 模型识别要求1. 重点监测的电商或产品,数据更新周期小于10分钟;2. 单一商品所有功能识别要求小于500ms;3. 对于需要全库操作的模型初始化和使用中的终身学习机制下的模型再训练,对于时效性需求并不高,训练时间预期为2-3周;4. 完善的模型再调优,上线发布,回滚,流量分配测试的机制, 具体要求如下:l 灰度:规则在上线前,需要进行灰度测试验证。规则支持创建一个或多个规则灰度版本进行测试,规则灰度不影响正式流量的运行,同时也不会对正式结果产生影响,即使灰度规则命中了,也不会执行灰度规则的动作。灰度规则的运行模式:将进入规则正式版本的流量,按比例(如10%),运行灰度版本的规则,并记录灰度规则的运行结果,通过查看正式规则与灰度规则命中结果的对比,并分析命中结果有差异的部分,确定灰度规则的运行效果;l 版本:规则需要有版本管理。可以进行版本之间的对比;l 回滚:在必要的时候,如误发布,要求能够选择任一版本进行回滚;l 熔断:规则的识别命中需要有熔断保护,以避免出现大规模误命中;5. 识别技术指标:l 精确率 = TP / (TP + FP),表示返回的正例中真正例所占的比例,要求大于90%,减少人工复核工作量;l 召回率 = TP / (TP + FN),表示返回的真正例占所有正例的比例,要求大于80%,提高灵敏度。6. 支持秒级返回图片检索结果7. 至少支持百万级别的相似图库管理。8. 图库内样本的增删动作至少需要在1分钟内生效。9. 至少支持50QPS的并发检索,并支持随时进行弹性扩容。3.4.4. 应用性能要求1、支持开放的体系结构,支持主流厂商的硬件及操作系统平台,支持跨平台运行。2、Web端采用现代化的前后端分离架构,支持3层(浏览器前端层、应用服务层、数据逻辑层)或多层体系结构,浏览器前端层采用MVVM结构、模块化和异步加载的设计,支持JavaScript标准ECMAScript2016、HTML5及CSS3规范,应用服务层采用非阻塞异步IO特性的NodeJS开发模式,支持最新的JavaScript标准ECMAScript2017。 3、数据格式遵循系统总
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025新疆天筑建工集团有限公司招聘计划备考练习题库及答案解析
- 小学消防安全主题班会课件讲课文档
- 2025四川广元市朝天区医疗卫生辅助岗位招募10人备考练习试题及答案解析
- 2025杭州市临平区公开招聘幼儿园劳动合同制教师70人考试参考试题及答案解析
- 2025湖南省地质院直属事业单位高层次人才招聘59人备考练习题库及答案解析
- 病历管理制度与病历书写规范考试题及答案
- 加油站安全考试试卷试题及答案
- 2025年甘肃省定西市岷县维新镇卫生院招聘乡村医生备考练习题库及答案解析
- 2025西安市渭北中学招聘考试参考试题及答案解析
- 育婴员理论知识考核试题题库及答案
- 汽车保养基础知识优秀课件
- 青少年运动员 运动损伤的预防 课件
- 音乐《上学歌》课件
- 绿色校园创建资料
- 污水处理池 (有限空间)作业安全告知牌及警示标志
- 2022年十部经典的三级片电影
- 六三制新青岛版四年级科学上册第一单元《动物王国》全部课件(一共5课时)
- 消防安全培训及应急演练主题教育课件PPT模板宣传PPT动态PPT
- 顶推法钢箱梁安装施工方案
- 中国诗词协会入会申请表
- 新版人民音乐出版社三年级(上册)音乐教案简版
评论
0/150
提交评论