版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据分析系统需求
仅为需求基本框架,需要根据贵企业产品、技术路线详细面议。
目录
一、系统定位...............................
二、功能模块...............................
2.1爬虫系统................................
2.1.1数据源.............................
2.1.2爬虫系统功能.......................
2.2数据处理、存储、计算系统...............
2.2.1数据处理模块.......................
2.2.2数据存储模块.......................
2.2.3数据计算模块.......................
2.3数据分析、可视化系统...................
2.4对外接口................................
2.4.1会员制体系.........................
2.4.2其他...............................
2.5其他....................................
2.5.1数据痕迹
2.5.2信息安全
2.5.3注意事项
1、系统定位
从数据接入到数据应用,我们需要【大数据分析系统】包括
几大功能模块:
(1)爬虫系统
(2)数据处理、存储、计算系统
(3)数据人工智能分析,可视化系统
(4)外部接口
其中第(3)模块是关键,需要结合我们企业业务方向建设
有关的数学模型,进行人工智能的自动分析。
爬虫系统可以从指定网站自动出J进行信息日勺抓取,对数据库
中的已经有词条进行更新或新建,或者从全站按照关键词抓取信
息,更新数据库中词条,爬虫搜集到日勺数据也需要存储到系统中。
数据库系统可以将企业既有资料分库录入系统,生成词条,
词条之间相互关联,可以实现跳转,可视化查看;存储爬虫得到
日勺数据。数据库中的词条或者数据源大多是国外的I,例如美国,
日本等,波及到H勺人物或者其他词条会有多种语言H勺体现。
系统可以结合爬虫的数据、库中本来的数据按照一定内容生
成词条自身的时间轴,多库之间词条的日勺关系图。系统需要与外
部互联欧I接口,包括微信平台,天蝎系统,邮件营销平台,调查
问卷分析平台。
2、功能模块
2.1爬虫系统
2.1.1数据源
1)网站,可能是信息变化不大日勺静态网站,也可能是信息
在实时更新H勺动态网站,例如博客或者论坛。网站库不定时更新。
2)数据库,需要模拟登陆,从某些数据库中抓取数据,例
如论文或者专利数据库等,可能是从国内或者国外的数据库网站
中。
3)自媒体,例如Facebook,twitter等,需耍从中抓取某
些个人信息,例如一种人的邮箱,可能需要与企业已经有的天蝎
系统结合,从天蝎系统已经分析出日勺个人信息Excel中抓取所需
信息。(可详细商议)
2.1.2爬虫系统功能
1)爬虫系统需要从指定数据源网站中实时抓取信息,通过
实体抽取,和数据库中的词条进行关联,自动更新数据库中已经
有欧I词条。
2)可以设定关键词,从全站以及所有数据源中抓取信息,
进行数据处理后,按照词条精确匹配,存入数据库;
3)可以按照顾客指定日勺关键词在指定的网站中抓取信息,
生成成果。
4)爬虫得到的信息生成的汇报等可以进行导出。
数据处理在更新或增加词条时需要将抓取到的信息与词条
中的属性进行匹配,将对应日勺信息录入。可以是实时更新,自动
匹配更新;可以是非实时的,有一定的人工干预。由于库中数据
有一大部分是国外的,有某些属性的显示方式并不唯一,需要有
・定口勺匹配规则。
2.2数据处理、存储、计算系统
2.2.1数据处理模块
系统需要可以对导入系统的文档等数据和爬虫得到的数据进
行数据的预处理,进行分词切词,实体抽取(可能为中英日文)。
需要可以自动增加新词条,对比既有词条实现词条H勺实时更新;
或者也可以非实时更新可以有一定日勺人工干预,进行词条日勺半自
动化增长。处理过程需要考虑处理口勺规则和词条匹配的规则。
2.2.2数据存储模块
存储在数据库中日勺数据分为几部分:
1)构造化数据
分词条存储在数据库中,词条分为:调研人物库,专
家库,论文库,专利库,领域库,专题库,快讯库。
还需要存储词条的某些非业务属性:词条的负责人,
参与人,时间周期,存储词条自身的时间轴,上传的
联络痕迹等。
2)非构造化存储
爬虫来的网页,文档(PDF、Word、Excel.PPT、图
片、视频)图片,视频。
2.2.3数据计算模块
数据库系统具有如下词条库:
(1)调研人物库:生成人物简历,信息包括:
•照片,姓名。
・基本信息:单位,语言,国别,生日,所在地,曾住地。
•联络方式:电话传真邮箱即时通讯方式
•教育经历:时间学习单位专业学历/学位
•工作经历:时间工作单位职位备注
•官方网站:官方人物数据库社会人物数据库
•学术状况:研究领域论文状况:包括引用次数的表格和详
细论文。专利状况编写书籍参与会议表格所受奖励表格
•合作项目:次数跨度波及单位详细合作事件
•社会活动:媒体采访政治活动来华交流
・国内外自媒体:在国外社交网站上日勺交友列表
•人脉关系:总结(共多少人等)姓名、职位日勺表格家庭状
况
•调研总结及合作提议:调研总结合作提议
•原始信息来源网站
•原始文档
(2)专家库:生成专家简历,包括:
•照片,姓名
・基本信息:国籍出生年月出生地语言种族
•联络方式:电话邮箱
•教育状况
•工作状况
•合作状况
•所属学会、协会或团体
•其他信息:研究领域获奖头衔
•原始文档
(3)领域库:有一定的分类,信息包括:
•从事研究有关领域的人员信息:包括姓名,所在地,毕业院
校,单位等
•从事有关行业的企业、机构信息:分国别进行企业简介包括:
名称,类型,地址,联络方式等
•本领域的研究成果等
•领域有关H勺会议,事件等信息:会议举行时间,重要参与人
员,地点,名称。
•领域有关论文资料:论文名称,刊登日期,作者等。
•领域有关:专题汇报,名称,原始文件
(4)专利库:信息包括:
•专利名称
•专利申请时间,国别
•专利有关领域,
・专利波及单位或学校
•专利波及人员
(5)论文库:信息包括:
•论文题目,作者,国别
•所属领域
•刊登时间
•论文原文
(6)专题库:将之前写过的专题汇报做整顿,信息包括:
•题目,
•提交时间,
•详细汇报:可以查看。
(7)快讯库:之前写过的快讯导入,或者手动添加,内容
为:
•快讯标题,
•添加时间,
领域,
•详细内容,原始文档。
系统自身包括以上几种词条库,库中数据实现可视化查看:
1)以上数据首先需要从企业已经有H勺文档中导入,自动匹
配词条的属性,生成词条的可视化列表,其中词条的每一种属性
作为一种标签,顾客可以自己勾选需要口勺属性,自定义在页面中
显示0
2)需要针对不一样的国别对词条设置待遇、晋升机制的参
照值:针对不一样国家公务员,科研机构,高等院校有不一样的
待遇参照原则,需要在录入词条时可以人工选择,可以进行可视
化对比。
3)库中数据口J以进行导入导出。
4)数据库中每一种词条都要有对应H勺负责人,参与人,每
一种词条都要有对应H勺创立更新时间和修改、更新浏览痕迹以及
修改内容。对于某些词条,员工可以上传有关此词条的联络痕迹,
例如,专家库中,员工可以上传某些和这个专家欧I联络记录。系
统可以记录每个员工使用了多少词条,进行可视化查看。
系统中日勺存储数据重要包括构造化数据:词条数据;非构造
化数据:爬虫系统爬取的或者第三方导入日勺网页、文档(PDF、
Word、ExceKPPT、图片、视频)等。
2.3数据分析、可视化系统
系统需要可以进行关联分析,生成可视化列表,重要功能为:
1.库中构造化数据自身要进行关联分析,不一样库中的词条
会有属性可以进行相互关联,点击一种库中某一词条的有关属性
可以进行跳转到另一库中日勺有关词条中。
2.可以根据一种关键词,从已经有数据库全部词条库、库中存
储的非构造化数据(爬虫数据等)中提取出来,形成关系图。如
人物关系图或者机构关系图。若是输入人物但愿包括人物的人际
关系图,排出交友谊况,企业,领域,会议,研究等有关信息,
交友谊况要根据人物共同出现日勺次数排序。若是输入企业或者机
构可以查看企业地点,国家,类型,建立日期企业或机构的人员,
分支机构等基本状况。若输入会议名称可以看到会议举行方,举
行地点,主题,波及领域,参会人员等。若输入领域可以查看
领域有关欧I科研人员,领域得到研究成果,有关论文,研究机构
等。关联需要可以查看到信息来源。
3.进行多维度分析,例如人物库中,可以生成一种人的时间
轴,记录这个人的重要事件。可以生成这个人日勺爱好爱好图,家
人关系图等。行业技术机构库中可以生成重要事件H勺时间轴等。
4.输入两个关键词可以生成这两侧关键词之间H勺关系图,可
以显示出多层关联,可以查看每层关联的证据。
5.可以对同一库中数据进行模糊查询,全文检索,或者按属
性条件进行多种组合的I筛选查询。
6.可以实现2-3同库词条日勺的对比,可视化展示出来。
2.4对外接口
241会员制体系
与微信开发对接,实现推送消息半自动化导入,系统数据库
可以作为一项客户服务对顾客有权限开放。
1.与企业已经有日勺会员制微信体系的对接,系统后期作为客
户可以使用日勺数据库商品,作为一项客户服务对顾客有权限开
放:需要可以把控客户的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 47551-2026塑料有害物质限量要求多溴联苯和多溴二苯醚
- 土方路基检查记录表(加筋土工材料)
- 项目部安全资金投入计划月度报表
- 项目经理就餐记录
- 《老年服务伦理与礼仪》全套课件 项目1-9:老年服务伦理认知 -老年服务场合礼仪实践
- (辅导班)2026年新高三数学暑假讲义(基础班)第14讲 导数的概念与运算(解析版)
- 2025-2026学年浙江省台州市高三第一次模拟考试语文试卷含解析
- 【2026】年公务员考试山西省申论巩固难点解析
- 【2025】荆州市松滋市定向招聘大学生村级后备干部考试真题
- 26年基础护理师资培训课件
- Windchill系统使用操作手册
- T/CHTS 20030-2023公路锌铝复合涂层钢护栏
- 2023气体绝缘金属封闭电器用全氟异丁腈混合气体密度继电器技术规范
- API STD 667-2022 板式和框架式热交换器
- 2024年甘肃定西中考数学试题及答案2
- 2023BIM三维场布实施标准
- 《建设工程造价咨询工期标准(房屋、市政及城市轨道交通工程)》
- 2024年新课标高考物理试卷(适用黑龙江、辽宁、吉林地区 真题+答案)
- 8S管理培训基础知识课件
- 小学科学教学仪器配备标准
- 城市智慧路灯(5G综合灯杆)建设工程项目(含方案设计及项目实施方案)
评论
0/150
提交评论