互联网大数据分析与应用课件_第1页
互联网大数据分析与应用课件_第2页
互联网大数据分析与应用课件_第3页
互联网大数据分析与应用课件_第4页
互联网大数据分析与应用课件_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、互联网大数据分析与应用姜青山 博士/研究员中科院深圳先进技术研究院2014年12月06日中国科学院深圳先进院研究员,博导厦门大学软件学院院长,教授、博导加拿大Manifold数据挖掘公司副总裁、创始人加拿大多伦多大学博士后加拿大Sherbrooke大学计算机科学博士日本千叶大学数学博士网络安全、数据挖掘在Pattern Recognition、IEEE Trans. on SMC、TKDE、SIGKDD等国际期刊和会议上发表论文150多篇;主持和承担国家自然科学基金、国家发改委云计算安全专项、863和广东省重大科技专项、以及企业委托项目40余项;研究成果已经技术转移给金山云安全软件系统,并投入

2、商业运营2022/7/20 汇报提纲1.大数据时代面临的问题2.海量恶意软件鉴别技术3.反钓鱼检测与防御技术4.大数据时代的移动电商5研究工作成果与研发团队发展大数据已经成为国家、社会、产业的一个重要话题。目前,欧美、日韩等国已经将大数据上升为国家层面的战略2012年3月22日,奥巴马宣布投资大数据相关产业发展,将“大数据战略”上升为国家战略,甚至将大数据定义为“未来的新石油”越来越多的政府、企业,正逐步意识到这隐藏在数据山脉中的金矿,数据分析能力正成为各种组织的核心竞争力大数据安全保障问题急待解决。大数据时代已经来临?5互联网行业拥抱大数据的关键因素网络终端设备网络技术的升级和终端设备的爆发

3、,使今天的用户能够使用多种设备、从不同位置、通过多种手段来接入互联网,并在这一过程中不断创造新内容在线应用和服务越来越丰富的在线应用和服务,不断激励用户创造和分享信息,尤其是社会化媒体业务,带动图片、视频等非结构化数据飞速增长与各垂直行业的融合互联网作为一个高渗透力的行业,正在与各垂直行业发生深度的融合,原本隐藏于先下的孤岛信息,源源不断的输入到线上。互联网行业对数据实时分析要求较高,例如广告监测、B2C业务,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验和快速准确营销的目的。目前互联网企业面对大数据,会普遍感觉到实时分析能力差、海量数据处理效率低、缺少分析方法、分析软件能力差等

4、问题。互联网行业大数据分析面临的主要问题互联网大数据技术的应用,会首先带动社会化媒体、电子商务的快速发展,其他的互联网分支也会紧追其后,整个行业在大数据的推动下将会蓬勃发展。互联网拥抱大数据大数据行业应用6应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)纵轴契合度:表示该用户的IT应用特点与大数据特性的契合程度;横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性;注:该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值HighMidLowLowMidHigh优先关注行业用户应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。值得关

5、注行业用户应有特点与大数据的契合度及应用可能性综合较高适当关注行业用户两个维度暂时都不具备优势,可适当给予关注互联网(电子商务)契合度流通零售制造大数据、云计算及移动互联网的关系新兴的“大数据”,实际是数据大集中、云计算与虚拟化、移动互联网三者发展的必然产物。大数据是本,云计算是术,移动互联网是用;移动互联网是数据源,云计算是术,大数据是产生及分享的产物;云计算 /虚拟化移动互联网大数据基于大数据环境下所带来的安全挑战大数据让现有IT和业务运营模式发生同时,也将会重新定义信息安全:大数据环境下的应用防护风险,包括资源滥用、恶用、拒绝服务攻击、不安全集成模块或API接口及WEB安全【应用防护安全

6、】虚拟环境所产生的安全风险【虚拟化环境安全】BYOD-移动接入安全,包括身份仿冒和信息劫持【BYOD移动接入安全】 恶意的内部员工及数据隐私保护【安全与大数据融合】央视曝光“危险的WiFi” 无线上网存巨大安全隐患/news/a/2014/0618/23/27493109.shtml危险一:WiFi钓鱼陷阱危险二:WiFi接入点被偷梁换柱斯诺登仅用“网络爬虫”软件获取机密文件/article/2014-02-10/2818346-Edward-Snowden-NSA-web-crawler-security“网络爬虫”是一个自动提取网页的程序,它从网上下载网页内容为搜索引擎快速提供结果网络安全

7、隐患无处不在10展会和商业中心导购与推荐服务LBS(Location-based service)2022/7/20 汇报提纲1.大数据时代面临的问题2.海量恶意软件鉴别技术3.反钓鱼检测与防御技术4.大数据时代的移动电商5研究工作成果与研发团队网络威胁快速增长恶意程序为了获取客户机密信息或金钱而层出不穷逐利性多变性复杂性SpamSpywareBotnetsWormsWeb总量达到1500万左右单月增长超过64万支网络钓鱼与攻击流程网络钓鱼是指通过欺骗性垃圾邮件、即时通信留言、社交网络等方式,骗取用户访问虚假仿冒的钓鱼网站,引诱用户泄露敏感信息的行为,给商家和个人造成经济损失等危害。僵尸网络B

8、otSecurityHolesVirusesSpywaresMalware垃圾邮件Spam mails钓鱼邮件钓鱼站点SecurityHoles准备广泛散布控制所有僵尸节点发动攻击钓鱼网站的攻击流程快速增长的数据正在改变着内容安全的要求00110101010100010111110100101000101110101010110101000101001001010001000100101010111010110100100100010101010100010101010010010101011010110110100100010100100101010111010010010010101011

9、01011011110100000100010101010111110101001001000101001001010101Network Information FlowWho is sendingWhat toWhere?快速分析和处理海量信息是传统内容安全解决方案所面临的巨大挑战!Where300亿的页面Who10亿使用者WhatTB的数据 网络信息流WebWebWebWebWeb典型的Web威胁攻击行动Internet上大量的邮件服务器和网站服务器 自动下载木马 发送钓鱼邮件 用户点击邮件中的链接 木马自我更新 收集用户信息并提交解密黑色产业链7/20/202216Confidenti

10、al-发送垃圾邮件-DDOS攻击-网站挂马-建钓鱼网站入侵活动:资金流向:帐号密码被盗窃后在黑市交易计算能力被在黑市标价出租隐私资料被盗窃-勒索或泄漏游戏玩家虚拟装备中间商6.地下交易-数百万肉鸡控制权信用卡犯罪团伙信用卡受害人信用卡盗刷商业机密泄露公司竞争对手广告商/钓鱼集团/其他黑客集团更多受害者-商业机密被盗-隐私活动被盗摄-隐私照片网上流传5.肉鸡控制权2.病毒1.漏洞信息病 毒僵尸网络集团牧马人(黑客)病毒制造者漏洞挖掘者3.后门/僵尸病毒4.弱鸡控制权商业机密/隐私控制命令7.盗号木马攻击者肉鸡中间商肉鸡控制权勒索2022/7/202022/7/2017恶意软件(Malware)及

11、其危害恶意软件病毒蠕虫木马后门程序广告软件间谍软件僵尸网络等常见恶意软件鉴别方法恶意软件鉴别方法简要说明特征码鉴别反病毒领域对恶意软件进行鉴定和防范的主要方法启发式查杀根据反病毒专家总结的分析可疑程序样本经验,在没有符合特征值比对时,根据反汇编后程序代码所调用的指令判断程序是否恶意数字签名正规软件开发者通常会对软件代码进行数字签名,从而证明软件没有被非法篡改且来源可信虚拟机用程序代码虚拟CPU、寄存器、硬盘、内存、网卡等设备,用调试程序调入可疑恶意程序样本,放到虚拟环境中执行数据挖掘技术通过对已知恶意软件和正常软件的学习,采用合适的算法构建具有预测能力的模型,然后通过这个模型实现对未知软件的预

12、测云查杀融合了云计算、数据挖掘、恶意软件鉴别、隐私保护、数据安全、入侵行为检测以及安全防御等新兴技术和概念 移动恶意软件的攻击目标主要是手机或者具有无线功能的PDA,移动恶意软件可能导致系统崩溃、机密信息的损失或泄漏数据来源:360互联网安全中心数据来源:2013年6月外媒Juniper Networks公布数据移动恶意软件各大移动安全厂商现状厂商特色缺陷传统的特征码技术、主动的启发式分析技术、云安全扫描能耗大、特征库更新频繁本地和云查杀,扫描已安装软件的信息(包括包名、UID、版本号以及软件证书等)、黑名单技术准确率不高、特征库更新频繁多引擎查杀(双引擎本地查杀和云查杀)能耗、资源消耗较大首

13、款APP行为管理软件,专注于分析手机软件的不良行为实时性要求高云和端的双引擎扫描准确率不高首款主动式防御软件,采用API动态拦截技术实时性要求高建立云安全体系,保障服务质量面向云安全的恶意软件检测技术即时响应自适应模型智能技术云安全23云端软件行为鉴别系统框架面向云安全的恶意软件鉴别系统在线用户动态隐私保护的客户端匿名模型应用开发层面面向云安全的海量事件序列挖掘模型、在线隐私保护模型软件行为的事件序列表示和提取方法恶意软件行为特征抽取和特征约简方法基于事件序列挖掘的恶意软件分类、聚类算法理论研究层面2022/7/2024软件行为智能检测系统架构面向云安全的软件行为鉴别架构云端对未知文件智能鉴别

14、系统工作流程云端软件行为检测系统ACSMDS移动恶意软件检测技术2022/7/2026移动恶意软件权限特征分类图基于权限特征的检测流程图移动恶意软件指令集检测模块2022/7/2027移动恶意软件指令集检测架构图移动恶意软件检测结果分析2022/7/2028随机森林分类器检测结果KNN分类器检测结果移动恶意软件家族检测结果比较2022/7/20 汇报提纲1.大数据时代面临的问题2.海量恶意软件鉴别技术3.反钓鱼检测与防御技术4.大数据时代的移动电商5研究工作成果与研发团队钓鱼网站数量呈现指数级增长危害巨大网络钓鱼是通过大量发送来自于银行或其他知名机构的欺骗性垃圾邮件,意图引诱收信人给出敏感信息

15、的一种攻击方式伴随着计算机技术和通讯技术的高速发展,互联网上恶意软件花样 不断翻新,入侵手段防不胜防,对网络信息安全造成巨大危害钓鱼网站作为恶意软件的一种新的表现形式,在近几年频繁出现仿淘宝类钓鱼网站中奖类钓鱼网站订票类钓鱼网站钓鱼网站严重影响在线金融服务、电子商务的发展,危害公众利益,影响公众应用互联网的信心钓鱼攻击行业领域分布钓鱼网站超过病毒木马成为最大威胁完 胜病毒木马每月拦截约1.5亿次钓鱼网站每月拦截约4-11亿次数据来源:金山网络2011-2012中国互联网安全研究报告从威胁次数上看网民受钓鱼网站威胁的次数是病毒木马威胁次数的5倍以上钓鱼网站的危害从欺诈威胁程度上看在过年一年中,有

16、31.8%的网民遇到过钓鱼网站或诈骗网站;保守估算,网购遭遇欺诈网民规模高达6169万。数据来源: 2012年中国网站可信验证行业发展报告超过39.7%的网民损失额度超过500元,其中,损失额度在500-2000元范围内的网民占比为33.4%;保守估算,每年因钓鱼网站或诈骗网站给网民造成的损失不低于308亿。网络欺詐的严重危害木马僵尸受控主机数量分布 (来源:CNCert 2013年6月14日周报)截止2013年7月份中国反钓鱼联盟累计处理钓鱼网站128881中国反钓鱼联盟截止目前已处理超过11万个钓鱼网站国内的淘宝网超过Paypal成为全球第一大钓鱼目标每年因钓鱼网站给国内用户造成的308亿

17、元人民币现有钓鱼网站检测方法检 测 方 法相 关 描 述人工识别整理特征码(2003年-2006年)将传统特征码识别病毒的方法应用到识别钓鱼网站中,包括1.利用数据库中存储的Phishing黑名单对站点进行检查,其中的黑名单通过用户举报、蜜网监测等方式不断更新;2.通过先提取钓鱼网页的特征码,再用特征码扫描判定网页是否含有钓鱼欺诈内容,最后将特征码定期升级到杀毒软件的识别库中。基于URL特征的启发式识别(2006年-2008年)通过URL地址相似度计算、域名概率评估、网站排名、注册信息、网址类型、页面的外链数目,IP及端口号等信息进行钓鱼检测识别。结合页面特征与机器学习的智能识别(2008年后

18、)网页内容作为钓鱼欺骗信息的主要展示渠道,对钓鱼者意图具有较强的表达能力,这一阶段结合了各种启发式和机器学习方法,通过有效地利用各种页面信息,实现对钓鱼网站的识别和防御。同时,为了应对数量飞速递增的钓鱼威胁,实现实时拦截,云端收集与处理的机制也被引入其中。当前反钓鱼技术和产业存在的主要问题缺乏有效的钓鱼行为特征描述方法缺乏有效的钓鱼行为鉴别方法中文钓鱼网站高性能实时检测与防御问题轻量级客户端样本特征表示问题现有软件不能及时快速检测国际云安全软件对中文钓鱼网站检测能力明显不足国内网络安全软件的核心方法和技术都比较落后目前反钓鱼技术存在的不足目前反钓鱼产品存在的不足360浏览器未及时检测的假网站示

19、例(2012.12.4日 15:56)我们的技术查新结论:在所见范围内,国内未见与本查新项目查新点相同的公开文献报道。为什么检测不出?面向云安全的钓鱼网站智能检测系统核心流程图系统部署架构图手机端钓鱼网站检测系统URL检测界面二维码检测界面结果显示界面分享界面手机端钓鱼式攻击APP检测 客户端主要实现的功能是将待检测的APP进行处理后发送到服务器端进行检测,同时将返回的检测结果提示给用户。反编译模块获取XML文本获取XML图像Smali文件检测模块XML页面文本检测模块XML页面图像检测模块Smali文件检测模块手机端钓鱼APP检测页面软件整体界面APP检测界面APP选择界面检测结果界面手机端

20、钓鱼APP检测系统反钓鱼网站检测评判反钓鱼技术及应用中科院深圳先进技术研究院:在机器学习、数据挖掘领域,拥有多年的积累和众多成果,包括:在该领域顶级学术期刊首次提出了MPC聚类方法等等,为随后的具体领域的研究奠定了理论基础;在信息安全,尤其反钓鱼技术是基于数据挖掘和机器学习进行了深入的研究和探讨,拥有一批相关的学术成果;基于在理论上的创新和突破,研发了钓鱼检测系统PhishingWatcher和SiteWathcer(与HK CityU合作)。2022/7/20 汇报提纲1.大数据时代面临的问题2.海量恶意软件鉴别技术3.反钓鱼检测与防御技术4.大数据时代的移动电商5研究工作成果与研发团队1、

21、项目背景移动互联网用户: - 手机网民为5.27亿 - 同比增加约6329万 - 手机用户占的83.4% 移动电子商务: - 交易规模达到2542亿 - 占网络交易总额的32.0%移动互联网高度普及与移动电商务45移动电子商务终端功能Absolute ZeroE-Business Mobile Client搜索社交购物沟通移动终端云搜索:与后台移动互联网定制搜索引擎关联,为客户定制搜索内容,过滤信息,提升搜索效率。移动终端云社交:与后台Social Network关联,不仅可以实现主流社交平台的对接,而且可以为客户定制社交平台。移动终端云推送:借助运营商网络,通过后台服务,可以向终端用户推送文

22、本、邮件、多媒体等各种文件资源。大量的網路社群評價文章具商業價值的產品輿情資訊4646商業產品情报大数据2、主要研究内容云计算环境下的大数据移动电商平台大数据移动电商平台架构48创意营销商情分析系统提供大众对商品评价的分析数据完善化其核心商品舆情分析技术范围扩大至中、港、澳、台,各类型社会 媒体信息创意营销智能型商情推荐系统建立结合大众评价的商情推荐有别于传统以数据挖掘为基础的推荐系统面向在线及线下舆情推荐服务等先深化再创新服务在线商情分析与推荐系统基于社交网络的非结构化大数据商业情报分析商品情报分析技术分散式网络爬虫技术模块自行开发结合云端计算技术与分布式架构的网路爬虫,爬取目标囊括了两岸三

23、地(中、港、澳、台)的社会媒体信息。主观情绪识别分析模块主观情绪识别分析技术能够识别出该文字内容中包含个人主观情感比重,同时也决定该内容的重要性,以利提高后续情感分析的准确率。情感分析模块情感分析技术分析范围包含简体中文、繁体中文,使用机器自动辨别文字内容中所包含的情感,以提供用户更为贴近大众的评价情绪反应。of17商业大数据的智能推荐系统在线智能推荐核心技术应用于互联网上,提供在线推荐服务之类型。线下智能导购推荐核心技术应用于实体通路(如各大实体商场、展览会等),使用移动式终端设备提供Location-based推荐服务之类型。of2、主要研究内容分析移动支付过程中恶意软件行为检测技术,以数

24、据挖掘的样本分析方法为核心,构建一个移动恶意软件鉴别系统原型;提供在移动支付过程中遇到恶意软件欺诈行为的全套解决方案。移动恶意软件智能检测系统的总体流程移动支付安全的欺诈行为与检测2、主要研究内容移动视觉搜索技术的核心工作是建立稳健的移动图像检索引擎,能够在较大规模的数据库中匹配出与搜索图片最相似的产品;移动图像检索引擎包括提取目标图像感兴趣区域、对图像特征进行抽取描述、对图像特征作聚类分析等。移动图像检索引擎架构移动视觉搜索引擎及应用多媒体导购网站-千视慧搜7/20/202253电商导购网站开发商品的图像搜索功能商品相似搜索功能多家商品比价功能拍照搜索商品智能搜索区域确定搜索类别选择搜索结果

25、显示产品详情相似推荐在线购买上传本地图片搜索商品分享:新浪微薄、微信、拍照搜 应用与APP2、主要研究内容HyBrid应用开发及微营销引擎通过该引擎可让目标客户自助式完成微站及手机APP的建设、发行、运营,以地产企业和餐饮企业的O2O移动电商需求为例,要做到网络与地面结合、对接微信公众平台、打通支付通道等。HyBrid应用开发及微营销引擎结构图与企业合作,开发了微营销相关技术,满足电子商务类客户的部分微营销需求。主打“微商城、营销宝、展会宝、微汽车、微地产”等产品,初获市场认可。5案例目保障措施昭元摄影捷和汽车九阳股份微餐厅微营销引擎案例2022/7/20 汇报提纲1.大数据时代面临的问题2.

26、海量恶意软件鉴别技术3.反钓鱼检测与防御技术4.大数据时代的移动电商5研究工作成果与研发团队深圳市高性能数据挖掘重点实验室实验室于2010年9月获深圳市政府资助,依托中国科学院深圳先进技术研究院组建成立,建设期为20102013。2013年4月通过深圳市科创委评估结果A。 2013年11月通过深圳市科创委验收,优秀。定位与目标:主要研究领域为“知识发现与数据挖掘”,重点面向“大数据”的技术挑战和应用需求,研发基于云计算和超级计算的并行数据挖掘算法、系统、平台,开展互联网、智能电网、电信等大数据领域应用,推动技术创新、人才培养和产业化发展。核心研究方向:1)复杂数据子空间聚类与分类算法2)大规模

27、数据交互式可视分析技术3)大规模数据多维分析与挖掘技术4)云计算数据挖掘与网络安全技术5)基于互联网服务的大规模数据挖掘平台技术6)行业大数据分析应用技术(互联网、电网、电信等)实验室科研团队实验室管理团队及学术带头人黄哲学 研究员,首席科学家,瑞典皇家工学院博士,广东省首批引进海内外领军人才,深圳市引进海外高层次人才(“孔雀计划”B类),深圳市高性能数据挖掘重点实验室主任。高 明曹付元张 涌魏彦杰Prof. David Cheung, HKU香港大学计算机系主任(前任)Prof. Francis Chin, HKU香港大学计算机系主任Prof. Graham Williams, ANU澳大利

28、亚联邦税务总局首席数据挖掘师,澳大利亚国立大学兼职教授特聘合作专家核心成员团队整体情况在实验室主任黄哲学教授领导下,建立了近30人的科研团队,团队成员包括国务院津贴获得者、深圳市孔雀人才等。团队以博士和博士后为核心骨干,外籍专家为顾问,研究助理和研究生为研发支撑的科研团队。 博士核心成员来自美、加、德、香港以及国内著名高校,研究方向包括:数据挖掘、商务智能、机器学习、高性能计算、复杂算法设计、信息安全等。Prof. Bing Liu伊利诺伊大学芝加哥分校陶 乾姜青山 研究员,博士生导师,国务院津贴获得者,深圳市地方级领军人才;日本千叶大学数学博士、加拿大Sherbrooke大学计算机博士,加拿

29、大多伦多大学博士后,深圳市高性能数据挖掘重点实验室执行主任。熊腾科廖晓峰张巍云计算大数据挖掘平台110台服务器, 840 CPU核, 550TB 存储容量构建云计算大数据挖掘平台,具备TB级数据存储、处理与分析能力,为大数据挖掘技术与系统开发和测试提供实验支撑环境。数据库:MySQL5.0 商用版云存储:Hadoop、Casendral数据挖掘软件:Alphaminer、R平台规模软件环境平台功能大数据云存储与管理分布式并行数据挖掘任务执行可视化数据分析执行引擎61“A novel variable-order Markov model for clustering categorical sequence”, IEEE Transactions on Knowledge and Data Engineering, 2014“Feature selection via maximizing global information gain for text

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论