第4章 习题答案_第1页
第4章 习题答案_第2页
第4章 习题答案_第3页
第4章 习题答案_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE17PAGE第4章网络数据分析与应用习题与实验一、选择题1.下列不属于数据预处理的是()。A.数据存储B.数据清洗C.数据标准化D.数据统计2.下列程序的运行结果是()。importnumpyasnpa=np.array([2,6,-5,2,-9,0])print(np.amin(np.array([np.amax(a),np.sum(a)])))A.6B.-4C.-9D.63.对于数据可视化的理解,下列说法不正确的是()。A.可以脱离数据B.可以揭示隐藏的数据特征C.令人容易理解D.表达更加直观形象4.下列关于大数据的说法正确的是()。A.规模大的数据就是大数据B.数据库中存储的数据一定不是大数据C.大数据价值密度低,所以没有太大的挖掘价值D.大数据同样可以用数据库技术进行处理5.用于实现中文文本分词操作的Python第三方库是()。A.jiebaB.WordcloudC.MatplotlibD.PIL6.非对称加密技术需要()和私钥成对出现。A.密码B.公钥C.解密密码D.加密密钥二、问答题1.若要分析《红楼梦》的前八十回和后四十回是否为同一作者所写,需要使用哪些工具?具体流程是怎样的?答:通过前八十回和后四十回的词频统计、词云图构建进行简要分析。2.什么叫网络爬虫?如何编写一个简单的爬虫程序?答:网络爬虫又名网络蜘蛛(Webspider),是一种按照一定规则自动抓取网页信息的程序或脚本。爬取网页主页的信息:importrequestsr=requests.get("具体的网址")3.大数据有什么特点?答:大数据(bigdata)是规模非常巨大和复杂的数据集,它具有4个基本特征(特点):数据规模大(volume)、数据种类多(variety)、要求数据处理速度快(velocity)、数据价值密度低(value),即所谓的4V特性。简述数据加密的工作过程。答:数据加密是通过特定的加密算法和密钥,将原始明文数据转换为无法直接阅读的密文数据的过程,以保护数据的安全。接收方则使用相应的解密算法和密钥将密文还原为明文。根据加密和解密密钥的异同,分为对称加密和非对称加密两种方式:(1)对称加密:加密和解密使用相同的密钥。发送方用密钥和加密算法将明文加密成密文,接收方用同一密钥和解密算法将密文解密为明文。其优点是运算快、效率高,但密钥管理是关键,一旦密钥泄露,密文易被破解。(2)非对称加密:加密和解密使用不同的密钥,即公钥和私钥。公钥可公开,用于加密;私钥由接收方保密,用于解密。发送方用接收方的公钥加密明文,接收方用自己的私钥解密密文。这种方式安全性更高,但速度较慢。若双方需互相传输,则各自生成密钥对,交换公钥,私钥自留。5.分析区块链和比特币的关系。答:区块链和比特币的关系:(1)诞生渊源:比特币催生区块链概念。区块链概念最早由中本聪提出,区块链技术是为解决比特币数字货币的重复消费问题而专门发明的,比特币的诞生标志着区块链技术的正式问世。(2)技术层级:区块链是比特币的底层技术。比特币以区块链为底层支撑,比特币网络中的交易信息存储在区块链的数据块中,区块链通过链式结构、密码学、分布式时间戳服务器等技术,实现比特币数据库的自主管理,保障比特币交易的防伪与流转。(3)功能定位:比特币是区块链技术的首个应用。比特币是区块链技术最早、最具代表性的应用落地,区块链技术依托比特币实现了从理论到实践的转化,验证了去中心化、不可篡改等技术特性的可行性。(4)范畴边界:二者内涵与外延不同。比特币是基于区块链技术的点对点电子现金系统、虚拟货币,总量有限、具备稀缺性;区块链是一种分布式账本技术与基础架构,狭义为链式数据结构,广义是集分布式存储、共识算法、密码学、智能合约于一体的全新计算方式,其应用场景远不止比特币。三、实验题1.利用Python的random模块的random()函数可以随机产生[0,1)区间均匀分布的实数,生成100个这样的随机数并组成一个列表,然后求和、最大值、最小值和平均值。fromrandomimport*#导入random模块list_1=[]#建立空列表foriinrange(100):#循环100次x=random()#生成随机数,并赋值给xlist_1.append(x)#将随机数x添加到列表中MySum=sum(list_1)#求和MyMax=max(list_1)#求最大值MyMin=min(list_1)#求最小值Avg=sum(list_1)/len(list_1)#求平均值print("Sum=",MySum)#输出统计结果print("Max=",MyMax)print("Min=",MyMin)print("Average=",Avg)2.NumPy的random模块包含了很多函数和方法,可以用来产生随机数,例如,下列语句产生3行2列、[0,1)之间均匀分布的随机数组。>>>importnumpyasnp>>>np.random.rand(3,2)array([[0.33662655,0.42070569],[0.3276643,0.77168321],[0.5039367,0.36060372]])生成100个随机数组成的数组,然后求和、最大值、最小值和平均值。importnumpyasnpa=np.random.rand(1,100)np.sum(a)#求和np.amax(a)#求最大值np.amin(a)#求最小值np.mean(a)#求算术平均值np.median(a)#求中位数d(a)#求积np.std(a)#求标准差np.var(a)#求方差3.以下是某市家庭收入x与家庭储蓄y之间的一组调查数据(单位:万元),试分别利用回归分析和曲线拟合建立x与y的线性函数经验公式。x0.61.02.63.03.43.84y0.080.220.310.40.480.560.670.750.81.0回归分析:importnumpyasnpfromsklearn.linear_modelimportLinearRegression#导入模块X=np.array([0.6,1.0,1.4,1.8,2.2,2.6,3.0,3.4,3.8,4]).reshape(10,1)#转换成二维数组Y=[0.08,0.22,0.31,0.4,0.48,0.56,0.67,0.75,0.8,1.0]model=LinearRegression()#模型初始化model.fit(X,Y)#拟合模型print(model.coef_)#输出系数print(ercept_)#输出截距根据程序运行结果写出线性函数公式。线性拟合:importnumpyasnpX=[0.6,1.0,1.4,1.8,2.2,2.6,3.0,3.4,3.8,4]Y=[0.08,0.22,0.31,0.4,0.48,0.56,0.67,0.75,0.8,1.0]z1=np.polyfit(X,Y,1)#对数据进行线性拟合print(z1)爬取网页数据,并进行分析。要求如下:(1)爬取人民网主页上的信息。(2)将主页中所有的超链接信息提取出来,并剔除非中文词汇。(3)利用Jieba库对其进行分词,并通过词云图展示其中的新闻热词。(1)爬取人民网主页上的信息,程序如下。importrequestsr=requests.get(r"")查看网页编码:r.apparent_encoding这时候程序结果显示其编码方式是“GB2312”。为了能够查看网页的文本内容,将获取的信息转换为相应编码。r.encoding="GB2312"r.text此时程序结果会弹出一个压缩文本,将该文本另存为文本文件并打开或直接展开,可以查看其中的内容。(2)将其中所有的超链接信息提取出来。frombs4importBeautifulSoup#导入模块ht=BeautifulSoup(r.content,'html.parser')#对内容进行解析,采用解析器“html.parser”foriteminht.find_all("a"):#遍历每一个a标签print(item.string,":",item.get("href"))#输出超链接信息剔除非中文词汇:importre#导入模块pattern=pile(r'[^\u4e00-\u9fa5]')#编译正则表达式chinese=re.sub(pattern,'',r.text)#将非中文字符用空字符串进行替换print(chinese)提示:用正则表达式[^\u4e00-\u9fa5]来实现操作,其中“\u4e00-\u9fa5”表示Unicode码中中文的编码范围。(3)利用Jieba库对其进行分词,并通过词云图展示其中的新闻热词。importjiebaimportnumpyasnpfromPILimportImagefromwordcloudimportWordCloudf=open('people.txt','r').read()#读入文本background=np.array(Image.open('background.jpg'))#设置词云背景图片words=jieba.lcut(f)#分词rwords=[]forwordinwords:#剔除长度为1的词iflen(word)==1:continueelse:rwords.append(word)wordcloud=WordCloud(backgro

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论