版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
任务一Python入门及应用学习目标学习目标掌握Python的基本语法掌握利用Python进行数据采集的方法掌握利用Python进行数据处理的方法掌握利用Python进行数据可视化的方法掌握SQL的基本语法及应用职业素养点拨大鹏之动,非一羽之轻汉代思想家王符说:“大鹏之动,非一羽之轻也;骐骥之速,非一足之力也。”这句话的意思是说,大鹏冲天飞翔,不是靠一根羽毛的轻盈;骏马急速奔跑,不是靠一只脚的力量。万丈高楼平地起,基础的重要性不言而喻。在大数据分析中,SQL和Python的基础知识非常重要。如果参数设置错误或者遗漏,就会导致后续相关联的数据业务无法正常处理,给数据分析工作带来不便或隐患。数据采集任务要求3任务描述2任务准备1任务实现4网络爬虫网络上的数据量越来越大,人们单靠浏览网页获取信息越来越困难。如何有效地提取并利用信息成为大众面临的一个巨大挑战。爬虫是互联网时代用于获取主题内容的主流工具之一。为了进行互联网数据的采集,我们需要一个可以使用Python工具的环境并对网络爬虫的基本原理有所了解。网络爬虫是一种从网页上抓取数据信息并保存的自动化程序。如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛(程序),沿着网络抓取自己的猎物(数据)。了解网页结构:什么是HTML?HTML(超文本标记语言)是网页的骨架。就像一本书的目录或结构图,它定义了网页上的文字、图片、链接和布局。爬虫需要“读懂”这些HTML代码,从中找到需要的数据。HTML的基本结构如下:<!DOCTYPEhtml><html><head><title>示例网页</title></head><body><h1>欢迎来到我的网站</h1><p>这是一个简单的介绍。</p><ahref="">访问链接</a></body></html>
以上<h1>是网页的大标题;<p>是段落;<a>是链接。将以上代码复制到文本编辑器(如记事本)并保存为html文件,用谷歌浏览器中打开文件,会发现谷歌浏览器已经将其解析为一个页面,如图2-1所示。爬虫就是通过解析这些标签找到我们需要的数据。发出请求:如何访问网页?爬虫访问网页时,就像我们打开浏览器访问某个网站一样,需要先向服务器发送一个请求。这个请求就像敲门,而服务器返回的网页内容就是主人给我们打开的门。我们可以使用Python的requests库来发送请求:importrequests#发送GET请求url=""response=requests.get(url)#检查响应状态码(200表示成功)ifresponse.status_code==200:print("成功获取网页内容!")print(response.text)#输出网页HTML内容else:print(f"请求失败,状态码:{response.status_code}")发出请求:如何访问网页?登录金蝶大数据平台,单击左侧菜单栏【大数据采集】→【Python爬虫采集】,将上述代码粘贴到代码区,然后单击【运行】。发出请求:如何访问网页?运行完成后单击右侧【输出控制台】,可以看到请求响应的结果注:上述是由IANA(InternetAssignedNumbersAuthority)保留的一个域名,专门用作示例,可以返回一个简单的响应页面。解析网页:提取需要的数据有了HTML后,我们需要从中找到目标内容,就像在一堆文件里找到目标文档。可以使用专门的工具来解析和提取数据,比如BeautifulSoup。以下是解析HTML并提取信息的示例:frombs4importBeautifulSoupsoup=BeautifulSoup(response.text,'html.parser')#解析HTMLprint("\n提取内容如下:")#提取网页标题title=soup.title.text#网页的<title>内容print(f"网页标题:{title}")#提取<h1>标签的内容h1=soup.find('h1').text#找到第一个<h1>标签print(f"主标题(h1):{h1}")#提取<p>标签的内容paragraph=soup.find('p').text#找到第一个<p>标签print(f"段落(p):{paragraph}")#提取<a>标签的链接link=soup.find('a')['href']#找到第一个<a>标签并提取href属性print(f"链接地址:{link}")解析网页:提取需要的数据参照上述步骤在金蝶大数据平台,在原代码的基础上添加上述解析代码,单击【运行】,在【输出控制台】查看运行结果存储数据:保存爬取的内容提取到的数据需要保存起来,方便后续使用。可以选择保存为Excel文件,或者直接存入数据库,在前述代码中添加以下语句:importpandasaspd_kd_spider_result=pd.DataFrame([{"标题":title,"主标题":h1,"段落":paragraph,"链接":link}])存储数据:保存爬取的内容提取到的数据需要保存起来,方便后续使用。可以选择保存为Excel文件,或者直接存入数据库,在前述代码中添加以下语句:importpandasaspd_kd_spider_result=pd.DataFrame([{"标题":title,"主标题":h1,"段落":paragraph,"链接":link}])了解网页结构:什么是HTML?发出请求:如何访问网页?解析网页:提取需要的数据存储数据:保存爬取的内容数据处理:数据读取我们获取的原始数据通常会存在诸多问题,比如数据残缺、数据重复、数据无效等,我们需要对这些影响分析的数据加以处理,才能获得更加精确的分析结果。基于Python语言对采集的数据进行处理是一个非常重要的环节。读取制表符分隔的数据:df=pd.read_csv('财务报表/公司A-利润表.xls',sep="\t",encoding="GBK",engine='python')示例读取采集的数据时,通常我们会使用pandas库的read_csv()方法,即使文件是Excel格式,常常使用制表符分隔的文件(.xls文件也可以转换为类似CSV的格式进行读取)。关键是根据文件格式和分隔符来正确读取数据。数据处理:数据清洗与转换数据清洗是确保我们数据质量的关键步骤。此步骤包括删除无用数据、处理空值和格式不一致的问题。数据转换则是为了使数据更加符合分析需求,常见的操作包括转置数据和格式化日期。删除无用数据:在读取数据时,有时会遇到不需要的列或行(例如空列、标识符列等)。使用drop()方法可以删除这些无关的列。删除名为19700101的列:df=df.drop(['19700101'],axis=1,errors='ignore')示例处理空值:有时候数据中会有空值(NaN),它们可能会影响后续分析。使用dropna()方法可以删除含有空值的列或行。删除所有数据为空的列:df=df.dropna(axis=1,how='all')示例数据处理:数据清洗与转换数据转置:转置操作是将行和列进行交换,通常财务报表的日期作为行索引,财务数据作为列,通过转置可以更方便地进行后续分析。转置数据:df=df.T示例日期格式化:在处理财务报表时,日期的格式通常需要统一。在Python中,可以使用datetime模块来格式化日期,将日期从YYYYMMDD转换为YYYY-MM-DD格式。日期格式化:fromdatetimeimportdatetimedf['报表日期']=[datetime.strftime(datetime.strptime(i,'%Y%m%d'),'%Y-%m-%d')foriindf.index]示例数据处理与整理在数据清洗和转换后,下一步是对数据进行整理和增强。通过整理,可以将必要的信息(如公司名称、报表日期等)添加到数据框中,确保每一行的数据完整且符合业务需求。添加新列:我们可以通过给DataFrame添加新列的方式,增加一些重要的信息。例如,在财务数据中,通常需要添加公司名称、报表日期等字段。为数据框添加公司名称列:df['公司名称']=[company_namefor_inrange(df.shape[0])]示例数据合并与保存在数据处理完成后,可以将多个报表合并成一张表以便于对比分析,并将最终结果保存为新的文件。数据合并是处理多个文件时的常见任务,通过合并可以将不同公司或不同报表类型的数据整合在一起。数据合并:使用pandas的concat()方法可以将多个DataFrame合并成一个。合并后数据的索引会被重新生成,确保合并后的数据不重复。合并多个利润表:merged_profit_statement=pd.concat(df_profit_statement,ignore_index=True)示例数据采集任务要求3任务描述2任务准备1任务实现4任务描述你和你的团队是一家创业公司的数据分析师,近期公司打算投资一家名为“幸福蛋糕”的新零售企业,该公司是一家全国知名的连锁烘焙食品企业,主营蛋糕、面包、下午茶等多种产品。由于你们对于幸福蛋糕的经营情况不是非常了解,可能对于财务数据的分析结果无法很好的解读,因此,你们想要找同行业公司的财务报表与标的公司进行对比分析,以深入了解烘焙食品行业的整体表现以及幸福蛋糕公司的优势所在。数据采集任务要求3任务描述2任务准备1任务实现4利用Python从新浪财经网站爬取“烘焙行业”的利润表,并对数据进行如下处理后合并输出:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海杉达学院《分析化学第八版》2025-2026学年期末试卷
- 上海杉达学院《细胞生物学》2025-2026学年期末试卷
- 上海师范大学《行政诉讼法》2025-2026学年期末试卷
- 上海工程技术大学《运动训练学》2025-2026学年期末试卷
- 山西信息职业技术学院《局部解剖学下》2025-2026学年期末试卷
- 石家庄农林职业学院《学前特殊儿童教育》2025-2026学年期末试卷
- 上海民航职业技术学院《钢结构设计》2025-2026学年期末试卷
- 上海济光职业技术学院《金融管理学》2025-2026学年期末试卷
- 沈阳体育学院《汉语文学》2025-2026学年期末试卷
- 四平现代职业学院《劳动关系学》2025-2026学年期末试卷
- 县级国土空间总体规划动态维护方案(范本)
- 2026中交集团纪委第一办案中心社会招聘笔试历年常考点试题专练附带答案详解
- 2026年春季新教材教科版(2024)三年级下册科学全册教案
- 矛盾纠纷排查奖惩制度
- 无痛肠镜检查的术后并发症识别与处理
- 紫外线灯使用及安全指导
- GB/T 8554-2026电子和通信设备用变压器和电感器测试方法和试验程序
- 工业厂房改造项目风险评估报告
- 长郡中学2026届高三月考试卷(六)化学+答案
- 苗寨介绍教学课件
- 中远海运集团2026社招第六次集中笔试在线考试
评论
0/150
提交评论