版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目八:Python编程辅助工具的应用—利用AIGC分析新媒体用户行为项目导读与目标在AIGC时代,掌握数据获取与智能分析技能,是挖掘新媒体价值的核心能力。📌项目背景:AIGC技术重构了数据挖掘与分析的范式,为新媒体运营提供全新思路。📚核心内容:结合Python的数据处理能力与AIGC工具的智能分析优势,解决真实场景问题。🎯学习目标:掌握数据全流程处理方法,并借助AIGC工具实现对用户行为的深度洞察。任务8.1:新媒体用户数据采集•导入:CSV/Excel结构化文件导入处理
•采集:使用urllib库从网页获取公开数据任务8.2:新媒体用户数据处理•清洗:缺失、重复、异常值的识别与处理
•转换:数据类型转换,数据标准化与归一化任务8.3:新媒体用户数据分析•传统:基础统计、数据分组、筛选与排序
•进阶:利用大模型进行智能归因与策略生成项目导读:为什么学习编程辅助工具?行业价值:数据驱动的核心竞争力用户行为分析已成为内容创作、营销决策的核心环节。掌握数据驱动的智能分析方法,不仅是当前新媒体与数字化行业发展的前沿需求,更是未来职场人构建个人核心竞争力的关键技能。三大能力维度进阶数据思维与创新
严谨求实的科学态度智能技术应用
推动行业发展的引擎职业信念塑造
用创新工具创造价值本项目学习目标能力目标▍数据获取与预处理能完成从文件中导入和从网页中采集等多源数据获取,并进行有效的数据清洗、转换与集成等预处理操作,确保数据质量。▍综合分析与洞察能综合运用传统统计分析方法和AIGC工具,对用户行为数据进行深度挖掘与多维度分析,准确识别业务模式,产出具有商业价值的趋势洞察。素养目标▍科学态度在数据分析全流程中,养成尊重客观事实、严谨求实的科学态度,建立“用数据说话、靠数据决策”的理性思维方式。▍创新意识适应数字化转型浪潮,树立主动拥抱新技术的意识,敢于尝试利用新兴工具和创新思维去解决复杂多变的现实商业问题。任务8.1:完成新媒体用户数据采集从文件中导入数据掌握使用pandas库读取本地CSV和Excel格式文件的方法,建立数据处理的基础能力。从网页中采集数据学习使用urllib库编写简单的爬虫程序,从公开网页资源中自动采集和获取所需信息。核心技能目标熟练掌握新媒体环境下用户行为数据的获取、结构化解析、清洗以及存储的完整流程。数据素养培养树立合法、合规的数据采集意识,强化个人信息安全与数据隐私防护的职业素养。8.1.1从文件中导入数据场景与意义:数据采集的基石数据采集是构建智能分析系统的第一步。掌握从文件高效导入数据的技术,是进行用户画像构建、内容推荐算法设计及传播效果分析等新媒体分析高级应用的必要前提。CSV格式纯文本表格,常用于存储用户基本信息、内容发布记录、以及平台的互动行为数据等结构化数据。Excel表格日常办公最常用格式,适用于导入各类数据报表、运营数据统计及详细的业务分析表。JSON格式轻量级数据交换格式,常用于记录APP或网页端的用户交互日志、API接口返回的响应数据等。Python技术核心:Pandas库Pandas库是Python数据分析的核心工具,提供了read_csv(),read_excel(),read_json()等一系列函数,能轻松读取并解析多种格式文件,满足新媒体数据多样化的处理需求。从文件导入数据:read_csv()函数深度解析核心工具:pandas.read_csv()—处理CSV(逗号分隔值)文本文件的“瑞士军刀”,是数据分析工作中读取结构化数据最常用的函数。pandas.read_csv(filepath_or_buffer,sep=',',delimiter=None,header='infer',names=None,index_col=None,encoding=None,...)提示:实际使用时通常已导入pandas库,并简写为pd.read_csv(...)•filepath_or_buffer:本地文件路径(相对/绝对)或远程URL链接,必填项。•sep/delimiter:指定字段间的分隔符。默认是逗号(,),也可设为制表符(\t)等。•header:指定哪一行作为表头。默认值为0,即第一行;若文件无表头设为None。•names:自定义列名的列表。当header=None时使用,用于覆盖默认列名。•index_col:指定某一列作为DataFrame的行索引。可以是列名或整数序号。•encoding:指定文件编码。常用"utf-8"兼容大部分场景;读取中文乱码时尝试"gbk"。read_csv()应用案例:用户基本信息导入importpandasaspddef导入用户基本信息():#创建临时CSV文件用于演示csv_content="""用户ID,用户名,注册时间,粉丝数,城市,活跃度\nU001,张三,2025-01-15,1500,北京,高\nU002,李四,2025-02-20,800,上海,中\nU003,王五,2025-03-10,3000,广州,高\nU004,赵六,2025-04-05,450,深圳,低"""withopen('user_data.csv','w',encoding='utf-8')asf:f.write(csv_content)try:#核心:使用read_csv()并解析日期列user_df=pd.read_csv('user_data.csv',encoding='utf-8',parse_dates=['注册时间'])print("用户基本信息导入成功!")print("\n前5行数据预览:")print(user_df.head())returnuser_dfexceptExceptionase:print(f"导入失败:{e}")returnNone用户基本信息=导入用户基本信息()从文件导入数据:read_excel()函数深度解析核心工具:pandas.read_excel()提供了对.xlsx/.xls格式Excel文件的完整解析能力,支持单/多工作表读取,是连接Excel数据源与Python数据分析环境的桥梁。pandas.read_excel(io,sheet_name=0,header=0,names=None,index_col=None,usecols=None,dtype=None,na_values=None,...)io(文件路径)指定要读取的Excel文件路径,可以是本地绝对/相对路径或网络URL。sheet_name(工作表)指定要读取的工作表,支持名称字符串、索引数字,或列表(读取多个)。header(表头行)指定哪一行作为列名,默认0(第一行),若为None则无表头,列名为数字。usecols(指定列)筛选读取特定列,可传入列名列表或范围,提升大数据量文件读取效率。dtype(数据类型)手动指定列的数据类型,常用于处理如身份证号等长数字串,防止自动转换。na_values(缺失值)自定义哪些值会被识别为缺失值NaN,如["-","无","NULL"]。read_excel()应用案例:多平台运营数据整合Python实战:模拟并读取多工作表运营数据def导入多平台运营数据():#1.创建包含抖音运营数据的DataFrame并写入模拟Excel文件抖音数据=pd.DataFrame({'日期':pd.date_range('2025-05-01',periods=5),'新增粉丝':[150,200,180,220,190]})withExcelWriter('platform_data.xlsx')aswriter:抖音数据.to_excel(writer,sheet_name='抖音运营',index=False)try:#2.核心操作:使用read_excel精准读取指定工作表df=pd.read_excel('platform_data.xlsx',sheet_name='抖音运营',parse_dates=['日期'])print(f"导入成功!5日平均每日新增粉丝:{df['新增粉丝'].mean():.0f}人")exceptExceptionase:print(f"读取失败:{e}")导入多平台运营数据()#调用函数执行8.1.2从网页中采集数据技术价值网页数据采集是通过程序自动化方式从互联网获取信息的技术,克服了人工采集的效率瓶颈和数据一致性难题,实现海量数据的高效、精准获取。应用场景•社交媒体平台的内容抓取与舆情监测•新闻资讯网站的全网信息聚合
•电商平台的用户评价与竞品价格收集•视频/直播平台的互动与弹幕数据分析核心学习内容1.掌握Python内置库urllib的基本使用方法与配置
2.学习构建标准的HTTP请求并发送至目标服务器
3.解析服务器返回的HTTP响应,提取有效数据网页采集:urllib库与urlopen()函数核心库·urllibPython内置的HTTP请求库,无需额外安装即可直接使用。它功能丰富且稳定,非常适合Python初学者作为入门级的网页采集工具进行学习和实战。▍核心函数urllib.request.urlopen()用于打开一个URL地址并建立连接#基础语法结构
urllib.request.urlopen(
url,
data=None,
timeout=...
)▍关键信息解析核心参数:•url:目标网页地址(必填)
•data:默认为None,即GET请求
•timeout:设定请求超时时间(秒)返回值特点:返回一个“类文件对象”,可直接使用read()、readline()等文件操作方法读取网页内容。urlopen()应用案例:采集新闻网站首页importurllib.requestdef采集新闻网站首页内容():#模拟新闻网站URL(使用测试网站)新闻网站="/html"try:withurllib.request.urlopen(新闻网站,timeout=10)as响应:#检查HTTP状态码并读取、解码内容if响应.getcode()==200:print("访问成功!解码中...");解码内容=响应.read().decode('utf-8');return解码内容else:print(f"失败,状态码:{响应.getcode()}");returnNoneexceptExceptionase:print(f"采集错误:{e}");returnNone#执行采集新闻内容=采集新闻网站首页内容()网页采集:`Request`对象高级应用核心功能`Request`对象提供了比基础`urlopen`更强大的HTTP请求控制能力。支持灵活设置请求头(Headers)、提交自定义表单数据(Data),并可模拟不同浏览器的访问行为,是构建复杂请求的核心工具。典型应用场景主要用于应对有基础反爬机制的网站,例如服务器会验证User-Agent识别“非浏览器”的直接请求。通过定制请求头,可将爬虫伪装成主流浏览器(Chrome、Safari等),从而绕过这类基础拦截。💻代码实战:模拟浏览器采集def模拟浏览器采集新闻数据():#1.定义目标URL和伪装请求头url="/user-agent"headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0)...'}#2.构建并发送请求对象req=urllib.request.Request(url,headers=headers)resp=urllib.request.urlopen(req,timeout=10)print("✅模拟浏览器访问成功!")课堂训练8.1练习一:社交媒体平台用户数据文件导入▌任务背景某新媒体公司需要分析用户数据,优化内容策略。数据团队收到一个CSV格式的用户数据文件,需要进行快速解析与分析。▌任务要求1.使用pd.read_csv()函数导入给定的CSV数据文件并查看前几行。
2.计算并输出数据集的基本统计信息(如:平均粉丝数、总用户数)。
3.找出粉丝数最多的用户ID及其粉丝数。
4.按照活跃度(如高/中/低)对用户进行分组统计。练习二:新闻网站数据采集▌任务背景新媒体团队需要从指定的新闻资讯网站采集最新的行业动态与热门文章信息,用于内部内容策划、竞品分析与趋势研判。▌任务要求1.编写一个自定义函数,能够根据输入的新闻详情页URL,采集页面标题与正文内容。
2.设置合理的请求头(RequestHeaders)模拟浏览器访问,避免被目标网站屏蔽。
3.增加异常处理机制,捕获网络请求中的连接超时、访问拒绝等异常并输出提示信息。任务8.2:完成新媒体用户数据处理▍本章内容提要01数据基本信息检查了解数据的规模、类型和质量,建立对数据集的整体认知。02缺失值与重复值处理识别并处理缺失数据,删除重复记录,保证数据的完整性和唯一性。03类型转换与异常值处理转换数据至正确格式,检测并修正或剔除异常值,确保分析有效。04数据标准化和归一化统一数据量纲,将特征转换为统一标准,提升后续模型的性能。05清洗后数据的科学保存选择合适的存储格式和路径,持久化存储处理后的数据集。8.2.1检查数据基本信息检查目的全面评估数据集,快速掌握数据的规模与质量,及时发现潜在问题,如列缺失、格式不一致、异常值、重复记录等,为后续清洗和分析打好基础。数据集结构df.shape查看数据的行数和列数,了解数据规模数据类型概览df.dtypes检查每一列的数据类型,识别格式错误数据内容预览df.head()查看前几行数据,直观感受数据内容缺失值统计df.isnull().sum()统计每列的缺失值数量,评估数据完整性唯一值统计df.nunique()计算每列唯一值的个数,识别重复或单一值数字特征统计df.describe()查看数值列的均值、最值、分位数等分布情况8.2.2处理缺失值什么是缺失值?数据集中某些行或列的值缺失、为空或为NaN(NotaNumber),是数据分析中常见的“脏数据”问题。方法一:删除缺失值(Drop)适用于缺失比例极低的场景,操作简单但会丢失样本信息。df.dropna(axis=0)#删除含缺失值的行df.dropna(axis=1)#删除含缺失值的列方法二:填充缺失值(Fill)保留更多数据,更常用。•固定值:fillna(0)•统计值:fillna(均值/中位数)•前后向:fillna(method='ffill')数据清洗与预处理流程示意处理缺失值是确保后续模型准确性的关键步骤8.2.3处理重复值▌定义数据集中存在完全相同或高度相似的记录,会导致统计结果出现偏差,影响分析结论的准确性。完全重复行处理df.drop_duplicates():删除所有列值都相同的行,默认保留第一条出现的记录。df.drop_duplicates(keep='last'):删除完全重复的行,但保留每组重复行中的最后一条。基于关键列的去重df.drop_duplicates(subset=['用户ID']):不比较所有列,仅根据指定的“用户ID”列的值判断是否重复。场景:先按时间排序,再按关键列去重,以保留最新的记录。df.sort_values('时间列').drop_duplicates(subset=['ID'],keep='last')8.2.4数据类型转换为什么转换如此重要?确保数据逻辑的正确性与分析结果的有效性,避免计算错误,同时能显著提升程序运行效率和存储空间利用率。数字类型转换将字符串转为数值,或调整数值精度:astype(int)·astype(float)·pd.to_numeric()字符串类型转换统一文本格式或去除多余空格:astype(str)·.str.lower()·.str.strip()日期时间类型转换解析字符串为时间序列,方便时间维度分析:pd.to_datetime()分类类型转换处理有限重复值的文本,大幅降低内存占用:astype('category')8.2.5处理异常值什么是异常值?定义在数据集中,那些明显偏离其他大多数观测值的数值,通常由测量误差、数据录入错误或罕见的真实极端情况产生。如何检测?1.描述性统计:
用pandas的describe()查看极值分布。2.Z-score方法:
计算标准分数,通常将绝对值大于3的数据视为异常值。3.IQR(四分位距)方法:
超出Q1-1.5IQR或Q3+1.5IQR范围的数据。如何处理?1.直接删除:
确认是错误数据时直接移除,如`df[~cond]`。适用于异常值数量极少且非关键的场景。2.缩尾处理(Winsorizing):
将超出上下限的异常值替换为上下边界值,以减少极端值对均值的影响。3.边界值替换:
使用np.where()将超过阈值的数据强制设为临界值。8.2.6标准化和归一化核心目的:将不同尺度和量纲的数据转换为统一的标准形式,消除特征间的量纲影响,从而提高机器学习模型的收敛速度和预测性能,确保特征之间可以进行“公平比较”。标准化(Standardization)📐核心方法:将数据转换为均值(Mean)为0,标准差(Std)为1的分布,适用于分布较为均匀的数据。📝计算公式:(x-mean)/std🛠️常用工具:`sklearn.preprocessing.StandardScaler`归一化(Normalization)📐核心方法:将数据特征线性缩放到一个特定的范围,最常用的范围是[0,1],适用于分布未知的数据。📝计算公式:(x-min)/(max-min)🛠️常用工具:`sklearn.preprocessing.MinMaxScaler`8.2.7保存清洗后的数据核心目的:确保数据处理的中间成果或最终结果得以长久保留,方便后续建模分析、报告撰写或与他人分享应用。CSV格式纯文本表格,兼容性极佳,文件体积小,适合大多数数据分析场景。pandas:.to_csv()Excel格式支持多工作表和复杂样式,适合需要人工查看、修改和制作报表的场景。pandas:.to_excel()JSON格式轻量级数据交换格式,结构清晰,广泛应用于Web开发和API接口数据传输。pandas:.to_json()Pickle格式Python独有的序列化格式,存储速度快,能完整保留复杂数据类型。pandas:.to_pickle()课堂训练8.2练习一:用户数据质量检查▍任务背景:某新媒体平台收集了用户的基本信息(包含年龄、粉丝数、注册时间等字段),在进行后续分析前,需要对这份数据进行全面的基础质量检查,以确保分析结果的准确性。✅任务要求:1.查看数据整体信息,确认字段数量、数据类型及非空值情况。
2.检查各列数据中的缺失值,统计缺失比例。
3.检查数据集中是否存在完全重复的行记录。
4.探查异常数据:年龄是否在合理区间(如0-120岁)、粉丝数是否存在负值。练习二:基础数据清洗与转换▍任务背景:基于练习一的质量检查结果,发现数据存在一定程度的“脏数据”,包括重复记录、年龄缺失和粉丝数异常。请编写代码对数据集进行清洗,为后续业务分析做准备。⚙️任务要求:1.数据去重:直接删除所有完全重复的记录。
2.缺失值处理:使用“年龄”列的平均值填充该列的所有缺失值。
3.异常值修正:将不合理的年龄替换为平均值;将负粉丝数修正为0。
4.输出清洗后的完整数据集,并将结果保存为CSV文件备用。任务8.3:完成新媒体用户数据分析本章内容提要01.标准统计函数法利用平均值、中位数、标准差等统计指标,快速提取数据的集中趋势、离散程度等基本统计特征,洞察数据的整体分布。02.数据分组法按维度对用户数据进行分类汇总,如按地区、年龄、行为类型等维度,通过对比不同组间的数据,揭示数据内部的规律和差异。03.筛选排序法通过设置条件筛选特定数据,或按关键指标进行升序/降序排列,快速定位高价值用户、异常波动点等关键信息,高效发现数据规律。04.AIGC智能分析法利用生成式人工智能(AIGC)工具,辅助进行自动化数据洞察、趋势预测、可视化报告生成等,大幅提升数据分析的效率和深度。8.3.1标准统计函数法分析目的提取数据的集中趋势(如平均值、中位数)、离散程度(如标准差、方差)和分布形态(如分位数)等基本统计特征,快速掌握数据概况。常用函数清单describe()一次性描述性统计mean()/median()平均值/中位数min()/max()最小/最大值std()/var()标准差/方差💡拓展:使用quantile()计算任意分位数,进一步了解数据分布。通过统计分析洞察数据内在规律与价值8.3.2数据分组法核心目的通过将原始数据按特定的标准(如类别、数值范围)进行归类分组,从而揭示数据内部的结构规律、各类别间的差异及整体趋势。1.离散型变量分组(Categorical)直接使用pandas的groupby()函数按字段分组并聚合:df.groupby('category_col')['value_col'].agg(['mean','sum'])2.连续型变量分组(Continuous)先使用pd.cut()分箱,再进行分组:bins=pd.cut(df['age'],[15,20,25,30]);df.groupby(bins)分组分析可视化示例
不同用户群体的特征分布对比8.3.3筛选排序法核心目的:从海量数据中快速定位关键信息,并发现数据背后的分布规律与趋势。筛选(Filtering)📌单条件筛选数据框[数据框['列名']>100]📌多条件筛选数据框[(条件1)&(条件2)]#&表示且,|表示或排序(Sorting)📌单列降序/升序数据框.sort_values('列名',ascending=False)📌多列组合排序数据框.sort_values(['列1','列2'],ascending=[T,F])8.3.4AIGC法定义·Definition利用先进的人工智能技术(如大模型),辅助分析师完成数据处理、建模、洞察提取等全流程任务。核心价值·Value⚡️效率倍增:自动化处理海量数据,节省人力时间成本。
🔍模式挖掘:发现人类视角难以察觉的深层数据关联。
📝产出专业:一键生成规范、深度的分析洞察报告。黄金原则“AI是增强能力的辅助工具,而非替代者。最终决策权始终掌握在人类专家手中。”应用示例利用DeepSeek、Claude等大模型,结合业务数据,快速完成“用户价值分层”分析模型构建。AIGC法应用案例:用户价值分层业务背景在新媒体运营与内容分发场景中,核心痛点是:用户基数大、行为数据维度多,单纯依靠人工难以实现精细化运营。目标:通过分析用户行为特征,快速实现精准分层,以此优化内容推荐逻辑,并制定差异化的用户运营策略。向AIGC提问“请基于我的用户数据,帮我实现用户价值分层分析。请定义三个层级:1.高价值:粉丝数>10000且互动率>0.32.潜力型:粉丝数5000-10000或互动率>0.23.普通型:除上述外的其他用户。并根据分层结果给出针对性的内容推荐策略和用户运营方案。”代码与策略生成课堂训练8.3练习一:用户活跃度与价值特征分析📌任务背景
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年吉林医药学院附属465医院医护人员招聘考试备考试题及答案详解
- 2026年中国人民解放军第二六六医院医护人员招聘考试参考试题及答案详解
- 2026年江苏省肿瘤医院医护人员招聘考试参考试题及答案详解
- 2026年山西医科大学第一医院医护人员招聘考试参考试题及答案详解
- 2026年运城市中医医院医护人员招聘笔试备考题库及答案详解
- 2026年武汉大学中山医院医护人员招聘笔试备考试题及答案详解
- 2026年中国医科大学附属盛京医院滑翔院区医护人员招聘笔试备考试题及答案详解
- 2026年黑龙江省农垦总局总医院医护人员招聘笔试参考试题及答案详解
- 2026年宁波市中医院医护人员招聘考试参考试题及答案详解
- 2026年柳州医学高等专科学校第一附属医院医护人员招聘笔试参考题库及答案详解
- 2026年辽宁锦州海通实业有限公司计划招录28人笔试模拟试题及答案详解
- 2026年中国文联所属事业单位招聘(19人)考试参考试题及答案解析
- 2026年高职老年人能力评估师(评估实操)试题及答案
- 2026届浙江省普通高等学校招生全国统一考试仿真历史试题(含答案)
- 安徽省A10联盟2026届高三5月最后一卷历史试卷(含答案及解析)
- 智慧护理:护理创新的实践探索
- DB11-T 383-2023 建筑工程施工现场安全资料管理规程
- 2025-2030年老年交友相亲行业深度调研及发展战略咨询报告
- 2026年上海市春考语文试卷及答案
- 山东省青岛市2026年中考英语试题
- 2026年普通动物学通关试题库及参考答案详解【达标题】
评论
0/150
提交评论