《新媒体数据分析》课件-数据新闻制作_第1页
《新媒体数据分析》课件-数据新闻制作_第2页
《新媒体数据分析》课件-数据新闻制作_第3页
《新媒体数据分析》课件-数据新闻制作_第4页
《新媒体数据分析》课件-数据新闻制作_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据新闻制作数据新闻及典型案例6.1一、数据新闻的概念数据新闻,又称“数据驱动新闻”从狭义上看,数据新闻是建立在数据抓取、数据挖掘、数据统计和分析基础上,最终以可视化的方式呈现出来的一种新型新闻报道方式。从广义上看,数据新闻代表着新闻业未来的发展方向,是新闻学在大数据时代的研究新领域。需要注意的是,数据新闻具有一定的操作适用性,即并非所有的新闻都适合做数据新闻。1.数据处理分析的结果是驱动报道逻辑的核心镝数数据新闻作品《哪个行业工资高?》以2019年欧孚科技——薪酬指数报告为依托,通过分析2018各省份平均薪资及涨薪幅度等数据,发现重庆薪资涨幅仅次于北上广这一信息;通过分析各行业平均薪资及涨薪幅度等数据,发现新能源行业平均薪资涨幅位列第一.又如《犯罪移民的迷思》2018各省份平均薪资及涨薪幅度图《哪个行业工资高?》数据新闻各行业涨薪幅度二、数据新闻的特征二、数据新闻的特征2.以可视化为主要呈现方式创新报道形式数据可视化有助于将冗杂的数据信息以及错综的关系链以形象、生动、简单的方式呈现,提升专业新闻的阐释效果,增强用户交互式阅读体验。数据新闻作品《一览绝望》在搜集相关数据、制作相应图表的基础上,以“景观”的形式对荷兰2017年的自杀情况进行了可视化,“景观”的左右两边用以区分自杀者的性别,树、云朵、波浪等元素表示不同的自杀方式,同一类元素的不同颜色、形状、大小用以描述8个不同的年龄层。图《一览绝望》数据新闻二、数据新闻的特征3.以移动端为主的多渠道传播拓宽传播途径《黑夜中的地球,光汇成山脉》作品中,将地形图、夜晚灯光图融合在一个页面中,用户用手指触摸屏幕即可转动地球,点击“+”可放大自己关注的城市详细了解情况,移动端阅读极大提高了用户的参与感,优化阅读体验,同时也提高了新闻传播效率。图《黑夜中的地球,光汇成山脉》数据新闻数据支撑可视化呈现新闻价值数据新闻至少要有三个要素三、数据新闻的功能1.增强新闻读写的交互性能数据新闻的交互性能体现在读写两大方面。一是受众可以自主选择阅读顺序和内容,达到非线性的阅读路径,基于Web2.0交互性的传播平台以及智能的数据库管理,特别是一些互动功能的信息图表使数据新闻的交互性得到充分彰显;二是调动受众的积极性参与新闻内容生产,例如在重大灾难性报道中,受众可上传相关经历补充新闻内容,形成开放式新闻和公民新闻。三、数据新闻的功能2.融合宏观微观的传播视角新闻中宏观报道与微观叙事尽可能兼顾才能使报道显得更加全面。数据新闻较好地融合了宏观与微观的传播视角。财新网作品《博物馆里的国家宝藏》跨越时空,按朝代、收藏场所等描摹出一幅中国文物画像,如图所示波峰波谷显示出不同朝代(登记在册)文物数量的多少,不同颜色代表不同的文物类别;同时又融合微观视角,点击图中圆点即可查看文物信息,如文物图片、名称、朝代和收藏场所等具体内容。图

《博物馆中的国家宝藏》数据新闻三、数据新闻的功能3.加强网络关系的挖掘梳理随着互联网的深入发展,非线性的网络化思维逐渐成为数据新闻的报道手段之一,构建关系网络也成为了数据新闻可视化的重要途径之一。澎湃新闻根据《2019年下半年微博热搜榜企业相关数据分析报告》,构建了基于高频词的网络关系图,以此梳理热搜企业之间以及企业和热点事件之间的关系。图《2019年下半年微博热搜榜企业相关数据分析报告》数据新闻数据新闻制作流程6.2新闻制作流程:选题策划——采访写作——编辑改稿——定稿发布传统新闻:以采写为中心数据新闻:以采集、整理和分析数据为中心数据新闻的制作流程一、确定新闻选题选题数据数据选题制作自我采集数据现有数据利用(一)关心时事,从新闻中寻找选题很多数据新闻选题都来自新闻报道。平时阅读新闻时留意有可能做成数据新闻的选题把它记录下来,形成自己的选题库。(二)保持好奇,在熟悉的领域中寻找选题我们身处高校,最熟悉的领域是教育,只要保持好奇心,就会在学习、实习、插本、求职中发现多值得探究的问题,其中一些问题就可以变成数据新闻的选题。比如教育类选题,是学生们做得最多的选题:

一是接近性:学生深处校园,对教育方面存在的问题和现象比较敏感,容易找到选题。

二是教育部门和高校,在信息公开方面做得比较好,数据容易获取。

三是参访对象容易接近,选题容易操作。

来源《新闻传播考研,哪家学校最难考?》(三)多看数据新闻案例、举一反三多看数据新闻优秀案例,学习别人的方法,举一反三,对找选题就会有启发。澎湃“美术课”,新华社、新京报、界面、每日经济、网易等媒体,都设有数据新闻栏目,初学者可以先从作品看起。网易数读中国的楼盘喜欢如何形容自己呢?通过筛选案名中的形容词可以发现,楼盘案名最喜欢贴近“国际”,如“国际广场”、“国际海岸”……位列其后的形容字词还有阳光、锦绣、幸福、金色等,和一个人的名字一样,无一不是暗含着买房者与卖房者之间的迎合和期许……有了充满期许的形容词,下一个重要的点就是地理位置了,“中心”、“中央”分列前二,多在住宅和写字楼中出现。当然也有一些偏远到隔壁城市的住宅小区,会把自己的名字改成“中央”,实际地点在不在城市中心没关系,只要好听好卖就可以。(四)从政府信息公开网站中找选题随着政府部门和教育部门信息公开工作的推进,政府部门网站和高校网站有很多公开信息,有的是结构性数据,有的是非结构性数据,如有具备一定的新闻敏感性,就可以以从这些公开信息中寻找有新闻价值的元素,进而形成新闻选题。(五)从行业报告、企业财报中寻找线索不少行业协会、调查咨询机构、中介组织都会定期或不定期发布行业报告,阅读行业报告和企业年报,可以从中挖掘到数据新闻的选题。

话剧:小众的狂欢还是大众的繁荣(还可以做其它选题)(六)从生活经验中找选题二、数据获取(一)政府、国际组织与第三方机构的公开数据开放数据资源包含各国政府部门公开数据资源和非政府机构的数据资源,分为收费和免费两种。1.ThePropublicaDataStorePremiumDatasets(收费):从多种数据资源搜集、清理并分类的非原始数据集,采取一次性

收费政策FOIAData

(免费):依据美国信息自由法案请求的原始数据,免费下载ExternalData(免费):仅供在线使用的免费数据(一)政府、国际组织与第三方机构的公开数据2.TheGuardianDataStore(《卫报》数据库2009年英国《卫报》开创了“数据博客”,公开了《卫报》数据新闻制作中使用的全部数据,这是数据新闻发展的一个重要里程碑。在“数据博客”页面上,所有数据新闻使用的原始数据均可以免费下载,供进一步参考和使用。(一)政府、国际组织与第三方机构的公开数据3.GooglePublicDataExplorer(谷歌公共管理数据库)谷歌公司的公开数据库始建于2010年,旨在让用户更容易地理解和分享数据。这个在线工具基于著名的GapminderFoundation的Trendalyzer软件,主攻时间数据,允许用户创建全面、简介且互动的可视化图表。(一)政府、国际组织与第三方机构的公开数据4.WorldBank(世界银行数据库)拥有自己的数据目录,用户可以按照主题、字母顺序或更新时间进行搜索。值得一提的是,WorldBank还拥有中文版。(一)政府、国际组织与第三方机构的公开数据5.UNData(联合国数据库)联合国数据库为全球用户提供免费数据检索和下载服务,用户可以搜索和下载各种统计资源,包含超过6000万个数据点的涵盖范围广泛的主题,如农业、犯罪、教育、就业能源、环境、卫生、人类发展、工业、信息和通信技术、国民账户、人口、难民、旅游、贸易和千年发展目标等。(二)Web抓取数据利用八爪鱼、python等数据抓取工具,去抓取网站公开数据(三)系统日志采集数据系统日志采集可以借助第三方平台完成,借助站长工具,比如:可以查看城市剩女的百度搜索指数,获得其地域分布、搜索趋势、年龄分布、兴趣分布等数据(四)众包数据

利用群众的指挥和力量搜集或处理数据,集体完成一个新闻调查计划。例如:2014年春节前,《南方周末》联合环保组织“创绿中心”和it工程师环保公益协会发起了“回乡测水”行动。“快绿中心”提供低成本、便携快速、可定制的谁知检测工具,让公众有能力、有渠道参与水质检测,同时结合WEB-GIS构建水质检测信息平台,让公众能实时上传水质检测信息,与他人分享。《南方周末》记者基于此次众包调查推出新闻《“回乡测水”家乡水,清几许?》附:在线转换工具Zamzar

Zamzar是一个强大且免费的在线转换工具,支持1200多种格式转换,包括图片格式、文档格式音频格式、视频格式等,是一个比较全能的工具,而且页面简洁易用,速度快,不需要注册即可使用。首先,来自国际统计局、《中国统计年鉴》等官方数据比较权威,但是来自百度指数等的数据权威性则较弱,需要交叉验证。其次,通过数据预处理和分析来发现问题,揭示主题,而不能主题先行,依据既定主题去修正数据。再次,从数据的全面性出发,判断需要获取的关联数据。(一)数据可靠性、可用性鉴别三、数据预处理《中国城镇化的单身困境》二维码三、数据预处理1.缺失值处理如图所示,通过抓取相关报道中的数据发现,虽然抓取的数据还存在链接,但是标题和正文已经被删除,这是互联网数据的一大特点。对于此类缺失数据,只能将所在的整条记录删除。图

缺失值记录删除(二)数据清洗

1.缺失值处理而另一些数据,缺失的是发布来源、转发数、评论数等数据,而核心数据“微博内容”还在,因此该记录虽然存在缺失值,但仍可以保留分析。2.重复值处理不同网站收集的相关数据中,发现某地区2017年的彩礼数据相同,予以合并。三、数据预处理图缺失值记录保留1.聚集(对数据进行汇总)运用Excel中的COUNTIF函数,根据“发布时间”条件对各媒体各年度有关“城市剩女”和“农村剩男”的报道次数求和,结果如图所示。2.数据概化(用更高层次更抽象的概念来取代低层次概念和数据)为方便数据分析,本案例将年龄在28岁以上的单身女性概化为剩女,将年龄在30岁以上的单身男性概化为剩男。在此基础上,加入城乡维度的数据,概化为城市剩女和农村剩男两大群体。此外,将工资性收入、生活用品及服务支出、交通通信支出、教育文化娱乐支出以及医疗保健支出等五项数据概化为资源数据,从而比较城乡资源的差距,如图所示。图(三)数据变换三、数据预处理城市剩女年龄>28岁单身城市户口农村剩男年龄>30岁单身农村户口资源工资性收入生活用品及服务支出交通通信支出教育文化娱乐支出医疗保健支出3.属性构造(利用已有属性构造新属性)结合各地区未婚男和未婚女两类数据,根据“人口性别比=(男性人数÷女性人数)×100%”的公式,构造属性“未婚人口性别比”,如图所示。4.维规约(去掉无关属性)为分析其他因素对城市剩女和农村剩男的影响,本案例从数据的完整性和时效性出发,以2017年作为时间标准,选取2017年的全国未婚男女人口数、城镇未婚男女人口、农村未婚男女人口、各地区未婚人数性别比、各年龄段性别比、城乡资源差距数据、各地彩礼数据等,去掉其他时间段的无关数据属性。图

“未婚人口性别比”属性构造三、数据预处理结构相对数(部分占比):比较全国未婚男性数量的占比、全国未婚女性数量的占比、城镇未婚男性数量的占比、城镇未婚女性数量的占比、农村未婚男性数量的占比以及农村未婚女性数量的占比等。比较相对数(同一时期两个性质相同的指标数值进行对比):本案例中主要有以下三方面的数据运用了比较相对数。一是比较城市人口和农村人口在年龄性别比、婚姻状况、工资性收入、生活用品及服务、交通通信、医疗保健、教育文化娱乐的差异,从而得出城乡资源的差距。二是比较了全国各地的年龄性别比和彩礼数据;三是比较了各媒体平台对城市剩女和农村剩男报道的相关内容。动态相对数(同一现象在不同时期的指标数值进行对比):比较不同时期的城镇化率、GDP、房价、生育率等数据。强度相对数:比较农村和城市的工资性收入“元/人”,得出城镇的就业水平差距;比较各地住宅平均销售价格“元/m2”,得出各地住房市场的情况。1.对比分析四、数据分析在Excel中,通过对近年“各年龄人数及结构性别比”按照“性别比”进行降序排列,发现人口性别比呈现低龄化趋势,预测未来中国的大龄剩男问题可能加重。图预测分析2.预测分析四、数据分析利用微词云,对百度和微博平台上有关“城市剩女”“农村剩男”的内容进行词频统计。3.词频分析图词频分析文本情感分析又称意见挖掘、倾向性分析等,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。本案例中通过对百度和微博有关“城市剩女”“农村剩男”的高频词汇进行正向、中性、负向情感判别,揭示人们对城市剩女和农村剩男的刻板印象和社会评价,如图所示。4.文本情感分析四、数据分析通过数据预处理和数据分析,结合第二节确定的内容板块,得出以下结论,如下表所示。内容板块数据结论现状中国六次人口普查城市化水平中国城市化水平和速率提高,城市化率已突破50%。全国未婚男女人口、城镇和农村人口未婚人数、各地区未婚男女人数、“剩女”百度搜索指数地区分布、各年龄人数及结构性别比城市剩女多,农村剩男多。原因城乡居民人均收支情况城乡资源差距较大,城镇资源明显优于农村,其中差距最大的是工资性收入,也就是城乡就业差异。各地彩礼数据中国的彩礼总体上呈出地区差异,不同地区彩礼有所不同。媒体平台剩男剩女词频对城市剩女和农村剩男的负向评价多于正向评价,存在刻板印象。影响人口生育率中国的人口出生率自2016年逐年下降,下降速率增加,人口老龄化趋势严重。各地区住宅平均销售价格一二线房价居高不下,三四线城市房价不断攀升。剩男剩女媒体平台报道次数在2010-2019年十年间,部分媒体没有给予大龄未婚群体足够关注。结论(一)新闻叙事1.新闻叙事素材准备巧妇难为无米之炊,新闻叙事必须以充分和扎实的素材为基础。本案例主要运用深度访谈的方法,采取面对面访谈、视频聊天、语音电话、电子邮件等四大方式,采访了山西农村剩男、湖南城市剩女以及四川进城务工的剩女等3位对象。访谈中的问题达70个,最终形成了10381字访谈稿,深入挖掘剩男剩女的心路历程。五、数据新闻呈现2.新闻叙事基本方法新闻叙事的基本方法包括故事化、细节化、人物化、个性化等四大方法。在新闻实务中,最好做到新闻故事化、故事情节化、情节细节化、细节人物化。本案例采用了“华尔街日报体”的新闻叙事方法,其基本特征是首先以一个具体的事例(小故事、小人物、小场景、小细节)开头,然后再自然过渡,进入新闻主体部分,接下来将所要传递的新闻大主题、大背景和盘托出,集中力量深化主题,结尾再呼应开头,回归到开头的人物身上,进行主题升华,意味深长。这种写法从小处落笔,向大处扩展,感性、生动,优点在于符合读者认识事物从具体到抽象的认知过程。五、数据新闻呈现2.新闻叙事基本方法在本案例中,导入部分是城市剩女唐寅和农村剩男顾田在生活中的小细节,体现他们各自的性格特点和生活方式,如图所示。下一部分就是在中国城镇化转型的大背景中对城市剩女和农村剩男现状的宏观数据分析,如图所示。在尾声部分,再次回到受访者唐寅和顾田的人物身上,深化主题,引人深思。图导入部分

图6-23宏观数据分析五、数据新闻呈现本案例还运用以下叙事技巧增强新闻的可读性。(1)矛盾冲突通过对比工资性收入、生活用品及服务支出、教育文化娱乐支出以及医疗保健支出,突出城乡资源的矛盾差距;通过彩礼地图揭示全国高昂的彩礼分布,天价彩礼和农村剩男贫困的家庭环境形成矛盾;通过分析各大媒体平台对剩男剩女评价的词频以及其正向和负向的情感色彩,揭示出社会评价的矛盾冲突性与两极性。五、数据新闻呈现本案例还运用以下叙事技巧增强新闻的可读性。(2)设置悬念开头通过引入唐寅和顾田的生活片段,引发读者对二人性格和婚姻状况的好奇与兴趣。结尾通过对唐寅和顾田的生活细节描述,让读者浮想联翩,意犹未尽。(3)节奏修饰首先,本案例的新闻叙事节奏快慢相间,既有信息图表的直观,又有文字叙述的细腻。其次,通过对访谈稿件的省略、概略、减缓、停顿或者加速实现了对叙事张力的内在控制。最后,本篇数据新闻的第二节标题分别是观念之困、资源之差、人口之变、市场之祸、性格之难,句式一致,富有节奏和谐的美感。五、数据新闻呈现(二)数据可视化五、数据新闻呈现30-34岁的中国未婚女性不到5%,同年龄段的男性结婚率也比其中数字最高的法国高出近20个百分点,比日本更是高出30%,就连25-29岁之间的年轻人粗婚率也要比日本高出一倍。(二)数据可视化1.信息图(1)地图以“‘剩女’百度搜索指数地区分布图”为例,可通过百度搜索指数,获取原始数据或其所提供的数据地图。然后,可以通过第三方软件进行生成,或对百度搜索指数提供的地图进行美化,特别注意地图部分完成后,需要增加名称、数据来源等。五、数据新闻呈现(二)数据可视化(2)柱状图本图“利用Excel和PS制作特色条形图”,结果如图所示。图城乡资源对比特色条形图五、数据新闻呈现(3)折线图本折线图先在Excel中导入生育率数据生成,接着在PS中其线条和颜色进行优化,最后导入iH5中,结果如图所示。(4)复合图表本案例中的复合图表将时间、媒体平台和报道次数等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论