新冠肺炎爆发初期微博文本的情感与舆情双重剖析：洞察公众情绪与舆论走向

上传人：s*** IP属地：上海上传时间：2026-04-02 格式：DOCX 页数：29 大小：55.59KB 积分：15 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

新冠肺炎爆发初期微博文本的情感与舆情双重剖析：洞察公众情绪与舆论走向一、引言1.1研究背景与意义1.1.1研究背景2019年底，新冠肺炎疫情突如其来，迅速在全球范围内蔓延，给人类社会带来了前所未有的冲击。在疫情爆发初期，病毒的高传染性和未知性引发了极大的不确定性，人们对疫情的发展态势充满担忧，社会各界面临着巨大的压力。医院人满为患，医疗资源极度紧张，医护人员日夜奋战在抗疫一线，承受着身体和心理的双重考验；人们生活节奏被打乱，出行受限，商业活动停滞，经济发展受到严重影响。在信息传播方面，微博凭借其即时性、开放性和广泛的用户基础，成为人们获取疫情信息、交流看法和表达情感的重要平台。疫情相关话题频繁登上微博热搜，大量的信息在平台上迅速传播。无论是官方发布的疫情通报、防控措施，还是民间分享的抗疫故事、生活状况，都在微博上引起广泛关注和讨论。微博的信息传播速度极快，一条疫情相关的消息可以在短时间内被转发、评论数百万次，迅速扩散到全球各地，成为公众了解疫情动态的重要窗口。同时，微博用户来自不同的地区、年龄、职业和社会阶层，他们的多元背景使得微博上的信息和观点呈现出丰富的多样性，形成了一个庞大而复杂的舆论场。然而，微博上的信息质量良莠不齐，其中包含了大量的谣言和不实信息。在疫情初期，由于人们对病毒的了解有限，对疫情的恐慌情绪较高，一些别有用心的人利用这一点在微博上发布虚假的疫情信息，如传播没有科学依据的“预防方法”、编造不实的病例数据、散布恐慌言论等，这些谣言和不实信息不仅误导了公众，加剧了社会恐慌情绪，还干扰了正常的疫情防控工作，给政府和相关部门带来了巨大的压力。因此，对微博文本进行深入分析，准确把握公众的情感倾向和舆情动态，及时识别和辟谣虚假信息，对于有效应对疫情、稳定社会秩序具有重要的现实意义。1.1.2研究意义从学术角度来看，本研究有助于丰富和拓展舆情分析理论。以往的舆情分析研究多集中在传统媒体环境下，对于社交媒体时代的舆情分析研究相对较少。微博作为具有广泛影响力的社交媒体平台，其信息传播模式和舆情生成机制与传统媒体有很大不同。通过对新冠肺炎疫情初期微博文本的情感分析和舆情分析，能够深入了解社交媒体环境下舆情传播的特点和规律，为舆情分析理论的发展提供新的实证研究案例和理论支撑，推动舆情分析理论在社交媒体领域的应用和创新。同时，本研究还涉及到自然语言处理、数据挖掘、情感分析等多学科领域的交叉应用，有助于促进不同学科之间的交流与融合，为相关学科的发展提供新的思路和方法。在实践方面，本研究对于疫情防控工作具有重要的指导意义。通过对微博文本的情感分析，可以及时了解公众对疫情的情绪反应，如恐慌、焦虑、愤怒、乐观等情绪的分布和变化情况。这些情感信息能够帮助政府和相关部门精准把握公众的心理状态，从而有针对性地开展心理疏导和舆论引导工作。例如，当发现公众恐慌情绪较高时，可以加大科普宣传力度，发布权威的疫情防控知识，消除公众的疑虑；当公众出现对防控措施的不满情绪时，能够及时调整政策，加强与公众的沟通，提高公众的配合度。此外，舆情分析还能够帮助政府及时发现疫情防控工作中的问题和不足，如医疗资源分配不均、物资供应短缺等，以便采取相应的措施加以解决，优化疫情防控策略，提高疫情防控工作的效率和效果，维护社会的稳定和和谐。1.2研究目标与方法1.2.1研究目标本研究旨在通过对新冠肺炎爆发初期微博文本的深入分析，全面揭示公众在这一特殊时期的情感倾向和舆情传播特征。具体而言，首先要精准识别微博文本中公众所表达的各种情感，如恐惧、焦虑、愤怒、乐观、感激等，并分析这些情感在不同阶段、不同话题下的分布情况和变化趋势。例如，在疫情初期，公众对病毒的未知和疫情迅速扩散的恐惧情绪可能较为普遍，随着防控措施的逐步落实和疫情信息的逐渐透明，公众的情绪可能会发生相应的转变。通过对这些情感变化的研究，能够深入了解公众在疫情期间的心理状态和情绪需求。其次，本研究致力于剖析舆情在微博平台上的传播规律。包括探究疫情相关话题的热度变化，分析话题是如何在微博上迅速传播并引发广泛关注的，以及哪些因素会影响话题的传播范围和持续时间。同时，研究不同类型的微博用户（如普通用户、意见领袖、媒体账号等）在舆情传播中所扮演的角色和发挥的作用，以及他们之间的互动模式对舆情走向的影响。例如，意见领袖的一条微博可能会引发大量的转发和评论，从而推动舆情的快速传播，而普通用户的集体发声也可能形成强大的舆论力量，影响舆情的发展方向。此外，还将分析影响舆情传播的关键因素。从信息层面来看，疫情信息的准确性、及时性和完整性对舆情传播有着重要影响，虚假信息或信息不透明往往会引发公众的恐慌和误解，导致舆情的失控；从社会层面考虑，社会经济状况、政策措施的实施、公众的文化背景和价值观等因素也会在一定程度上左右舆情的发展；在技术层面，微博平台的算法推荐机制、信息传播技术等也会对舆情传播产生作用。通过对这些因素的综合分析，为舆情的有效引导和管理提供科学依据。1.2.2研究方法本研究综合运用多种研究方法，以确保研究的科学性和有效性。在数据收集阶段，借助网络爬虫技术，从微博平台上抓取疫情爆发初期（2019年12月至2020年3月）与新冠肺炎疫情相关的微博文本数据。为保证数据的全面性和代表性，设置了丰富多样的关键词，如“新冠肺炎”“武汉疫情”“疫情防控”“口罩”“封城”等，涵盖了疫情相关的各个方面。同时，对数据进行了严格的筛选和去重处理，剔除了重复、无关以及质量较差的微博数据，最终获取了高质量的微博文本数据集，为后续的分析奠定了坚实的基础。对于收集到的微博文本数据，首先进行文本预处理。使用自然语言处理技术，去除文本中的HTML标签、特殊符号、停用词等噪声信息，对中文文本进行分词处理，将连续的文本序列分割成一个个单独的词语，以便后续的分析。例如，对于微博文本“武汉加油！抗击新冠肺炎疫情，我们在一起！”，经过分词处理后，得到“武汉”“加油”“抗击”“新冠肺炎”“疫情”“我们”“在一起”等词语。然后，采用词性标注技术，对每个词语标注其词性，如名词、动词、形容词等，进一步理解文本的语法结构和语义信息。在情感分析方面，运用基于词典的情感分析方法和机器学习算法相结合的方式。基于词典的方法，构建了专门针对疫情领域的情感词典，其中包含了大量与疫情相关的情感词汇及其情感倾向（积极、消极或中性）。通过匹配微博文本中的词语与情感词典，计算文本的情感得分，从而判断文本的情感倾向。例如，“希望”“信心”等词汇被标记为积极情感，“恐慌”“担忧”等词汇被标记为消极情感。同时，采用机器学习算法，如支持向量机（SVM）、朴素贝叶斯等，对已标注情感倾向的微博文本数据进行训练，构建情感分类模型。利用训练好的模型对未标注情感的微博文本进行预测，提高情感分析的准确性和效率。为了验证模型的性能，使用准确率、召回率、F1值等指标对模型进行评估，并通过交叉验证等方法对模型进行优化。在舆情分析阶段，运用社会网络分析方法，构建微博用户之间的互动网络，包括转发网络、评论网络等。通过分析网络的结构特征，如节点的度数、中心性、聚类系数等，研究微博用户在舆情传播中的地位和作用。例如，节点的度数表示该用户与其他用户的连接数量，度数越高，说明该用户在网络中的活跃度越高，对舆情传播的影响力可能越大；中心性指标可以衡量用户在网络中的核心程度，处于中心位置的用户往往能够更有效地传播信息和影响舆情。同时，结合话题分析技术，利用LDA（LatentDirichletAllocation）主题模型等方法，对微博文本进行主题挖掘，识别出疫情期间微博上讨论的主要话题，并分析话题的热度变化和传播路径。例如，通过LDA模型可以发现，疫情期间微博上的主要话题包括疫情动态、防控措施、医疗资源、社会民生等，然后进一步分析这些话题在不同时间段的热度变化以及它们之间的关联关系，从而深入了解舆情的传播规律和发展趋势。1.3研究创新点本研究在数据来源、分析方法和研究视角等方面具有独特的创新之处。在数据来源上，专注于新冠肺炎爆发初期这一关键时间节点，从微博平台获取数据。这一时期疫情处于快速发展阶段，公众对疫情的认知和情感变化最为剧烈，微博上的信息和讨论也最为活跃和复杂。通过聚焦这一时期，能够更敏锐地捕捉到公众情感和舆情的初始反应和动态变化，为研究疫情对公众心理和社会舆论的影响提供了最直接、最原始的素材。与以往一些对疫情全周期或较长时间段的研究相比，更能突出疫情初期的特殊性和重要性，挖掘出在疫情刚刚爆发时公众最真实的情感和舆情特征。在分析方法上，采用基于词典的情感分析方法与机器学习算法相结合的方式。基于词典的方法能够充分利用领域知识，构建专门针对疫情领域的情感词典，准确识别微博文本中与疫情相关的情感词汇及其倾向。而机器学习算法具有强大的自学习和模式识别能力，通过对大量已标注情感倾向的微博文本数据进行训练，能够自动学习到文本中的情感特征和模式，提高情感分析的准确性和效率。这种融合的方法弥补了单一方法的不足，既利用了词典方法的可解释性和领域针对性，又发挥了机器学习算法的数据驱动和自适应优势，在情感分析的准确性和适应性方面具有明显的创新优势。同时，运用社会网络分析和话题分析相结合的舆情分析方法，从多个维度深入研究舆情传播规律。社会网络分析能够揭示微博用户之间的互动关系和网络结构，明确不同用户在舆情传播中的地位和作用；话题分析则能够挖掘出微博上讨论的主要话题及其热度变化和传播路径。两者结合，能够全面、深入地了解舆情在微博平台上的传播过程和影响因素，为舆情研究提供了更系统、更深入的分析视角。在研究视角上，本研究从公众情感与舆情传播的双重角度出发，综合分析两者之间的相互关系和影响机制。以往的研究往往侧重于其中一个方面，要么单纯研究公众的情感表达，要么着重分析舆情的传播特征。而本研究将两者有机结合，探究公众情感如何影响舆情的传播方向和强度，以及舆情传播又如何反过来作用于公众情感的变化。例如，公众的恐慌情绪可能会促使相关话题在微博上迅速传播，引发更多人的关注和讨论，从而形成强大的舆情态势；而舆情的发展和变化，如官方权威信息的发布、社会正能量的传播等，又可能会改变公众的情感状态，缓解恐慌情绪，增强公众的信心。这种双重视角的研究，能够更全面、深入地理解社交媒体环境下疫情相关舆情的本质和规律，为舆情引导和管理提供更具针对性和有效性的建议。二、相关理论与研究综述2.1情感分析相关理论2.1.1情感分析概念情感分析，作为自然语言处理领域中的关键任务，也被称作意见挖掘或情感识别。其核心目标是借助计算机算法，对文本中所蕴含的情感信息展开自动识别与提取，从而判定文本的情感倾向，诸如积极、消极或是中性。在社交媒体蓬勃发展的当下，用户生成的内容呈爆炸式增长，情感分析的重要性愈发凸显。以微博平台为例，每天都会产生海量的用户评论和帖子，这些文本中包含着用户对各种事件、产品、服务等的情感态度。通过对微博文本进行情感分析，可以快速了解公众对某一话题的看法和情绪反应，为企业、政府等提供有价值的决策依据。例如，企业可以通过分析消费者对其产品的微博评论，了解产品的优点和不足，从而改进产品；政府可以通过分析公众对政策的微博反馈，评估政策的实施效果，及时调整政策方向。情感分析的应用领域极为广泛，涵盖了社交媒体监测、舆情分析、产品评价和用户反馈分析等多个方面。在社交媒体监测中，情感分析能够帮助企业和组织实时了解用户对其品牌、产品或服务的情感态度，及时发现负面评价，采取相应的措施进行危机公关。例如，某品牌在社交媒体上发现大量用户对其新产品的负面评价，通过情感分析了解到用户主要抱怨产品的质量问题，企业可以迅速召回产品，进行质量改进，并向用户道歉，从而挽回品牌声誉。在舆情分析方面，情感分析可以帮助政府和相关部门及时掌握公众对社会热点事件的情绪变化，预测舆情的发展趋势，为制定有效的舆情引导策略提供支持。例如，在疫情期间，通过对微博等社交媒体上关于疫情的文本进行情感分析，政府可以了解公众的恐慌、焦虑等情绪，及时发布权威信息，进行心理疏导，稳定社会秩序。在产品评价和用户反馈分析中，情感分析能够帮助企业深入了解消费者的需求和期望，优化产品设计和服务质量。例如，企业通过分析用户对其手机产品的评价，发现用户普遍对手机的电池续航能力不满意，企业可以在后续的产品研发中加强电池技术的研发，提高电池续航能力，满足用户的需求。在自然语言处理领域，情感分析占据着举足轻重的地位。自然语言处理旨在让计算机理解和处理人类语言，而情感分析则是其中一个重要的研究方向。它能够帮助计算机更好地理解人类语言中的情感信息，使计算机与人的交互更加自然和智能。例如，在智能客服系统中，情感分析可以让客服机器人识别用户的情绪，提供更加个性化和贴心的服务。当用户表达不满情绪时，客服机器人可以及时安抚用户，并提供解决方案，提高用户的满意度。同时，情感分析也是文本分类、信息检索等其他自然语言处理任务的重要基础。在文本分类中，情感分析可以作为一个特征，帮助分类模型更准确地对文本进行分类。例如，在新闻分类中，结合情感分析可以将新闻分为正面新闻、负面新闻和中性新闻，使分类更加细致和准确。在信息检索中，情感分析可以根据用户的情感需求，提供更符合用户期望的检索结果。例如，当用户搜索关于旅游的信息时，如果用户表达了对某个旅游景点的喜爱之情，检索系统可以优先推荐该景点相关的信息，提高检索的准确性和用户体验。2.1.2情感分析方法基于词典的情感分析方法，主要依赖于预先构建的情感词典。情感词典中收录了大量具有明确情感倾向的词汇，并标注了其情感极性（积极、消极或中性）以及情感强度。在进行情感分析时，通过将文本中的词汇与情感词典进行匹配，依据匹配词汇的情感极性和强度来计算文本的情感得分，进而判断文本的情感倾向。例如，对于文本“这款手机的拍照效果非常好，我很满意”，通过与情感词典匹配，“好”和“满意”被识别为积极情感词汇，根据情感词典中对这些词汇的情感强度标注，计算出该文本的情感得分为正数，从而判断该文本的情感倾向为积极。这种方法的显著优点是直观且易于理解，可解释性强，在情感词典质量较高、覆盖范围较广的情况下，能够对文本的情感倾向做出较为准确的判断。然而，它也存在明显的局限性。随着互联网的快速发展，新的词汇和表达方式不断涌现，如网络流行语、新兴领域的专业术语等，情感词典往往难以快速更新以涵盖这些新词，导致对包含新词的文本情感分析不准确。例如，“yyds”（永远的神）这类网络流行语，在传统的情感词典中可能没有收录，基于词典的方法就无法准确判断其情感倾向。此外，该方法在处理词汇的语义多样性和上下文语境时存在不足，同一个词汇在不同的语境中可能具有不同的情感倾向，而基于词典的方法很难充分考虑这些因素。例如，“骄傲”一词，在“我为祖国的繁荣感到骄傲”中表达积极情感，而在“他因为一点成绩就骄傲自满”中表达消极情感，基于词典的方法如果不结合上下文，就可能做出错误的判断。机器学习方法在情感分析中得到了广泛应用，主要包括有监督学习、半监督学习和无监督学习。有监督学习需要大量已标注情感倾向的训练数据，通过这些数据训练分类模型，如支持向量机（SVM）、朴素贝叶斯、决策树等，然后使用训练好的模型对未标注情感的文本进行分类预测。例如，使用大量已标注为正面和负面的电影评论数据来训练朴素贝叶斯模型，训练过程中模型学习评论中的特征与情感倾向之间的关系，训练完成后，就可以用该模型对新的电影评论进行情感分类。半监督学习则结合了少量的标注数据和大量的未标注数据进行模型训练，通过对未标注数据的特征提取和分析，来辅助模型学习，提高模型的性能，有效解决标注数据稀缺的问题。无监督学习不需要标注数据，主要通过文本间的相似性对未标记的文本进行聚类分析，从而发现文本中的潜在情感模式，但在情感分析中使用相对较少。机器学习方法的优势在于能够自动从大量数据中学习文本的特征和模式，对复杂的文本数据具有较强的适应性，在数据量充足、特征提取合理的情况下，能够取得较高的情感分类准确率。然而，它对训练数据的质量和数量要求较高，标注数据的准确性和一致性直接影响模型的性能。而且，机器学习方法的模型训练过程通常较为复杂，计算成本较高，需要较高的技术门槛和计算资源。同时，模型的可解释性相对较差，难以直观地理解模型做出情感判断的依据。深度学习作为机器学习的一个分支，近年来在情感分析领域取得了显著进展。深度学习方法主要基于神经网络，通过构建复杂的网络结构，自动学习文本的语义表示和情感特征。常见的深度学习模型包括卷积神经网络（CNN）、循环神经网络（RNN）及其变体长短时记忆网络（LSTM）、门控循环单元（GRU）等，以及基于注意力机制的模型和预训练模型（如BERT、GPT等）。CNN能够通过卷积层自动提取文本中的局部特征，在处理文本分类任务时具有较高的效率和准确性。例如，在对微博文本进行情感分析时，CNN可以快速捕捉文本中的关键词和短语等局部特征，判断文本的情感倾向。RNN及其变体则擅长处理序列数据，能够有效捕捉文本中的上下文信息和语义依赖关系，对于理解文本的情感含义具有重要作用。例如，LSTM通过引入记忆单元和门控机制，可以更好地处理长文本中的信息，避免梯度消失和梯度爆炸问题，准确把握文本的情感脉络。基于注意力机制的模型能够使网络在处理文本时自动关注重要的部分，提高对关键信息的捕捉能力，从而提升情感分析的准确性。预训练模型则是在大规模语料上进行预训练，学习到通用的语言知识和语义表示，在情感分析任务中只需进行微调即可适应特定的任务，大大减少了训练时间和数据需求，同时在性能上表现出色。深度学习方法在情感分析中具有强大的特征学习能力和模型表达能力，能够处理复杂的自然语言现象，在大规模数据集上能够取得非常优异的性能。然而，深度学习模型通常需要大量的计算资源和时间进行训练，模型的训练过程对硬件设备要求较高。而且，深度学习模型的可解释性较差，难以解释模型是如何做出情感判断的，这在一些对可解释性要求较高的应用场景中可能会受到限制。2.2舆情分析相关理论2.2.1舆情的概念与特点舆情，即“舆论情况”的简称，是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和，反映了民众对社会事务的关注和看法，是民意的一种综合体现。从现代舆情理论的严格意义上讲，舆情并非对民意规律的简单概括，而是对“民意及其作用于执政者及其政治取向规律”的一种描述，本质上是民众要求执政者不断改善民情状况的一种诉求和意愿的集合。在互联网时代，舆情具有诸多显著特点。其传播速度极快，以微博为代表的社交媒体平台打破了信息传播的时空限制，信息能够瞬间在全球范围内扩散。一条疫情相关的微博可以在几分钟内被转发数千次，短时间内就能引发广泛关注，形成强大的舆论声势。传播范围也极为广泛，不受地域、阶层的限制，无论是偏远地区的民众还是社会各界精英，都能通过网络参与到舆情讨论中，使得舆情的影响力迅速扩大。舆情还呈现出高度的自由性和交互性。在网络环境下，民众可以匿名发表自己的观点和看法，无需担心受到现实中的限制和约束，这使得民意能够更加真实、直接地表达出来。不同观点的民众之间可以通过评论、转发等方式进行互动交流，形成激烈的思想碰撞，进一步推动舆情的发展和演变。比如在微博上，对于疫情防控措施，网友们会发表各种不同的看法，支持的、质疑的、建议的，大家相互讨论，使得舆情不断升温。此外，舆情具有明显的时效性和不确定性。随着事件的发展和新信息的不断涌现，舆情的热度和关注点会迅速变化。在疫情初期，公众可能主要关注病毒的传播范围和感染人数，随着疫情防控工作的推进，关注点可能会转移到医疗资源的分配、防控政策的合理性等方面。同时，由于舆情受到多种因素的影响，如公众的情绪、媒体的报道、突发事件的发生等，其发展方向往往难以准确预测，具有较大的不确定性。一个不实的疫情谣言可能会在短时间内引发公众的恐慌，导致舆情失控，而官方的及时辟谣又可能迅速平息舆情，使舆情走向发生逆转。舆情在社会稳定和发展中发挥着至关重要的作用。它是社会的“晴雨表”，能够直观地反映社会矛盾和问题，为政府和相关部门了解民意、制定政策提供重要参考。在疫情期间，通过对微博舆情的分析，政府可以了解公众对疫情防控措施的满意度、对医疗物资供应的需求等，从而及时调整政策，优化防控工作。同时，舆情也是公众表达诉求、参与社会治理的重要途径，能够促进社会的民主进程。公众可以通过网络平台表达对社会事务的看法和建议，推动社会问题的解决。但如果舆情引导不当，也可能引发社会恐慌、破坏社会秩序，因此，对舆情进行有效的监测和引导至关重要。2.2.2舆情传播理论议程设置理论由美国传播学家麦库姆斯和肖于1972年提出。该理论认为，大众传播具有一种为公众设置“议事日程”的功能，传媒的新闻报道和信息传达活动以赋予各种“议题”不同程度的显著性的方式，影响着人们对周围世界的“大事”及其重要性的判断。在社交媒体时代，微博等平台成为重要的信息传播渠道，也发挥着议程设置的作用。在新冠肺炎疫情初期，微博上关于疫情的各种话题不断涌现，如“武汉封城”“口罩短缺”“医护人员驰援”等，这些话题通过大量的转发、评论成为公众关注的焦点，引导着公众的注意力和讨论方向。媒体和意见领袖通过发布相关信息和观点，能够设置公众关注的议题，影响公众对疫情事件的认知和态度。政府发布的疫情防控政策、专家对疫情形势的解读等内容，经微博广泛传播后，会成为公众讨论和关注的重点，进而影响公众对疫情防控工作的看法和评价。沉默的螺旋理论由德国传播学家伊丽莎白・诺尔-诺依曼提出。该理论指出，当人们在表达自己的想法和观点时，如果看到自己赞同的观点受到广泛欢迎，就会积极参与进来，这类观点就会越发大胆地发表和扩散；而当发现某一观点无人或很少有人理会（有时会有群起而攻之的遭遇），即使自己赞同它，也会保持沉默。意见一方的沉默造成另一方意见的增势，如此循环往复，便形成一方的声音越来越强大，另一方越来越沉默下去的螺旋发展过程。在疫情期间的微博舆情中，这种现象也时有发生。例如，对于疫情防控中的某一措施，如果大多数人持支持态度并在微博上积极发声，少数持反对意见的人可能会因为担心受到攻击或孤立而选择沉默，从而使得支持的声音在舆论中占据主导地位，形成一种螺旋式上升的传播态势。这种现象可能导致公众的意见走向极端，影响对问题的全面、客观认识，因此在舆情引导中需要关注并加以引导，鼓励多元观点的表达，避免单一观点的过度极化。信息级联理论认为，在信息传播过程中，个体在决策时不仅会考虑自己所掌握的信息，还会参考他人的行为和决策。当个体观察到其他人的决策后，即使自己拥有的私人信息表明应该做出不同的选择，也可能会跟随他人的决策。在微博舆情传播中，这种信息级联效应表现为，当一个热门话题或观点在微博上出现并获得大量关注和转发时，其他用户往往会不假思索地跟风转发和评论，而不去深入思考信息的真实性和可靠性。在疫情初期，一些关于疫情的谣言在微博上迅速传播，就是因为部分用户看到很多人都在转发这些谣言，从而也跟着转发，导致谣言像滚雪球一样越传越广，形成一种级联传播的效果。这种现象在舆情传播中容易引发信息的误传和公众的恐慌，需要通过及时发布权威信息、加强辟谣等措施来加以遏制。2.3国内外研究现状2.3.1国外研究现状在社交媒体舆情分析方面，国外学者进行了大量的研究。国外研究起步较早，并且由于社交媒体在全球范围内的广泛应用，相关研究成果丰富。学者们运用多种技术手段对社交媒体上的舆情进行监测和分析。如利用自然语言处理技术对社交媒体文本进行处理，提取关键信息；通过机器学习算法对舆情数据进行分类和预测，识别舆情的发展趋势。在对Facebook、Twitter等社交媒体平台的研究中，分析用户的互动行为和信息传播模式，探讨舆情在社交网络中的扩散机制。一些研究通过构建社交网络传播模型，模拟舆情在不同网络结构下的传播过程，研究节点的中心性、连接强度等因素对舆情传播的影响。在情感分析领域，国外的研究也处于前沿地位。在技术应用上，深度学习算法被广泛应用于情感分析任务。例如，基于卷积神经网络（CNN）和循环神经网络（RNN）及其变体的模型，能够自动学习文本的语义特征，提高情感分析的准确性。在多语言情感分析方面，国外学者也开展了深入研究，针对不同语言的特点，开发相应的情感分析模型，以适应全球化背景下多语言信息处理的需求。一些研究还关注情感分析在不同领域的应用，如在电子商务领域，通过分析消费者对产品的评论，帮助企业了解消费者的需求和满意度，优化产品设计和营销策略；在政治领域，分析公众对政治事件和政策的情感态度，为政治决策提供参考。2.3.2国内研究现状国内在新冠肺炎舆情分析方面取得了显著进展。随着疫情的爆发，国内学者迅速展开研究，利用大数据技术对疫情相关的网络舆情进行全面监测和分析。通过对微博、微信等社交媒体平台上的海量数据进行挖掘，分析舆情的传播路径、热点话题和公众的情感倾向。一些研究结合疫情的发展阶段，探讨舆情的演变规律，发现疫情初期公众的恐慌情绪较为突出，随着防控工作的推进和信息的透明化，公众的情绪逐渐趋于稳定。同时，国内学者还关注政府的舆情应对策略，评估政府发布的信息对舆情的引导效果，提出政府应及时、准确地发布权威信息，加强与公众的沟通，以有效引导舆情，维护社会稳定。在微博文本研究方面，国内学者从多个角度进行了探索。在文本特征提取方面，除了传统的词频统计、TF-IDF等方法外，还引入了词向量、主题模型等技术，更全面地挖掘微博文本的语义信息。在情感分析方法上，国内学者将基于词典的方法与机器学习、深度学习算法相结合，提高情感分析的精度。例如，构建针对微博文本特点的情感词典，并利用机器学习算法对词典进行优化，同时运用深度学习模型对微博文本进行情感分类，取得了较好的效果。此外，国内研究还关注微博用户的行为分析，研究用户的转发、评论、点赞等行为对舆情传播的影响，以及不同类型用户在舆情传播中的角色和作用。2.3.3研究现状总结当前国内外研究在社交媒体舆情分析和情感分析方面取得了丰硕成果，但仍存在一些不足。在数据处理方面，虽然大数据技术被广泛应用，但对于社交媒体上的多模态数据（如图像、视频等）的融合分析还不够深入，数据的质量和代表性也有待进一步提高。在情感分析模型的性能上，虽然深度学习模型在准确性上有了很大提升，但模型的可解释性较差，难以理解模型判断情感倾向的依据，这在实际应用中可能会受到限制。在舆情分析中，对于舆情传播的复杂网络结构和动态演变过程的研究还不够完善，缺乏对舆情传播中突发事件和异常情况的有效应对策略。本研究将针对这些不足进行改进。在数据处理上，尝试融合多模态数据，提高数据的丰富性和准确性；在情感分析模型的选择和优化上，注重模型的可解释性，探索将深度学习模型与可解释性方法相结合的途径；在舆情分析中，深入研究舆情传播的复杂网络结构和动态演变规律，建立更加完善的舆情传播模型，并提出针对突发事件和异常情况的舆情应对策略，以更全面、深入地揭示新冠肺炎爆发初期微博文本的情感特征和舆情传播规律。三、数据收集与预处理3.1数据收集3.1.1数据来源本研究选择微博作为数据来源，主要基于微博平台在信息传播和舆情生成方面的独特优势。微博作为中国最具影响力的社交媒体平台之一，拥有庞大的用户群体。截至2023年，微博月活跃用户数达到数亿，其用户覆盖了各个年龄、职业、地域和社会阶层，这使得微博上的信息来源广泛且多样，能够充分反映不同群体对新冠肺炎疫情的看法和情感。不同年龄层的用户在微博上表达的情感和观点各具特点，年轻人可能更关注疫情对生活方式和社交活动的影响，而中老年人则更关心疫情对健康和社会稳定的影响。通过分析不同群体的微博文本，可以全面了解公众对疫情的认知和情感差异。微博具有即时性的特点，信息发布和传播速度极快。在新冠肺炎爆发初期，微博成为了公众获取最新疫情动态的重要渠道。无论是官方发布的疫情通报、医护人员分享的一线抗疫情况，还是普通民众对生活物资短缺的抱怨，都能在微博上迅速传播，使公众能够及时了解疫情的最新进展和各方动态。一条关于疫情防控新政策的微博可以在几分钟内被转发数千次，短时间内就能让大量用户知晓，这种即时性为研究疫情初期公众的情感和舆情提供了实时的数据支持。微博还具有开放性和互动性的特征。用户可以自由地发布微博表达自己的观点和情感，也可以对他人的微博进行评论、转发和点赞，形成广泛的互动。这种互动性使得微博上的信息能够迅速扩散，形成强大的舆论场。在疫情期间，微博上关于疫情防控措施、医疗资源分配等话题引发了大量的讨论和互动，不同观点的碰撞和交流使得舆情更加复杂和多元。通过对这些互动数据的分析，可以深入了解舆情的传播机制和公众的情感变化。3.1.2数据采集方法本研究使用Python编写的爬虫程序从微博平台采集数据。在采集过程中，首先需要设定关键词，以准确获取与新冠肺炎疫情相关的微博。关键词的设定至关重要，它直接影响到采集数据的相关性和全面性。本研究设置了丰富多样的关键词，如“新冠肺炎”“武汉疫情”“疫情防控”“口罩”“封城”“核酸检测”“疫苗”等。这些关键词涵盖了疫情相关的各个方面，包括病毒名称、疫情发生地、防控措施、医疗物资以及疫情防控的关键环节等，能够确保采集到的微博数据全面反映疫情初期的各种情况。对于时间范围的选择，明确为新冠肺炎爆发初期，即从2019年12月疫情最初被发现开始，到2020年3月疫情在国内得到初步控制这段时间。这个时间段是疫情发展最为迅速、公众情感和舆情变化最为剧烈的时期，对研究具有重要的意义。在这个时期，公众对疫情的认知从最初的陌生和恐惧，逐渐转变为对疫情防控措施的关注和讨论，通过分析这个时间段的微博数据，可以清晰地看到公众情感和舆情的动态变化过程。在采集过程中，还需要考虑微博平台的反爬虫机制。为了避免被封禁IP，采取了一系列措施。设置合理的爬取时间间隔，如每隔一段时间（如5秒）发送一次请求，避免短时间内大量频繁请求；模拟真实用户的行为，设置随机的User-Agent，使爬虫程序的请求头信息与真实用户的浏览器请求头相似，增加请求的真实性；控制爬取频率，根据微博平台的规则和服务器的承受能力，合理调整爬取的速度和数量，确保采集过程的稳定性和可持续性。3.1.3数据采集范围本研究采集的数据涵盖了与新冠肺炎疫情相关的多个方面。在话题上，包括疫情动态，如每日新增确诊病例数、死亡病例数、疫情传播范围的变化等；防控措施，如各地政府实施的封城、隔离、交通管制等措施，以及公众对这些措施的反应和讨论；医疗资源，如口罩、防护服、检测试剂等医疗物资的供应情况，以及医院的床位紧张、医护人员短缺等问题；社会民生，如疫情对人们日常生活的影响，包括生活物资采购、工作学习的调整、社交活动的限制等；谣言与辟谣，微博上出现的各种关于疫情的谣言，以及官方和媒体的辟谣信息等。在用户类型上，涵盖了普通用户、意见领袖、媒体账号、政府机构账号等。普通用户的微博反映了广大民众的真实情感和生活状态，他们可能会分享自己在疫情期间的经历、困难和感受；意见领袖通常具有较大的影响力，他们的观点和言论能够引导公众舆论，对舆情的发展起到重要作用；媒体账号负责报道疫情的最新动态和权威信息，是公众获取疫情信息的重要来源；政府机构账号则发布官方的疫情防控政策、通知和指导意见，对公众的行为和态度产生重要影响。通过采集不同类型用户的微博数据，可以从多个角度全面了解疫情初期的舆情状况。经过数据采集，最终获取了大量的微博文本数据。对这些数据进行初步统计，共采集到微博文本[X]条，其中包含了丰富的信息，为后续的文本预处理和情感分析、舆情分析奠定了坚实的基础。3.2数据预处理3.2.1数据清洗在数据清洗阶段，首要任务是去除重复数据。由于微博平台数据量巨大，在采集过程中可能会出现重复的微博文本。这些重复数据不仅占用存储空间，还会增加后续分析的计算量，降低分析效率，因此需要将其剔除。使用Python的pandas库进行数据处理，通过对每条微博的唯一标识（如微博ID）进行查重操作，若发现重复的ID，则保留其中一条，删除其他重复记录。对于无效数据的处理也至关重要。无效数据包括内容为空的微博、格式错误的微博以及与新冠肺炎疫情无关的微博。对于内容为空的微博，因其不包含任何有效信息，直接将其删除。对于格式错误的微博，如无法正确解析的HTML标签、乱码等，通过编写正则表达式和相关处理函数，尝试对其进行修复或转换为正确的格式。若无法修复，则将其视为无效数据删除。对于与疫情无关的微博，通过人工标注一部分数据，训练文本分类模型，如使用朴素贝叶斯分类器，让模型学习疫情相关微博的特征，然后用训练好的模型对所有微博进行分类，将被判定为与疫情无关的微博删除。微博文本中常常包含特殊字符和表情符号，这些元素会对后续的文本分析产生干扰，因此需要进行处理。特殊字符如HTML标签、标点符号、网址链接等，使用正则表达式进行匹配和去除。例如，使用正则表达式r'<.*?>'可以匹配并去除HTML标签；使用re.sub(r'[^\w\s]','',text)可以去除大部分标点符号。对于网址链接，使用re.sub(r'http\S+','',text)可以将其替换为空字符串。表情符号在微博文本中较为常见，它们通常表达了用户的情感态度，但在传统的文本分析中难以处理。因此，建立一个表情符号映射表，将常见的表情符号映射为相应的情感词汇。例如，将“😄”映射为“开心”，“😢”映射为“难过”等。通过这种方式，将表情符号转换为文本形式，以便后续的情感分析和文本处理。经过数据清洗，共删除重复数据[X]条，无效数据[X]条，处理特殊字符和表情符号[X]处，使得微博文本数据更加干净、准确，为后续的中文分词和停用词处理等步骤奠定了良好的基础。3.2.2中文分词中文分词是将连续的中文文本序列分割成一个个单独的词语的过程，它是文本分析的基础步骤。在对微博文本进行分析时，由于中文文本不像英文文本那样有空格作为天然的分词标志，因此需要借助专门的分词工具来完成分词任务。本研究使用jieba分词工具，它是目前广泛应用的中文分词工具之一，具有高效、灵活、易用等特点。jieba分词的原理主要基于前缀词典和动态规划算法。它首先构建一个前缀词典，其中包含了大量的中文词汇。在分词时，对于输入的文本，jieba从左到右扫描，尝试在词典中找到最长的匹配词。如果找到匹配词，则将其作为一个分词结果；如果没有找到，则将单个字作为一个分词结果。例如，对于文本“新冠肺炎疫情防控工作”，jieba分词的过程如下：首先扫描到“新冠”，在词典中找到匹配词，将其作为一个分词结果；接着扫描到“肺炎”，同样找到匹配词；然后扫描到“疫情”“防控”“工作”，都能在词典中找到匹配词，最终得到的分词结果为“新冠/肺炎/疫情/防控/工作”。除了基于词典的分词方法，jieba还支持基于统计的分词方法，如使用隐马尔可夫模型（HMM）来识别未登录词（即词典中没有收录的新词）。对于一些新出现的词汇，如“新冠”“健康码”等，由于它们在传统词典中可能没有收录，基于词典的方法可能无法正确分词。而HMM可以通过学习大量文本中的词频、词性等统计信息，对未登录词进行合理的分词。例如，对于“健康码”这个新词，HMM可以根据其在文本中的上下文信息和统计规律，将其识别为一个完整的词汇进行分词。在使用jieba对微博文本进行分词时，调用jieba的cut函数，将微博文本作为参数传入。例如：importjiebatext="武汉加油！抗击新冠肺炎疫情，我们在一起！"words=jieba.cut(text)forwordinwords:print(word)运行上述代码，输出结果为：“武汉”“加油”“抗击”“新冠肺炎”“疫情”“我们”“在一起”。通过这种方式，将微博文本成功分割成了一个个单独的词语，为后续的文本分析和情感分析提供了基础。3.2.3停用词处理停用词是指在文本中频繁出现，但对文本的语义理解和情感分析没有实质性贡献的词语，如常见的介词、连词、助词等。在对微博文本进行分析时，去除停用词可以减少文本的噪声，降低数据维度，提高文本分析的准确性和效率。例如，在微博文本“在疫情期间，大家都要做好防护措施”中，“在”“都”“要”等词语虽然频繁出现，但对于理解文本的核心内容和情感倾向并没有重要作用，属于停用词。本研究使用的停用词表主要来源于哈工大停用词表、四川大学机器智能实验室停用词库以及自行整理的与微博文本特点相关的停用词。哈工大停用词表和四川大学机器智能实验室停用词库包含了大量常见的停用词，涵盖了各种词性和语境。自行整理的停用词则主要针对微博文本的特点，包括一些微博平台特有的词汇，如“转发”“评论”“点赞”等，以及一些语气词、表情符号对应的文本形式等。在去除停用词时，遍历分词后的微博文本词语列表，对于每个词语，检查其是否在停用词表中。如果在停用词表中，则将其从词语列表中删除；如果不在，则保留。例如，使用Python的set数据结构来存储停用词表，以提高查找效率。代码实现如下：stopwords=set()withopen('stopwords.txt','r',encoding='utf-8')asf:forlineinf:stopwords.add(line.strip())words=['武汉','加油','抗击','新冠肺炎','疫情','我们','在一起','在','都','要']filtered_words=[wordforwordinwordsifwordnotinstopwords]print(filtered_words)运行上述代码，输出结果为：“武汉”“加油”“抗击”“新冠肺炎”“疫情”“我们”“在一起”，成功去除了停用词。通过去除停用词，使得微博文本更加简洁，突出了关键信息，为后续的情感分析和舆情分析提供了更有价值的数据。四、新冠肺炎爆发初期微博文本情感分析4.1情感分析模型选择与训练4.1.1模型选择在情感分析领域，存在多种模型可供选择，每种模型都有其独特的优势和适用场景。本研究综合考虑了多种因素，最终选择了基于Transformer架构的BERT（BidirectionalEncoderRepresentationsfromTransformers）模型进行新冠肺炎爆发初期微博文本的情感分析。BERT模型是谷歌公司于2018年提出的一种预训练语言模型，它在自然语言处理领域取得了显著的成果，展现出了强大的语言理解和特征提取能力。与传统的基于循环神经网络（RNN）和卷积神经网络（CNN）的模型相比，BERT模型具有以下显著优势。首先，BERT模型采用了双向Transformer编码器，能够同时考虑文本的上下文信息，从而更全面、准确地理解文本的语义。在微博文本中，词汇的含义往往依赖于上下文语境，例如“口罩”一词，在“口罩短缺”的语境中表达了人们对物资匮乏的担忧，而在“佩戴口罩是有效的防护措施”中则强调了口罩的防护作用。BERT模型通过自注意力机制，能够自动捕捉文本中词汇之间的依赖关系，更好地理解词汇在不同语境下的语义，从而提高情感分析的准确性。其次，BERT模型在大规模语料上进行了预训练，学习到了丰富的语言知识和语义表示。这些预训练的参数包含了通用的语言模式和语义信息，在进行特定任务的微调时，能够快速适应新的任务需求，减少对大量标注数据的依赖。在新冠肺炎疫情相关的微博文本情感分析中，BERT模型可以利用其预训练学到的语言知识，快速理解微博文本中与疫情相关的专业术语、网络流行语等，准确判断文本的情感倾向。例如，对于微博文本“今天又抢到了心心念念的口罩，太开心啦，感谢政府的物资调配！”，BERT模型能够理解“抢到口罩”“开心”“感谢”等词汇所表达的积极情感，准确判断该文本的情感倾向为积极。此外，BERT模型在多项自然语言处理任务中都取得了领先的性能表现，包括情感分析、文本分类、命名实体识别等。在情感分析任务中，众多研究表明BERT模型能够有效提高情感分类的准确率和召回率，对复杂的情感表达具有更强的识别能力。对于一些语义模糊、情感复杂的微博文本，BERT模型能够通过其强大的语义理解能力，准确判断文本的情感倾向。例如，对于微博文本“虽然疫情还在持续，但看到医护人员的努力，还是感觉有希望，不过心里还是有点担心”，BERT模型能够综合考虑文本中“有希望”和“担心”等不同情感表达，准确判断出该文本包含了积极和消极两种情感成分。综上所述，基于BERT模型在语言理解、预训练优势和性能表现等方面的卓越特点，本研究选择BERT模型作为新冠肺炎爆发初期微博文本情感分析的核心模型，以实现对微博文本情感倾向的准确识别和分析。4.1.2模型训练在选择BERT模型后，需要使用标注好的微博文本数据对其进行训练，以使其适应新冠肺炎疫情相关微博文本的情感分析任务。训练过程主要包括以下几个关键步骤。首先是数据准备。将之前采集并经过预处理的微博文本数据按照一定比例划分为训练集、验证集和测试集。通常，训练集用于模型的参数学习，验证集用于调整模型的超参数和评估模型的性能，测试集用于评估模型在未见过数据上的泛化能力。在本研究中，按照8:1:1的比例将微博文本数据划分为训练集、验证集和测试集。例如，假设有10000条微博文本数据，其中8000条用于训练集，1000条用于验证集，1000条用于测试集。同时，对训练集进行数据增强操作，如随机删除或替换部分词汇、增加同义词等，以扩充训练数据的多样性，提高模型的泛化能力。接着进行模型初始化。加载预训练的BERT模型参数，这些参数是BERT模型在大规模通用语料上训练得到的，包含了丰富的语言知识。然后，在BERT模型的基础上添加一个全连接层作为分类器，用于将BERT模型输出的文本特征映射到情感类别空间。例如，对于二分类情感分析任务（积极和消极），全连接层的输出维度为2；对于多分类情感分析任务（如积极、消极、中性、恐惧、愤怒等），全连接层的输出维度根据情感类别数量进行设置。随后进行模型训练。使用训练集对初始化后的模型进行训练，训练过程中采用交叉熵损失函数来衡量模型预测结果与真实情感标签之间的差异，并通过反向传播算法更新模型的参数。在训练过程中，设置合适的超参数，如学习率、批量大小、训练轮数等。学习率决定了模型参数更新的步长，过大的学习率可能导致模型无法收敛，过小的学习率则会使训练过程变得缓慢。批量大小表示每次训练时输入模型的样本数量，合适的批量大小可以提高训练效率和模型的稳定性。训练轮数表示模型对训练集进行学习的次数，一般需要通过在验证集上的性能表现来确定合适的训练轮数，以避免过拟合或欠拟合现象。例如，设置学习率为5e-5，批量大小为32，训练轮数为10。在训练过程中，定期在验证集上评估模型的性能，根据验证集上的准确率、召回率、F1值等指标来调整超参数，如当验证集上的准确率不再提升时，适当降低学习率或提前终止训练。最后是模型保存。在训练完成后，选择在验证集上性能最佳的模型进行保存，保存的模型将用于后续对测试集和未标注微博文本的情感分析。通过上述训练过程，使BERT模型能够学习到新冠肺炎疫情相关微博文本的情感特征，从而准确地判断微博文本的情感倾向。4.1.3模型评估为了全面、准确地评估训练好的情感分析模型的性能，本研究采用了多种评估指标，包括准确率、召回率、F1值等。准确率（Accuracy）是指模型预测正确的样本数占总样本数的比例，计算公式为：Accuracy=(TP+TN)/(TP+TN+FP+FN)，其中TP（TruePositive）表示真正例，即模型正确预测为正类别的样本数；TN（TrueNegative）表示真负例，即模型正确预测为负类别的样本数；FP（FalsePositive）表示假正例，即模型错误预测为正类别的样本数；FN（FalseNegative）表示假负例，即模型错误预测为负类别的样本数。准确率反映了模型对所有样本的整体预测准确性。例如，在对100条微博文本进行情感分析时，模型正确预测了80条，那么准确率为80%。召回率（Recall），也称为真正例率（TruePositiveRate），是指真正例占所有实际正例的比例，计算公式为：Recall=TP/(TP+FN)。召回率衡量了模型对正例样本的捕捉能力，即模型能够正确识别出实际为正例的样本比例。在情感分析中，如果关注的是准确识别出所有积极情感的微博文本，那么召回率就显得尤为重要。例如，实际有50条积极情感的微博文本，模型正确识别出了40条，那么召回率为80%。F1值是准确率和召回率的调和平均数，计算公式为：F1=2*(Precision*Recall)/(Precision+Recall)，其中Precision为精确率，计算公式为Precision=TP/(TP+FP)。F1值综合考虑了准确率和召回率，能够更全面地评估模型的性能。当准确率和召回率都较高时，F1值也会较高，说明模型在预测的准确性和对正例样本的捕捉能力方面都表现出色。例如，当准确率为85%，召回率为80%时，计算得到F1值约为82.4%。在评估过程中，使用测试集对训练好的模型进行测试。将测试集中的微博文本输入到模型中，模型输出预测的情感标签，然后与测试集中的真实情感标签进行对比，计算准确率、召回率和F1值等评估指标。为了确保评估结果的可靠性，采用多次随机划分训练集、验证集和测试集，并取平均值的方法进行评估。例如，进行5次随机划分，分别计算每次划分后的评估指标，然后取平均值作为最终的评估结果。通过对模型的全面评估，可以了解模型在新冠肺炎疫情相关微博文本情感分析任务中的性能表现，为进一步优化模型或应用模型提供依据。4.2情感分析结果与讨论4.2.1情感倾向分布通过对训练好的BERT模型在测试集上的预测结果进行统计分析，我们得到了新冠肺炎爆发初期微博文本的情感倾向分布情况。在分析的[X]条微博文本中，积极情感的微博文本占比为[X]%，消极情感的微博文本占比为[X]%，中性情感的微博文本占比为[X]%。从整体分布来看，消极情感的微博文本占比较高，这反映出在疫情爆发初期，公众对疫情的担忧和恐惧情绪较为普遍。面对病毒的高传染性和未知性，以及疫情对生活、经济等方面带来的巨大冲击，公众普遍感到焦虑和不安。例如，一些微博文本中提到“疫情越来越严重，每天都在担心自己和家人被感染，真的好害怕”“生活完全被疫情打乱了，工作也没了，不知道该怎么办”，这些文本都表达了公众的消极情绪。积极情感的微博文本占比相对较低，但也不容忽视。积极情感主要体现在公众对医护人员的赞美和感谢、对战胜疫情的信心以及对社会互助的感动等方面。比如“医护人员太伟大了，他们不顾自己的安危奋战在一线，向他们致敬”“看到大家齐心协力抗击疫情，相信我们一定能战胜困难”等微博内容，展现了公众积极向上的态度和对未来的信心。中性情感的微博文本占比适中，这类微博主要是对疫情相关事实的客观陈述，如“今天新增确诊病例[X]例”“某地发布了新的疫情防控通知”等，不带有明显的情感倾向。为了更直观地展示情感倾向分布的变化趋势，我们将疫情初期划分为多个时间段，分别统计每个时间段内积极、消极和中性情感的占比。随着时间的推移，消极情感的占比呈现出先上升后下降的趋势。在疫情爆发初期，由于信息的不确定性和疫情的快速扩散，消极情感迅速上升；随着政府防控措施的逐步落实、疫情信息的逐渐透明以及社会各界的积极抗疫，公众的恐慌情绪得到缓解，消极情感占比逐渐下降。积极情感的占比则呈现出缓慢上升的趋势，尤其是在一些抗疫英雄事迹被广泛报道、社会各界团结一心抗疫的时期，积极情感明显增加。中性情感的占比相对较为稳定，但在某些信息密集发布的时间段，中性情感的占比会略有上升。通过对情感倾向分布及其变化趋势的分析，我们可以清晰地了解公众在疫情初期的情感动态，为进一步研究公众情感与舆情传播的关系提供了重要基础。4.2.2不同阶段情感变化在新冠肺炎疫情爆发初期，根据疫情的发展态势和防控措施的实施情况，可以将其划分为三个主要阶段：疫情爆发初期（2019年12月-2020年1月中旬）、疫情快速扩散期（2020年1月中旬-2020年2月中旬）和疫情防控攻坚期（2020年2月中旬-2020年3月）。在不同阶段，公众的情感呈现出明显的变化特点。在疫情爆发初期，公众对新冠肺炎的认知极为有限，病毒的高传染性和未知性引发了广泛的恐慌情绪。从微博文本中可以明显感受到公众的恐惧和担忧，如“这个病毒到底是什么情况，好可怕，感觉周围到处都有危险”“完全不知道该怎么防范，心里很慌”等。此时，消极情感在微博文本中占据主导地位，占比高达[X]%。公众对疫情信息的关注度极高，但由于信息的不全面和不确定性，导致焦虑情绪不断加剧。同时，积极情感的占比相对较低，仅为[X]%，主要表现为对疫情防控的初步期待和对患者的同情。进入疫情快速扩散期，疫情在全国范围内迅速蔓延，确诊病例数大幅增加，对社会生活和经济造成了严重影响。这一阶段，公众的消极情绪进一步加剧，占比达到[X]%。微博上充斥着对疫情严峻形势的担忧、对生活物资短缺的抱怨以及对防控措施的质疑。例如，“口罩根本买不到，怎么保障我们的安全”“封城措施太突然了，生活一下子变得好艰难”。然而，在这一阶段，随着政府防控措施的加强和社会各界的积极响应，一些积极的情感也开始涌现。公众对医护人员的敬佩和感激之情日益强烈，对社会互助的感动也逐渐增多，积极情感的占比上升至[X]%。同时，中性情感的占比也有所增加，主要是对疫情相关政策和措施的客观讨论。在疫情防控攻坚期，随着防控措施的持续推进和疫情信息的全面公开，公众对疫情的了解更加深入，恐慌情绪逐渐得到缓解，消极情感的占比下降至[X]%。此时，微博文本中更多地体现出公众对疫情防控工作的支持和配合，以及对战胜疫情的坚定信心。如“看到政府和医护人员这么努力，我们也要做好自己的防护，一起加油”“相信疫情很快就会过去，生活一定会恢复正常”。积极情感的占比进一步上升，达到[X]%，成为这一阶段的主要情感之一。中性情感的占比相对稳定，依然保持在一定水平。公众情感在不同阶段的变化主要受到以下因素的影响。信息的传播和透明度是关键因素之一。在疫情初期，信息的不透明和不确定性导致公众恐慌情绪加剧；随着信息的全面公开和及时传播，公众对疫情有了更清晰的认识，情绪逐渐稳定。疫情的发展态势也直接影响公众情感，确诊病例数的增加会引发更多的担忧和恐惧，而疫情得到有效控制则会增强公众的信心。政府的防控措施和社会的响应也起到了重要作用。政府积极采取防控措施，如封城、隔离、医疗资源调配等，让公众感受到政府的重视和努力，从而增强了对疫情防控的信心；社会各界的积极参与，如医护人员的英勇奋战、志愿者的无私奉献、企业的物资捐赠等，激发了公众的积极情感，促进了社会凝聚力的提升。4.2.3情感与话题相关性为了深入研究情感与话题的关联，我们运用LDA主题模型对微博文本进行话题挖掘，共识别出[X]个主要话题，包括疫情动态、防控措施、医疗资源、社会民生、谣言与辟谣等。通过分析不同话题下微博文本的情感倾向，发现情感与话题之间存在显著的相关性。在疫情动态话题下，微博文本的情感倾向较为复杂。当报道疫情确诊病例数、死亡病例数等严峻数据时，消极情感占比较高，达到[X]%。例如，“今天新增确诊病例又创新高，疫情什么时候才能结束啊，好绝望”，这类微博表达了公众对疫情发展的担忧和焦虑。而当报道疫情出现好转迹象，如新增病例数下降、治愈人数增加时，积极情感的占比明显上升，达到[X]%。如“看到治愈人数越来越多，真的太开心了，希望疫情早日结束”，体现了公众对疫情好转的喜悦和期待。防控措施话题下，公众的情感态度差异较大。对于一些严格的防控措施，如封城、交通管制等，部分公众表示理解和支持，积极情感占比为[X]%，他们认为这些措施是必要的，有助于控制疫情的传播，如“封城是为了大家的安全，我们要积极配合”。然而，也有部分公众对防控措施带来的生活不便表示不满，消极情感占比为[X]%，如“封城后生活太不方便了，买个东西都困难”。此外，还有一些公众对防控措施的执行力度和公平性提出质疑，中性情感占比为[X]%，如“某些地方的防控措施执行不到位，需要加强监管”。医疗资源话题下，消极情感较为突出，占比达到[X]%。主要原因是疫情初期医疗资源短缺，口罩、防护服、检测试剂等物资供应不足，导致公众对自身安全的担忧。例如，“买不到口罩，怎么出门啊，太危险了”“医护人员的防护服都不够用，这怎么保障他们的安全”。同时，公众对医疗资源的分配公平性也较为关注，一些关于医疗资源分配不均的报道引发了公众的不满情绪。社会民生话题涵盖了疫情对人们日常生活的各个方面的影响，情感倾向也呈现多样化。在生活物资采购方面，由于疫情期间部分地区物资供应紧张，公众对物资短缺的担忧导致消极情感占比为[X]%，如“超市里的菜都被抢光了，怎么办”。在工作学习方面，疫情导致企业停工停产、学校停课，对人们的经济收入和学业造成影响，消极情感占比为[X]%，如“工作没了，收入也没了，以后的日子怎么过”。然而，在社会互助方面，公众对邻里之间、陌生人之间的互帮互助行为表达了感动和赞赏，积极情感占比为[X]%，如“疫情期间，邻居送了我一些生活用品，真的好温暖”。谣言与辟谣话题下，情感倾向变化明显。当谣言传播时，公众往往表现出恐慌和愤怒，消极情感占比高达[X]%，如“听说疫情比官方报道的严重很多，这是真的吗，好害怕”。而当官方及时辟谣后，公众的情绪得到安抚，积极情感占比上升至[X]%，对政府和媒体的信任度也有所提高，如“感谢官方及时辟谣，让我们不再恐慌”。通过对不同话题下公众情感的分析，可以看出公众的情感与话题密切相关。不同话题引发的情感反应不仅反映了公众对疫情相关问题的关注焦点和态度，也为政府和相关部门制定针对性的政策和措施提供了重要参考，有助于更好地引导舆情和稳定社会情绪。五、新冠肺炎爆发初期微博舆情分析5.1舆情传播特征分析5.1.1传播速度与范围在新冠肺炎爆发初期，微博作为信息传播的关键平台，舆情传播速度之快令人瞩目。从时间维度来看，自2019年12月疫情相关信息开始在微博上出现，短短几天内，相关话题的讨论量便呈现出指数级增长。例如，在2020年1月中旬，随着疫情在武汉的迅速扩散以及官方对疫情的重视和通报，“武汉疫情”“新冠肺炎”等话题迅速登上微博热搜，相关微博的发布量和转发量在数小时内就突破了数十万。以2020年1月20日钟南山院士确认新冠肺炎人传人这一关键信息发布后为例，该消息在微博上迅速传播，当天相关话题的讨论量就达到了数百万，微博阅读量更是飙升至数亿。这一信息的传播速度远超传统媒体时代，充分体现了微博舆情传播的即时性和高效性。从地域范围来看，微博舆情的传播几乎覆盖了全球各个角落。国内方面，无论是一线城市还是偏远地区的用户，都通过微博密切关注疫情动态。疫情相关话题在全国各地引发了广泛讨论，不同地区的用户纷纷在微博上分享自己对疫情的看法、感受以及当地的防控情况。例如，湖北地区的用户会分享疫情对当地生活的直接影响，如封城后的生活物资供应、医疗资源紧张等问题；而其他地区的用户则会关注本地的疫情防控措施，以及对湖北地区的支援情况。国际上，微博也成为了全球了解中国疫情的重要窗口。许多国外媒体、机构和个人通过微博获取疫情信息，与中国用户进行互动交流。一些国际知名人士在微博上表达对中国抗疫的支持，使得疫情相关舆情在国际上也产生了广泛的影响。例如，世界卫生组织官员在微博上发布关于疫情防控的建议和信息，引发了全球范围内的关注和讨论，进一步扩大了微博舆情的传播范围。5.1.2传播路径与节点微博舆情的传播路径呈现出复杂的网络结构，主要通过用户之间的转发、评论和点赞等互动行为进行扩散。在疫情初期，舆情的传播往往从一些关键信息源开始，如官方媒体发布的疫情通报、专家学者的专业解读、一线医护人员的现场报道等。这些信息源具有较高的可信度和权威性，能够吸引大量用户的关注和转发。例如，央视新闻等官方媒体发布的疫情相关微博，通常会在短时间内获得数百万的转发和评论，成为舆情传播的重要起点。从传播路径来看，微博舆情传播存在多种模式。一种是“中心辐射型”传播，即由一些具有广泛影响力的大V、意见领袖或媒体账号作为中心节点，他们发布的信息会迅速传播到大量的粉丝群体中，再通过粉丝的转发和评论进一步扩散。例如，一些拥有千万粉丝的知名博主发布关于疫情防控的科普微博，其粉丝会迅速转发，使得该微博在短时间内传播到不同的用户群体中。另一种是“链式传播”，用户之间通过相互转发和评论形成一条传播链，信息在这条链上不断传递和扩散。在疫情期间，许多普通用户会将自己在生活中遇到的疫情相关问题或感人故事发布在微博上，其他用户看到后会进行转发和评论，从而形成一条传播链，使得这些信息能够在不同的社交圈子中传播开来。在传播节点方面，意见领袖和媒体账号在微博舆情传播中发挥着至关重要的作用。意见领袖通常具有较高的知名度和影响力，他们的观点和言论能够引导公众舆论的走向。在疫情初期，一些医学专家、社会知名人士等作为意见领袖，通过微博发布专业的疫情分析和防控建议，受到了公众的广泛关注和认可。例如，张文宏医生在微博上发布的关于疫情防控的科普文章和观点，引发了大量用户的转发和讨论，对公众正确认识疫情和做好防控措施起到了积极的引导作用。媒体账号则是信息传播的重要渠道，官方媒体通过发布权威的疫情信息，能够稳定公众情绪，引导舆情走向；而一些自媒体账号则通过发布个性化的内容，吸引用户的关注，在舆情传播中也具有一定的影响力。例如，一些地方媒体发布的关于本地疫情防控的独家报道，能够满足当地用户对信息的需求，在当地舆情传播中发挥重要作用。5.1.3传播周期与规律微博舆情的传播周期在新冠肺炎爆发初期呈现出明显的阶段性特征。一般来说，舆情传播周期可以分为四个阶段：潜伏期、爆发期、高峰期和衰退期。在潜伏期，疫情相关信息开始在微博上零星出现，但传播范围相对较小，公众的关注度也较低。在2019年12月疫情刚刚出现时，微博上只有少量关于武汉不明原因肺炎的报道，这些信息并没有引起广泛的关注，处于舆情传播的潜伏期。随着疫情的发展和信息的逐渐公开，舆情进入爆发期。在这个阶段，大量与疫情相关的信息在微博上迅速传播，话题讨论量急剧增加，公众的关注度和参与度大幅提高。2020年1月中旬，随着疫情的扩散和官方通报的增多，“武汉封城”“口罩短缺”等话题引发了公众的强烈关注，微博上相关话题的讨论量在短时间内呈现出爆发式增长，舆情进入爆发期。高峰期是舆情传播最为激烈的阶段，话题热度持续上升，各种观点和信息相互碰撞。在2020年1月底至2月初，疫情防控形势严峻，微博上关于疫情的讨论达到了高峰。各种谣言和不实信息也在这个阶段大量出现，与真实信息相互交织，使得舆情更加复杂。例如，一些关于疫情的谣言，如“病毒是人造的”“某种药物可以治愈新冠肺炎”等在微博上迅速传播，引发了公众的恐慌和质疑，进一步加剧了舆情的热度。随着疫情防控措施的逐步落实和信息的不断公开，舆情逐渐进入衰退期。在这个阶段，话题热度逐渐下降，公众的关注度和参与度也逐渐降低。2020年2月中旬以后，随着疫情防控工作的有序推进，疫情得到了一定程度的控制，微博上关于疫情的话题热度开始逐渐下降，舆情进入衰退期。但需要注意的是，在衰退期仍可能出现一些新的舆情热点，如疫情对经济的影响、复工复产等话题，这些话题会引发新的讨论和关注，使得舆情传播呈现出一定的波动性。通过对微博舆情传播周期的分析，可以发现其传播规律主要受到以下因素的影响。疫情的发展态势是影响舆情传播的关键因素，疫情的严重程度、传播范围的变化等都会直接影响公众的关注度和情绪，从而影响舆情的传播。信息的发布和传播也起到了重要作用，官方权威信息的及时发布能够稳定公众情绪，引导舆情走向；而谣言和不实信息的传播则会加剧舆情的波动。公众的情绪和需求也是影响舆情传播的重要因素，在疫情期间，公众对疫情信息的需求、对自身安全的担忧等情绪会促使他们积极参与微博讨论，推动舆情的传播。5.2舆情影响因素分析5.2.1事件性质与发展新冠肺炎疫情作为一次重大的突发公共卫生事件，其本身的性质和发展态势对微博舆情产生了根本性的影响。疫情的高传染性和未知性，使得公众在疫情初期对其充满恐惧和担忧。这种恐惧和担忧情绪成为了舆情的重要情感基础，引发了大量关于疫情防控、自身安全保障等方面的讨论。由于疫情的快速传播，短时间内大量人员感染，医疗资源面临巨大压力，这一严峻的形势引发了公众对医疗体系的关注和担忧，相关话题在微博上迅速传播，如“医院人满为患”“医疗物资短缺”等话题成为热点，引发了公众的强烈反响。疫情的发展动态，如确诊病例数的增减、疫情防控措施的调整等，直接影响着舆情的走向。当疫情出现好转迹象，确诊病例数持续下降时，公众的情绪会逐渐趋于稳定，微博上的积极情绪也会相应增加，对疫情防控工作的信心和支持也会增强。相反，当疫情出现反复或有新的情况出现时，如出现病毒变异、局部地区疫情反弹等，会再次引发公众的恐慌和关注，负面舆情也会随之增多。例如，当某地区出现疫情反弹时，微博上会迅速出现关于该地区疫情防控措施是否得当、是否会引发更大范围传播等讨论，公众的担忧情绪也会再次加剧。5.2.2信息发布与传播政府、媒体等信息发布主体在疫情期间的行为对微博舆情产生了重要影响。政府作为疫情防控的主导者，其发布的信息具有权威性和指导性。在疫情初期，政府及时发布疫情通报、防控措施等信息，让公众能够了解疫情的真实情况，增强了公众对疫情防控的信心。然而，如果政府信息发布不及时、不准确，或者存在信息不对称的情况，就会引发公众的质疑和不满，导致负面舆情的产生。例如，在疫情初期，部分地区由于信息统计和发布机制不完善，导致确诊病例数等数据更新不及时，引发了公众的猜疑和恐慌，微博上出现了对政府信息发布工作的批评声音。媒体在疫情信息传播中扮演着重要角色。主流媒体通过及时、准确地报道疫情动态，为公众提供了权威的信息来源，引导了舆情的正确走向。央视新闻、人民日报等主流媒体对疫情防控一线的报道，展现了医护人员的英勇事迹和社会各界的抗疫努力，激发了公众的正能量，促进了积极舆情的传播。然而，一些自媒体为了追求流量，发布不实信息或片面解读疫情相关事件，误导了公众，加剧了舆情的复杂性。例如，一些自媒体在未经核实的情况下发布关于疫情的谣言，如“某种食物可以预防新冠肺炎”“某个地方出现了大规模感染”等，这些谣言在微博上迅速传播，引发了公众的恐慌和混乱，给疫情防控工作带来了负面影响。5.2.3公众认知与态度公众对疫情的认知、态度和行为对微博舆情起着关键作用。在疫情初期，由于公众对新冠肺炎的认知有限，缺乏科学的防护知识，容易受到谣言和不实信息的影响，导致恐慌情绪蔓延。一些公众对疫情的严重性认识不足，不遵守防控措施，如不佩戴口罩、聚集活动等，这些行为引发了其他公众的不满和担忧，在微博上引发了关于公众责任和防控措施执行的讨论。随着疫情防控知识的普及和公众对疫情的深入了解，公众的认知逐渐理性，对疫情防控措施的理解和支持度不断提高。公众积极配合政府的防控工作，通过微博传播正能量，如分享抗疫经验、为医护人员加油等，促进了积极舆情的传播。公众的态度和行为还受到其社会背景、价值观等因素的影响。不同年龄、职业、地域的公众对疫情的关注点和态度存在差异。年轻人更关注疫情对生活方式和社交活动的影响，他们在微博上更活跃，积极参与疫情相关话题的讨论，传播新的观点和信息；而中老年人则更关注疫情对健康和社会稳定的影响，他们更倾向于相信官方信息和传统媒体的报道。同时，公众的价值观也会影响其对疫情的态度和行为。一些公众具有强烈的社会责任感，积极参与抗疫志愿服务，在微博上传播正能量；而一些公众则更关注自身利益，对疫情防控措施的执行存在抵触情绪，这些不同的态度和行为在微博上形成了不同的舆论声音，共同影响着舆情的发展。5.3典型舆情案例分析5.3.1案例选取本研究选取“双黄连口服液可抑制新冠病毒”这一微博舆情事件作为典型案例进行深入分析。该事件发生在2020年1月31日晚间

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

新冠肺炎爆发初期微博文本的情感与舆情双重剖析：洞察公众情绪与舆论走向

文档简介

温馨提示

最新文档

评论

相关文档