大数据采集与预处理技术(微课版)课件 4.4 图书信息数据采集-自然语言公开数据集_第1页
大数据采集与预处理技术(微课版)课件 4.4 图书信息数据采集-自然语言公开数据集_第2页
大数据采集与预处理技术(微课版)课件 4.4 图书信息数据采集-自然语言公开数据集_第3页
大数据采集与预处理技术(微课版)课件 4.4 图书信息数据采集-自然语言公开数据集_第4页
大数据采集与预处理技术(微课版)课件 4.4 图书信息数据采集-自然语言公开数据集_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据采集与预处理技术*

*项目二图书信息数据采集与预处理序号软件配置要求1scrapy最新版本2Scripy-redis最新版本一、项目目标:1、完成图书信息数据分布式采集环境安装配置;2、完成图书信息数据采集程序设计和数据采集;3、完成图书信息数据预处理清洗。4、完成图书信息数据文本标注。二、环境要求:自然语言数据集自然语言处理(Neuro-LinguisticProgramming,NLP)领域有很多公开的标准数据集,用于各种自然语言处理任务,例如文本分类、机器翻译、情感分析、问答系统、命名实体识别等。1、文本分类数据集数据集名称数据集介绍数据集链接IMDB电影评论数据集主要用于情感分析任务,包含50000条电影评论,标注为正面或负面情感,广泛用于情感分类任务。/~amaas/data/sentiment/AGNews主要用于新闻分类任务,该数据集包含四类新闻(World,Sports,Business,Sci/Tech)的文本数据,适用于文本分类任务。http://groups.di.unipi.it/~gulli/AG_corpus_of_news_articles.htmlYelpReviews主要用于情感分析任务,Yelp评论数据集包含大量用户对餐厅等场所的评论,适用于情感分析任务。/datasetDoubanMovieReviews数据集主要用于情感分析任务,包含豆瓣电影的用户评论,标注了情感极性(正面、负面)。该数据集可用于情感分类、文本情感倾向分析。从豆瓣电影爬取或使用现有的公开版本今日头条新闻文本分类数据集主要用于新闻分类任务,TNEWS数据集来自今日头条的新闻文本,包含多个类别,共382688条数据,分布于15个分类中,适用于新闻分类任务。/aceimnorstuvwxz/toutiao-text-classfication-datasetIflytek长文本分类数据集主要用于应用场景分类任务,该数据集来自iFLYTEK,由不同的应用场景文本组成,共有119个类别,适合多类文本分类任务。/2、机器翻译数据集数据集名称数据集介绍数据集链接WMTWMT(WorkshoponMachineTranslation),主要用于机器反义任务,WMT提供了多语言平行语料库,包括英语、德语、法语、汉语、西班牙语等,用于机器翻译任务。每年都会举办翻译竞赛。/wmt20/translation-task.htmlIWSLTIWSLT(InternationalWorkshoponSpokenLanguageTranslation),主要用于口语翻译任务,包含各种演讲(TEDTalks)的双语平行语料库,主要用于口语翻译和句子翻译任务。https://wit3.fbk.eu/CCMTCCMT(ChinaConferenceonMachineTranslation),主要用于中文-多语言机器翻译任务,CCMT是中国机器翻译领域的顶级会议,提供了中文与其他语言(如英语、日语、蒙古语、藏语等)的平行语料库,适用于中文翻译模型的开发。/OPUSProject主要用于多语言机器翻译任务,OPUS是一个大型开源平行语料库项目,包含许多不同语言对的翻译数据集,例如中文-英语、中文-日语、中文-法语等。OPUS提供了大量平行句对,适合多语言机器翻译任务。https://opus.nlpl.eu/UM-CorpusUM-Corpus(UMChinese-EnglishParallelCorpus),主要用于中文-英语机器翻译任务,UM-Corpus是香港中文大学开发的中文-英语平行语料库,包含多种不同领域的句子对。它适合用于中英翻译模型的训练。http://nlp2ct.cis.umac.mo/um-corpus/3、问答对话数据集数据集名称数据集介绍数据集链接SQuADSQuAD(StanfordQuestionAnsweringDataset),主要用于机器阅读理解任务,SQuAD是一个大规模问答数据集,包含问题和对应的文章段落,答案通常在段落中可以直接找到。SQuAD2.0还包含无法从文章中找到答案的问题。https://rajpurkar.github.io/SQuAD-explorer/NaturalQuestions(NQ)NaturalQuestions(NQ)主要用于问答系统,由Google发布,包含真实的用户问题以及来自维基百科的答案,适用于基于文档的问答任务。可以从阿里云下载:/dataset/92187TriviaQA主要用于问答系统任务,包含问答对和对应的证据文件,问题来源于问答比赛和搜索引擎查询。/triviaqa/Persona-Chat主要用于对话系统任务,一个用于对话系统训练的数据集,包含个性化对话,适用于个性化聊天机器人训练。PERSONA-CHAT包括10981个对话以及164356个语句,由1155个人参与对话,每个人指定了至少5句profile句子表示其个性。/facebookresearch/ParlAI/tree/master/projects/personachatIEMOCAP主要用于对话理解任务,例如情感识别,数据是英文,包括视频、音频、文本数据,包含151个对话、7433个语句、10个对话角色、10种情感标签。/iemocap/DoubanConversationCorpus主要用于常规开放域对话,数据集是中文文本,Douban数据集主要爬取自中文豆瓣论坛,包含1.1M个对话,7.7M个语句。/MarkWuNLP/4、命名实体识别数据集数据集名称数据集介绍数据集链接CoNLL-2003主要用于命名实体识别任务,这个经典数据集用于英语和德语的命名实体识别任务,标注了实体类别如人名、地名、组织等。https://www.clips.uantwerpen.be/conll2003/ner/OntoNotes5.0主要用于命名实体识别、核心指代解析任务,是一个多语言的大型语料库,提供标注的实体、语义角色、句法结构等,广泛用于多种NLP任务。/LDC2013T19电商NERTaobao主要基于Taobao电商数据制作的一个命名实体数据集,该数据集包括了4大类(商品名称、商品型号、人名、地名)、9小类实体类别(电脑、汽车、日用品等)。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。其中,训练数据集6000条,验证数据集998条,测试数据集1000条。/allanj/ner_incomplete_annotation中国文学-NER该数据集基于中国文学文章进行标注制作,共计包含726篇文章。一共定义了7个实体:物件、任务、地址、事件、计量单位、组织、出处等。/lancopku/Chinese-Literature-NER-RE-Dataset5、文本生成数据集数据集名称数据集介绍数据集链接GPT-2WebText主要用于语言建模、文本生成任务,用于训练GPT-2模型的数据集,包含从Reddit上高质量帖子中提取的文本。数据集未公开,可以通过openAI了解细节。OpenSubtitles主要用于文本生成、机器翻译任务,包含大量字幕文件,适用于对话生成任务。/LDC2013T19CommonCrawl主要用于开放域文本生成任务,是一个开放的网络爬虫数据集,包含来自全球网站的大规模文本数据。它是GPT-3等大型模型的训练来源之一,适用于大规模语言模型的训练。WikiText主要用于长文本生成、语言模型训练任务,是从维基百科中提取的高质量长篇文章,内容包含详细的百科知识,适合用于训练语言模型,尤其是生成长文本。/research.metamind.io/wikitext/wikitext-103-raw-v1.zipCOCOCaptions主要用于图像描述生成,COCOCaptions数据集包含图像及其对应的文字描述,主要用于训练生成图像描述的模型,适合多模态文本生成任务。/#captions-2015图书信息数据集数据集名称数据集介绍数据集获取方法GoodreadsAPIGoodreads是一个知名的读书社区,用户可以为书籍撰写评论、评分和书评。通过Goodreads提供的API,开发者可以访问大量的图书评论数据,适合用于分析用户对书籍的反馈。可以使用GoodreadsAPI获取评论、评分、书籍元数据等信息。GoodreadsAPI有访问限制,确保在采集时遵循其使用政策。链接:/apiAmazonProductAdvertisingAPIAmazon作为全球最大的在线书店之一,包含了大量书籍的用户评论。通过Amazon提供的ProductAdvertisingAPI,可以获取图书的评论数据,包括用户评分、评论内容、发布日期等。使用ProductAdvertisingAPI请求图书的评论信息。API使用需要申请,且有使用限额,需遵守Amazon的政策。链接:/LibraryThingAPILibraryThing是另一个读书社交网站,用户可以标记书籍、撰写书评、给书籍打分。它的API可以用于获取图书的评论数据。通过LibraryThing的API进行评论数据的提取,获取用户对书籍的评价、评分等信息。链接:/servicesBookCrossingDatasetBookCrossing是一个全球的图书交换和书评平台,BookCrossing数据集包含了大量用户对书籍的评分信息。虽然不包含详细的评论文本,但适合用于评分预测等任务。可以从以下提供的公开资源中下载该数据集。链接:/datasets/book-crossing/DoubanBookAPI(豆瓣读书API)豆瓣是中国一个广受欢迎的文化交流平台,豆瓣读书提供了丰富的书籍评论、评分和书评。通过豆瓣读书API,开发者可以获取中文书籍的评论和评分数据。通过豆瓣读书API

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论