新闻文件自动分类的研究_第1页
新闻文件自动分类的研究_第2页
新闻文件自动分类的研究_第3页
新闻文件自动分类的研究_第4页
新闻文件自动分类的研究_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新闻文件自动分类的研究AutomaticTextCategorizationonNewsAbstractIntextclassification,therearealwaystwoimportantsteps.Thefirststepisfeaturesselection,andthesecondoneisrelevancefunctionselection.Hereweproposetwotechniquestoimprovetheprecisionofclassificationbyusingco-occurrencetermsandbyconsideringthepositionswhichbigramoccurs.Moreover,thisresearchalsoprovidessomeotherdifferentfeaturesselectionmethodsasthecontrastfortheexperiment,includingsingletermsfeature,bigramfeatures,bigramfeatures,segmentationfeaturesandthepositionwhichsegmentationoccurs.Featuresselection在文件选取特征词方面,

中文的研究有:断词,双连字符串(bigram),三连字符串(trigram)。

Example:「国家的利益」

断词处理:国家、的、利益

bigram:「国家的利益」→国家、家的、的利、利益此外,文件中两个词占的比例高出其他词语甚多,且三个词的重要语意常呈现在两字词中。

例如:「研究生」中的「研究」可以表现出「研究生」的特征。Relevancefunction一般来说,相关函数有两种不同的方法:

中心矢量法(Centroid),

k-最邻近法(K-NearestNeighbor)双字词较单字词具代表性Example:

1.「建设」类:文山区合并景美,木栅,向繁荣迈进。

2.「金融」类:才短短一个月前,美国股市还弥漫恐惧,担惊受怕的投资人不敢再乘坐指数云霄飞车。

3.「美食」类:日本和食以其敬重自然、遵循时节、珍视食材特有滋味及强调营养均衡的料理精神,广受世界各地美食爱好者的追捧。

上述中的「美」分别代表「地名」,「国名」,「美食」,假若只看单字词,那么他们都是「美」,如此将会混淆真正的意义,因此若以双字词,意义就会被区分开来。co-occurrenceExample:

「国际政经」类:国际景气回顾与前瞻系列报导:取代旧苏联崩溃边缘经济,资源配置不当矛盾更为凸显,新国协正设若不协调,经济更将恶化。

word:「国际」,「景气」,「苏联」,「配置」,「国协」……

Co-occurrence:「国际」与「苏联」,「国际」与「国协」,「苏联」与「国协」

若我们只看单一语词,很容易将「景气」

「经济」,「配置」等语词,将该文件分到「经济」类别。若考虑共现语词的话,可以很容易的发现该文件与「国际政经」有较高的关联度。MethodsMaterials:

中文研究资料来自『财经纪事』中所含的新闻标题,其内容取自我省81年

间的中国时报,工商日报,联合报,民生报等各报社之新闻标题,共含有124940则新闻标题,每则新闻标题阶经过人工标示所属类别。MethodsFeaturesselection:1.对训练文件拆成双连字。2.将每篇文件中的词语两两配对一组,这些配对的词语就是共现语词。3.使用统计的分法,计算每组共现语词出现在各类别的频率。例如:

「政党」与「执政」这组共现语词在「政治」类别有高频率的出现,表示此共现语词与「政治」类别有相当高的关联度。Methods本文采用中心矢量法中的TF*IDF来计算文件跟类别间的相关程度,即透过TF*IDF来评估每个语词的重要程度。假设给与一个文件d,以及出现在d中的特征语词a。

→我们决定a在d中的重要性为:a在d中出现的次数TF乘以特征语词a本身的重要性IDFTermFrequency(TF):

词出现在类别中的次数。InverseDocumentFrequency(IDF):

若关键字出现在越少量的文件中,则IDF值越高,代表此关键字对该文件具有影响力,反之,

IDF值越低,代表此关键字对于该文件不具影响力。相关函数的计算先从待测文件d中撷取代表该文件的特征词a,再到训练语料中找寻这些特征a与类别c的关联度w(a,c)。接着,加总所有的w(a,c),得到文件d与类别c的关联程度R(c,d),最后取最大关联度的做为该文件的指派类别。不考虑特征出现位置的相关函数计算

考虑特征出现位置的相关函数计算考虑位置时,认为较前面的位置的词较为重要,所以将测试文件中语词位置的序数(order)开根号后取导数当做位置的权重。

Example

:「赖骏豪住高雄」断词结果位置序数pb赖骏豪11住20.707高雄30.577训练阶段算法Step1:将训练文件中的新闻标题断成一个个语词。Step2:计算各语词出现在各个类别的频率(TF)。Step3:计算各个词出现的类别数(IDF)。Step4:利用权重公式来计算各语词与类别的关联权重值。Example

:「政治」类:xx与议会xx的迷思:从xx者到政治的新现实

断词:xx、与、议会、xx、的、迷思、从、xx、者、到、政治、的、新、现实→根据Step2,Step3计算这些词出现在各类别的频率值,以及计算这些词出现的类别数。→最后,利用权重公式来得到这些语词和每个类别的关联度权重值。测试阶段算法Step1:将文件分解成一个个语词。Step2:若有位置考量则计算每个语词中的位置序数(order),若不考虑位置,则以”1”当做所有语词的order。之后在利用公式计算个文件与类别的关联强度。Step3:将拥有最高关联度的类别指派给该文件。Results实验特征选取是否考量位置实验一单字词NO实验二双连字符串NO实验三双连字符串+共现与词NO实验四双连字符串YES实验五断词NO实验六断词+共现与词NO实验结果以涵盖率(Coverage),精确率(Precision),来进行评估。

Results由图可看出使用单字词(实验一)做特征时,获得最差的效果,不管是使用双连字符串(实验二),或断词(实验五)效果都比实验一好。Results考虑双连字符串做特征(实验二),以及加入位置考量的实验(实验四),由图可看出加入位置的精确率高于没有加入位置可量的实验二,因此特征在文件中的位置有助于自动分类。Results由图可知双连字符串+共现与词(实验三)的精确率明显比双连字符串(实验二)高令词a在类别c中的权重值为W(s,c),则W(s,c)=TFs,c*IDFsIDFs=log(N/DFs+1)Example:假如一篇文件的总词语数是100个,而词语「母牛」出现了3次,那么「母牛」一词在该文件中的词频就是3/100=0.03

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论