R语言数据分析与挖掘-R语言数据操作基础_第1页
R语言数据分析与挖掘-R语言数据操作基础_第2页
R语言数据分析与挖掘-R语言数据操作基础_第3页
R语言数据分析与挖掘-R语言数据操作基础_第4页
R语言数据分析与挖掘-R语言数据操作基础_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

R语言数据类型011R语言数据对象02R语言文本处理03R语言数据类型201PAGE3数据类型判断及转换R语言中用来存储数据的类型有多种,包括数值型(numeric)、整数型(integer)、逻辑型(logical)、日期型(Date)、字符型(character)、复数型(complex)。类型辨别转换数值型(numeric)is.numeric()as.numeric()整数型

(integer)eger()eger()逻辑型(logical)is.logical()as.logical()日期型(Date)is.Date()

as.Date()字符型(character)is.character()as.character()复数型(complex)plex()plex()空值(NULL)is.null()as.null()可以通过methods(is)命令来查看所有类型判断函数,methods(as)命令查看所有的类型转换函数。PAGE4日期类型数据处理R语言的基础包中提供了两种类型的时间数据,一类是Date日期数据,它存储的是天,不包括时间和时区信息,另一类是POSIXct/POSIXlt类型数据,其中包括了日期、时间和时区信息。函数功能描述ISOdate()用数字直接生成日期对象,

得到的是一个POSIXct对象ISOdatetime()用数字直接生成日期对象,

允许继续加入小时、分钟、秒数信息Sys.Date()返回系统当前的日期Sys.time()返回系统当前的日期和时间Sys.timezone()返回系统当前所在的时区date()返回系统当前的日期和时间(返回的值为字符串)as.Date()将字符串形式的日期转换为日期格式format()将日期变量转换成指定格式的字符串as.POSIXlt()将字符串转化为包含时间及时区的日期变量strptime()将字符型变量转化为包含时间的日期变量strftime()将日期变量转换成指定格式的字符型变量difftime()计算两个日期变量间隔的秒数、分钟数、小时数、天数、周数weekdays()取日期变量所处的星期几months()取日期变量所处的月份quarters()取日期变量所处的季度PAGE5日期或时间格式含义format()函数将日期/时间输出为字符串,各种日期/时间格式含义如下:格式含义示例%d数字表示的日期(0~31)01~31%a缩写的星期名Mon/周一%A非缩写星期名Monday/星期一%w数字表示的星期几0~6(0为周日)%b缩写的月份Jan/1月%B非缩写月份January/一月%m月份(01~12)01~12%y两位数的年份19%Y四位数的年份2019%H24小时制小时(00~23)00~23%I12小时制小时(01~12)01~12%pAM/PM(上午/下午)指示AM/PM(上午/下午)%M十进制分钟(00~60)00~60%S十进制秒(00~60)00~60R语言数据对象602PAGE7R语言数据对象R语言拥有许多用于存储数据的对象类型,常用数据对象包括向量(vector)、矩阵(matrix)和数组(array)、因子(factor)、列表(list)和数据框(data.frame)。它们在存储数据的类型、创建方式、结构复杂度,以及用于定位和访问其中个别元素的标记等方面均有所不同。多样化的数据对象赋予了R灵活处理数据的能力。R语言文本处理803PAGE9基本文本处理基本文本处理包括字符串元素个数统计、字符串的合并及拆分、字符串的提取和替换以及字符编码转换等操作。基础包中的文本处理函数如下:PAGE10grep函数族grep函数族中的grep、grepl、regexpr、gregexpr等函数的匹配规则均可以使用正则表达式。函数作用grep()查找功能,返回匹配结果的下标集grepl()查找功能,返回是否匹配的逻辑向量regexpr()返回匹配向量包括字符的位置及匹配长度(只匹配第一次出现的),不匹配返回-1“match.length”给出匹配文本长度的整数向量(或-1)gregexpr()返回匹配列表包含字符的位置及匹配长度(匹配多次),不匹配字符返回-1,每个元素的格式与regexpr的返回值相同regexec()返回匹配列表包含字符的位置及匹配长度(只匹配第一次出现的),不匹配返回-1参数描述pattern正则表达式x,text字符向量或字符对象ignore.case逻辑值,FALSE表示大小写敏感、TRUE表示大小写不敏感perl逻辑值,是否使用perl风格的正则表达式,FALSE表示不使用,TRUE表示使用value逻辑值,FALSE返回匹配元素的下标,TRUE返回匹配的元素值fixed逻辑值,FALSE表示正则表达式匹配,TRUE为精确匹配useBytes逻辑值,FALSE表示按字符匹配,TRUE表示按字节匹配invert逻辑值,FALSE查找匹配值,TRUE返回不匹配元素的下标或值(根据value值)PAGE11常用正则表达式转义符基本文本处理包括字符串元素个数统计、字符串的合并及拆分、字符串的提取和替换以及字符编码转换等操作。基础包中的文本处理函数如下:转义字符作用\f换页符\n换行符\r回车符\t制表符(tab)\v垂直制表符.可以匹配任何单个的字符、字母、数字甚至.字符本身。同一个正则表达式允许使用多个.字符。但不能匹配换行\\

转义字符,如果要匹配就要写成“\\(\\)”|表示可选项,即|前后的表达式任选一个^取非匹配$放在句尾,表示一行字符串的结束()提取匹配的字符串,(\\s*)表示连续空格的字符串[]选择方括号中的任意一个{}前面的字符或表达式的重复次数。如{3,6}表示重复的次数不能小于3,不能多于6,否则都不匹配*匹配零个或任意多个字符或字符集合,也可以没有匹配+

匹配一个或多个字符,至少匹配一次?匹配零个或一个字符\d任何一个数字字符,等价于[0-9]\D任何一个非数字字符,等价于^[0-9]\w任何一个字母、数字字符(大小写均可以)或下划线字符\W任何一个非字母、数字或字符下划线字符\s任何一个空白字符(等价于[\f\n\r\t\v])\S

任何一个非空白字符(等价于[^\f\n\r\t\v])PAGE12字符串提取、替换和拆分在对文本进行处理时,经常需要截取字符串某一部分,此时可用substr()和substring()函数实现,如果对提取的字符串进行重新赋值,也可用于字符串替换。其函数基本形式为:substr(x,start,stop)substring(text,first,last=1000000L)substr(x,start,stop)<-valuesubstring(text,first,last=1000000L)<-value参数说明x/test字符串或者字符串向量start/first预读取/替换字符串的第一个下标(起始位置)stop/last预读取/替换字符串的最后一个下标(结束位置),last

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论