4  数据清洗

从非结构的、半结构的数据中抽取有用的信息,常常需要一番数据清洗操作,最重要的工具之一是正则表达式。R 语言内置一系列函数,组成一套工具,详见 ?regex

4.1 正则表达式

4.1.1 量词

4.1.2 级联

4.1.3 断言

正向查找 / 反向查找

4.1.4 反向引用

4.1.5 命名捕捉

4.2 字符串操作

4.2.1 查找

grep() / grepl() 返回是否匹配的结果

4.2.2 替换

sub() / gsub() 替换一次和多次

4.2.3 提取

regexpr() / gregexpr()

regexec() / gregexec()