R语言做文本挖掘 Part2分词处理

发布时间：2021-03-06 01:18:14 所属栏目：大数据来源：网络整理

导读：副标题#e# ?? 转载：http://www.voidcn.com/article/p-qkxmglmf-pw.html Part2分词处理【发现有人转载，决定把格式什么重新整理一遍，有时间做个进阶版文本挖掘，恩！原文地址：CSDN-R语言做文本挖掘 Part2分词处理】在RStudio中安装完相关软件包之后，才

首先安装跟服装相关的词典，同样是从搜狗输入法的词库中下载的两个服饰类的词典,下载地址http://pinyin.sogou.com/dict/cate/index/397，这个地址下的前两个词库。

[plain] view plain copy print ?

installDict("D:RsourcesDictionariesfushi.scel",dictname?=?"fushi")??
installDict("D:RsourcesDictionariesAli_fushi.scel",dictname?=?"alifushi")??
listDict()??

installDict("D:RsourcesDictionariesfushi.scel",dictname = "fushi")
installDict("D:RsourcesDictionariesAli_fushi.scel",dictname = "alifushi")
listDict()

? ?Name Type

明星

2 pangu Text

3 fushi 服饰

4?? ali 服饰

下一步是将数据读入R中，可以看到一共有1640条微博数据，注意数据的编码格式，readLines默认读取格式是gbk格式的，读取格式不对时会乱码。

[plain] view plain copy print ?

hlzj?<-readLines("d:RRWorkspaceorgData.txt",encoding?="UTF-8")??
length(hlzj)??

hlzj <-readLines("d:RRWorkspaceorgData.txt",encoding ="UTF-8")
length(hlzj)

[1] 1640

接下来就是做分词了，要先去除数据中可能存在的数字和一些特殊符号，然后分词。

[plain] view plain copy print ?

hlzjTemp?<-?gsub("[0-9０１２３４５６７８９?<?>?~]","",hlzj)??
hlzjTemp?<-?segmentCN(hlzjTemp)??
hlzjTemp[1:2]??

hlzjTemp <- gsub("[0-9０１２３４５６７８９ < > ~]",hlzj)
hlzjTemp <- segmentCN(hlzjTemp)
hlzjTemp[1:2]

?[1] "新品推荐时尚迷彩面料设计?[7] "为"?????? "简约单西注入[13] "非同凡响野性"??? ?"魅力良好"?????

[19] "防水效果使得实用性更[25] "高极具春日吸睛[31] "亮点春季海澜之家男士休闲[37] "西服韩版西装外套"???? "HWXAJAA"

小编修身薄款连帽暖心防风保暖撞色线条年轻走亲访友出行选择活力过冬轻松冬季热卖正品羽绒服"???? "HWRAJGA"

可以看到微博内容都已经被做过分词处理了，这个过程很简单，但实际上可能需要多次查看分词处理结果，有些词库中不存在所以被截开了的词需要被添加进去，从而让分词效果达到最好。

3.?????? 去停词

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/9

首页

尾页

绕过使用大数据的保护	用Elastic Block Stor
技术迷途者指南我有问	转向未来的AI自动化测