基于深度学习的微博文本情感分析外文翻译资料

 2023-03-14 07:03

基于深度学习的微博文本情感分析

关键词:微博短文本,情感分析,卷积神经网络,词向量

传统的文本情感分析方法主要用于研究扩展文本,如新闻报道和全文文件。微博被认为是短文本,其特点是噪音大、内容新颖单词,和缩写。以往的情感分类方法往往无法提取显著的特征和特征应用于短文本或微文本处理时,分类效果较差。本研究提出了一个新的解决方案微博情感分类模型,即CNN_Text_Word2vec,在卷积神经网络(CNN)的基础上解决了上述问CNN_Text_Word2vec介绍了Word2vec神经网络在每个单词上训练分布式单词嵌入的模型。训练后的词向量用作输入该模型的特征是通过具有多个不同大小的卷积核的并行卷积层来学习微博文本特征。实验结果表明,CNN_Text_Word2vec的整体准确率较高比目前主流的支持向量机、LSTM、RNN等方法提高了7.0%。此外本研究探讨了不同语义单位对CNN_Text_Word2vec准确性的影响,特别是在中文文本处理中。实验结果表明,与使用特征向量得到的结果相比从训练词的角度来看,训练汉字得到的特征向量具有更好的性能。

(一)引言

微博已经成为人们交流和表达情感的热门渠道。每天生成的大量微博为文本情感分析提供了有利的数据库[1,2]。微文本比新闻、电影和文档等普通文本具有更复杂的情感词汇。因此,对微博文本进行情感分析是一项具有挑战性的任务,受到了相当多的研究关注[3,4]。

情感分类(EC)是自动挖掘和分析主观信息的一种重要方法,如文本中的观点、观点、情感和好恶。EC识别给定文本的感知极性(正或负),然后对文本进行相应分类。大多数现有的情感分析方法要么是基于词典的规则方法[5-10],要么是统计机器学习方法[11-14]。基于词典的规则方法根据由预先定义的情感词汇表组成的情感词汇表计算微博的情感倾向。基于机器学习的方法(浅层学习)将情感分析视为模式分类问题,并建立分类模型来预测微博的情感极性。

大多数传统的情感分类方法都是为处理扩展文本而设计的。当涉及到微文本(如微博)的处理时,这些方法无法实现良好的分类性能,因为提取的特征不明显。此外,这些传统方法没有考虑特征之间的语义相关性。例如,如果要分类的文本中出现“suffering”一词,且正面标签文本中使用的唯一一个词是“sad”,则无法进行准确分类。

在本文中,我们提出了一个微博情感分类模型CNN_Text_Word2vec,旨在利用卷积神经网络(CNN)解决上述问题。本文的主要贡献如下:

  1. 针对中文文本的特点,提出了基于单个字符特征向量的word-2vec神经网络模型对中文微博文本中的情感进行分类。实验结果表明,汉字构成的特征向量比词语构成的特征向量更有助于中文微博短文本的情感分类。
  2. 以word2vec模型训练的特征向量作为输入特征。建立了卷积神经网络模型,该模型与具有不同大小的多个卷积核的注意机制相结合,以实现端到端的集成训练,提高文本情感分类的准确性。
  3. 本文对以下四种模型中情感分类的总体准确性进行了比较评估并进行了报告:CNN_Text_word2vec(使用和不使用word2vec词向量)、SVM、RNN、LSTM。实验结果表明,中文微博上CNN_Text_word2vec的情感分类准确率分别比SVM、RNN和LSTM高7%、6.9%和2.91%。此外,当使用不同尺度的语义单位(即词向量和字符向量)时,我们还进行了实验并报告了CNN_Text_word2vec的整体准确度结果。对比评估结果表明,在测试的每个刻度设置中,使用字符向量比使用单词向量时,准确度始终较高。

(二)相关工作

1传统的情绪分类方法

通过学习方法,传统的情绪分类包括监督、非监督和半监督学习方法。

监督学习方法主要使用机器学习方法进行情感分类。Pang等人[15]使用在线情绪分析研究在线电影评论,并比较了朴素贝叶斯、最大熵分类和支持向量机(SVM)的性能。结果表明,支持向量机比其他方法具有更高的精度。Mullen等人[16]使用支持向量机使用单图模型从不同来源合成不同的特征信息,取得了比Pang等人更好的分类性能。Kennedy等人[17]通过结合使用上下文价移和支持向量机,在情感分类方面取得了良好的结果。Abbasi等人[18]将情感分类方法应用于英语和阿拉伯语网站,并使用熵加权遗传算法(EWGA)提高分类精度。

无监督学习方法主要基于先验知识对情绪进行分类。这些方法的效果不如监督下的方法,但已引起研究人员的广泛关注,因为它们不需要大量的标记语料库。Turney[19]通过确定评论中包含形容词或副词的短语的平均语义方向来确定是否推荐评论。短语的语义定位是基于给定短语和单词“优秀”之间的互信息减去给定短语和单词“差”之间的互信息而获得的。Wilson等人[20]使用手动注释器手动标记一组单词,以构建情感词典。他们建立的系统自动识别情感表达子集的上下文极性,并取得了良好的效果。Adreevskaia等人[21]使用字典(WordNet)根据字典中挖掘的语义相关单词来学习文本的情感方向。Lu等人[22]使用基于语料库的方法,通过分析单词与某些观察信息之间的关系,推断给定语料库中单词的情感取向;此外,他们还为特定领域建立了情感语言词汇表。Za-gibalov等人[23]使用自动种子词选择方法对中国产品评论进行无监督情感分类。该方法不需要任何标记的训练数据,并获得92%的F1。

当标记数据集较少时,半监督学习方法是一种合适的选择。它比有监督的学习方法消耗更少的时间和人力,比无监督的学习方法取得更好的分类效果。因此,与其他两种方法相比,半监督学习方法具有优势。Sindhwani等人[24]提出了一种方法,将标记特征和未标记文档合并到标准正则化最小二乘法中。在标记数据有限且未标记数据占多数的情况下,该方法比纯监督方法和竞争半监督学习方法取得了更好的效果。Dasgupta和Ng[25]首先使用光谱技术挖掘明确无歧义的评论,并通过主动、转换和集成学习的组合将模糊评论分类。他们结合了各种半监督情绪分类方法,取得了良好的分类结果。Wan[26]将一种协作训练方法应用到半监督学习中,使用有标签的英语语料库和无标签的汉语语料库进行汉语情感分类,解决了跨语言情感分类的问题。Li等人[27]提出的半监督情绪分类模型可以有效地解决非平衡情绪分类问题。

2基于深度学习的情绪分类

近年来,深度学习模型在计算机视觉[28]和语音识别[29]方面取得了显著的成果。它还被应用于自然语言处理任务,包括单词嵌入和文本训练的研究。Bengio等人[30]提出了一种用于估计神经网络语言模型的架构,该架构使用具有线性投影和非线性隐藏层的前馈神经网络来同时学习单词嵌入表示和统计语言模型。他们的工作在许多研究中被引用。Mikolov等人[31,32]介绍了Skip-Gram,一种学习高质量分布向量表示的有效方法。Skip Gram可以通过预测文档中的邻接项来学习表示固定长度的嵌入向量。Glorot等人[33]针对情绪分类的领域适应问题提出了一种深度学习方法,并将该方法应用于大规模在线评论的情绪分类,以提高分类精度。Socher等人[34]引入了递归神经网络,将短语表示为单词嵌入和分析树,以实现情感分类。然后使用基于校正因子的函数计算单词嵌入。

大多数学习连续词表示的现有算法通常只对词的句法上下文建模,而忽略了文本的语义。Tang等人[35]通过学习特殊词语嵌入(SSWE)解决了这个问题,SSWE在词语的连续表示中编码情感信息。Ren等人[36]提出了一个用于Twitter情绪分析的基于上下文的神经网络模型,该模型将相关推文中的上下文化特征以单词嵌入的形式整合到模型中。

CNN使用卷积滤波器学习局部特征[37–39]。CNN首先用于计算机视觉,然后被应用于自然语言处理,并在语义分析[40]、搜索查询检索[41]、句子建模[42]和其他传统自然语言处理(NLP)任务[43,44]中取得了良好的结果。

CNN在文本分类中的应用引起了越来越多的研究关注。Satapathy[45]是第一个将深度学习融入微文本规范化模块并改进情绪分析任务的同类课程。Wang等人[46]提出了一种联合CNN和RNN架构,利用CNN生成的粗粒度局部特征和通过RNN学习的长距离相关性对短文本进行情感分析。Arora[47]提出了一种文本规范化和深度卷积字符级嵌入(Conv char Emb)神经网络模型,用于非结构化数据的SA。Kim[48]使用CNN对单词嵌入预处理的句子进行分类,并在CNN的基础上建立了文本分类模型。实验结果表明,基于CNN的文本分类方法比优化方法具有更高的准确率。通过借鉴Kim等人的工作,我们建立了一个模型,该模型使用不同大小的多个卷积核在句子层面学习特征向量,连接特征向量,并构建新的句子特征向量用于微博上的情感分类。

图1.典型的CNN模式

(三)研究背景

1卷积神经网络

传统的前馈神经网络将每个输入神经元连接到下一层对应的输出神经元。此过程称为完全连接。然而,这种方法需要额外计算权重和效应集,这严重影响了训练速度。CNN不采用完全连接,而是采用部分连接,即每个神经元仅与输入层的一个区域相连,该区域被视为隐藏神经元的局部感受区。CNN的另一个特点是使用共享权重。隐藏层中的神经元是来自局部感受野的隐藏神经元卷积的结果。一个局部感受野每次移动都会为下一层产生一个神经元。在每个卷积核中,使用的权重(包括大小和值)保持不变。因此,CNN中的训练次数并不取决于神经元的数量,而是取决于卷积核的大小。因此,CNN比以前的神经网络模型具有更少的参数和更快的训练速度。

典型的CNN模型由以下几层组成:输入层、传输层、池、完全连接层和输出层。图1示出了CNN的结构。

在这个例子中,输入层有20X20个神经元和10个从输入层到卷积层的特征映射。每个特征图定义了一个5X5的共享权重和一个单独的共享功能集,这定义了一个5X5的部分接受域。然后,部分接受区将在整个图像上移动。对于每个部分感受野,一个隐藏层将有一个不同的隐藏神经元。因此,每个特征映射将有一个来自卷积层的16X16神经元输出;对于所有特征贴图,结果是10X16X16隐藏的特征神经元层。接下来,池层应用于2X2区域,该区域被视为10个特征地图特征值的最大池。结果是一个10X8X8的隐藏特征神经元层。网络中的下一层是完全连接的层,它将池层中的每个神经元连接到输出层中的每个神经元。最后,使用softmax的输出层,输入和输出样本属于每个类的概率。

2Word2Vec模型

Word2Vec是Mikolov等人[31,32,49-51]提出的一种神经网络模型,用于训练分布式单词嵌入表示,包括CBOW和Skip Gram。前者根据上下文训练当前单词嵌入,而后者根据当前单词预测上下文。通过Word2Vec模型训练的单词嵌入,捕获单词之间的语义相似度,充分考虑单词的语义信息。在我们的研究中,我们使用了基于负采样的CBOW模型来训练单词嵌入。CBOW模型简要介绍如下。

图2.CBOW神经网络模型

在图2中,CBOW神经网络模型由三层组成,即输入、投影和输出。假设一个给定的语料库C,其词序为(minus;2.minus;1,wt, 1, 2),其中wt是当前单词,其余单词是wt的上下文。输入层为单词wt前后两个单词对应的单词嵌入,即单词wt:Context(

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[596143],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。