情感词获取与分类评级论文
一、研究背景
近年来BBS的迅速发展,主观性的言论越来越多。如何构建一个高效的系统对如此丰富的信息资源进行分析和处理,成为一个重要的研究问题。而对BBS信息资源的分析和处理,可以通过中心词和情感词两个维度进行处理。对于中心词的归类已经有了相对较为完整的分析体系,产生了很多有监督的学习方法以及文本特征表示方法和特征选择机制。而情感词的分类和评级以主观词为主,因此针对中心词的选择机制及方法在情感词上不能完全加以应用。本文主要以中山大学BBS的帖子为研究内容,选择合适的情感词分类方法,对情感词进行细分及评级,从而得出一个满足中大BBS舆情分析系统的情感词分类体系。
二、国内外研究现状分析
目前,基于语义的文本倾向性研究方法主要有两种:
一种是通过现有词典构建情感倾向词典。如,Hiroya利用待测词与褒义词、贬义词的语义距离计算待测词汇的语义倾向性;Ku等利用WORDNET中的其他与词汇相关的信息来判断词汇的语义倾向性;徐琳宏等采用HOWNET作为基准词,并在实验中加入否定词和副词的处理,计算待测词与关联度确定语义倾向,从语义理解方面对电影评论进行了倾向性识别研究。
另一种是建立一个语义模式库,采用语义分析技术用于文本倾向性判断。例如,复旦大学的朱嫣岚等年提出的基于HOWNET的词汇语义倾向计算方法,利用词语间的相似度来计算词的褒贬程度。路彬等设计了一种基于语义分析的信息过滤模型,该模型针对不良信息的特点,以自然语句为处理单元,采用主题词和语义分析的两级过滤工作模式。
但情感词的分类和评级以主观词为主,因此针对中心词的选择机制及方法在情感词上不能完全加以应用。
三、研究目标
通过对帖子出现的情感的类型与强度进行标引,将情感词进行分类,把情感词的强度按正面到负面分成等级进行标引。其中的软件处理流程类似于中心词的标引。当新词(解析字典没有的词)发现以后,通过语义相近度计算软件,比较与字典中词汇的相近程度,通过人工干预(半自动或全自动)进行中心词与情感词的添加。
最后通过对帖子数据的分析和调查,对情感词的分类和标引,开发一个可以实现将中大bbs的帖子进行实时抓取和自动分类的系统。
四、研究内容
帖子的分类标引以及中心词的主题分类标引这两个方面在去年师兄师姐的努力下已经完成了44067个帖子的抓取和分类,因此今年我们主要针对帖子情感词分类以及评级这一块开始入手。
情感心理学认为,情感的基本类型可以分为以下四种:即快乐,愤怒,恐惧和悲伤。
为进一步解决这个问题,我们通过对人类情感有关资料的查找发现:人的感情复杂多样,由于不同事情引起的同一类情感也有许多不同,即使是同一个人对同一件事情在同一个环境下也可能会有不同的情感,而不同的视野角度对情感词的分类也有所不同。因此通过对BBS中随机抽取的词语,我们除去可以分类的,根据无法准确分类的进行归纳,我们利用知网发布的wordsimilarity进行义项查找,发现一项出现频率较高的情感类型:怜悯。
古人云:人有七情六欲,对于心理学来说,七情分别是:喜怒哀乐惊恐怜。喜怒哀乐惊恐都可以在基本类型中找到位置,而怜似乎放在哪一个类型里面都不完全恰当。
综上,我们把怜悯列为单独的一项。情感大类分为:快乐,愤怒,恐惧,悲哀和怜悯五种。
快乐是指一个人期望和追求的目的达到后产生的情绪体验。由于需要得到满足,愿望得以实现,心理的急迫感和紧张感解除,快乐随之而生:
乐:指欢乐,身心愉悦,充满幸福的一种情感;
喜:包括喜爱、喜悦、喜好、喜欢、高兴、快乐等情感。
愤怒是指需求受到抑制或阻碍,愿望无法实现时产生的情绪体验。愤怒时紧张感增加,有时不能自我控制,甚至出现攻击行为:
怒:包括愤怒、恼怒、发怒、怨恨、愤恨等情感。
恐惧是当危险状况出现时,人们企图摆脱和逃避,而又无力应付时产生的情绪体验:
惊:指惊咤、惊愕、惊慌、惊悸、惊奇、惊叹、惊喜、惊讶等情感;
恐:指恐慌、恐惧、害怕、担心、担忧、畏惧等情感。
悲哀是指心爱的事物失去时,或者梦想破灭时产生的情绪体验:
哀:包括悲伤、悲痛、悲哀、怜悯、哀怜、哀愁、哀悯、哀怨、哀思等情感。
怜悯是指对肉体或精神上遭受痛苦的人或者对不幸的人表示同情的情绪体验:
怜:包括怜悯、哀怜、同情等情感。
为了使分类体系可以更加规范准确的划分情感词,我们利用知网发布的wordsimilarity对以上五类情感词进行义原判断,得到以下结果:
为了方便分类,我们再把情感词义原两两之间进行距离计算,得到以下结果:
对此,我们可以发现害怕,生气,悲哀三个负面情感词两两之间的距离和相似度是一样的;而喜悦,怜悯分别与三个负面义原之间的距离和相似度是一样的;怜悯与喜悦之间的距离和相似度与怜悯与其他三个负面义原之间的距离和相似度是一样的。
因此,我们先着手研究负面情感词三个义原之间的关系,我们先依据义原距离构建一个等边三角形,三角形的三个顶点分别为三个义原,如图:害怕→生气→悲哀→生气→害怕
为了进一步确认分类体系,我们在上一届同事的工作基础上,通过对他们抓取到部分中大BBS帖子(共5578个)人工筛选的情感词进行验证,共342个。由4个成员独立进行情感词的类型分类,从中取得分类一致的结果,对于有歧义的情感词,我们对其进行再次分类,删除无法得出一致结果的词语。以同样的步骤对正面情感词进行操作。
这样,结合HOWNET发布的,一共得到各类情感词978个,分类如下表。
即在此基础上,建立情感词分类体系如下:
五、结语
本分类体系是根据已有研究成果和从中大BBS帖子中已抽取出并去重后的情感词词表的基础上确立的分类体系,通过人工分类和修正,将情感词进行有效分类,这个分类比简单分正面情感词和负面情感词更适用于中大BBS的舆情分析系统.对于类别“其他”中的词汇,应在后续情感词分类中会根据情感词的情况对各子类进行必要的添加、去除或修正。
本文标签:
[!--temp.ykpl--]