情感、行为分析课题组
×

登录

情感 & 行为分析课题组


(Sentiment & Action Analysis)

科研-Research



情感分析简介

什么是情感分析

情感分析(SA)又称为倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,其中情感分析还可以细分为情感极性(倾向)分析,情感程度分析,主客观分析等。


情感极性分析的目的是对文本进行褒义、贬义、中性的判断。在大多应用场景下,只分为两类。例如对于“喜爱”和“厌恶”这两个词,就属于不同的情感倾向。


情感程度分析 主要是对同一情感极性中再进行划分或者细分,以描述该极性的强度。例如“喜爱”和“敬爱”都是褒义词,但是“敬爱”相对来说褒义的程度更加强烈一些。


主客观分析主要目的是却别文本中哪些部分是客观称述而不带情感色彩,哪些是带有情感的主管描述。在对于微博,或者商品评论时,这个分析步骤一般都忽略,因为微博和商品评论本身就一定存在强烈的情感色彩,而且客观描述的情感值理论上是为零,不影响最终的情感分析结果。


情感分析的主要方法

现阶段主要的情感分析方法主要有两类:


a 基于词典的方法


b 基于机器学习的方法


基于词典的方法主要通过制定一系列的情感词典和规则,对文本进行段落拆借、句法分析,计算情感值,最后通过情感值来作为文本的情感倾向依据。


基于机器学习的方法大多将这个问题转化为一个分类问题来看待,对于情感极性的判断,将目标情感分类2类:正、负。对训练文本进行人工标标注,然后进行有监督的机器学习过程。例如想在较为常见的基于大规模语料库的机器学习等。 三、基于词典的情感分析


文本情感分析

定义

文本情感分析的分析粒度可以是词语、句子也可以是段落或篇章。段落篇章级情感分析主要是针对某个主题或事件进行倾向性判断,一般需要构建对应事件的情感词典,如电影评论的分析,需要构建电影行业自己的情感词典效果会比通用情感词典效果更好;也可以通过人工标注大量电影评论来构建分类器。句子级的情感分析大多事通过计算句子里包含的所有情感词的平均值来得到。


文本切割转换

开源中文分词工具有很多,如在线的SCWS(PHP),张华平博士团队开发的NLPIR(C、Python、Java),哈工大的LTP(C++、Python),还有R语言的分词包RWordseg(NLPIR的R接口)。几款分词工具各有各自的特点,在这里不详细介绍了,读者可以自行检索查阅。


文本切割的目的是将文本变成我们后续分析需要的格式,如句子“我今天很不高兴。”,进行文本切割后,转换成:


[(1,“我”,“r”),(2,“今天”,”t”),(3,“很”,”d”),(4,“不”,”d”),(5,“高兴”,“a”)]


选择不同的分词工具,可以获得不同的词语属性,用SCWS分词,还可以获得每个词的IDF值;用LTP分词,可以获得句子的依存关系、语义角色等。这些属性对于我们后面计算句子的情感倾向都是有帮助的。本文只用都了词语的词性,感兴趣的读者可以思考如何用其他的属性来实现更好的情感分析。


情感定位

本文基于已有的中文情感词库,构建了一张情感词表,然后对文本进行中文分词处理,将处理后得到的单词依次与预先构建好的情感词表逐个查找,若能找到,则是情感词,并读取情感极性及相应权值,否则,不是情感词,则进入下一个候选单词,直至整句话判断结束。


文本的情感分析是从发现句中的情感词开始,通过情感词的倾向和倾向度,来决定句子的情感,从而决定整个文本的情感。但是我们在实际生活中会发现,否定词的修饰会使情感词语的情感极性发生改变。比如:“我今天很不高兴”,该句中“高兴”是褒义词,由于否定词“不”的修饰,使其情感极性发生了改变,转变成了负面情感。由于汉语中存在多重否定现象,即当否定词出现奇数次时,表示否定意思;当否定词出现偶数次时,表示肯定意思。本文单独构建了一个否定词典notDict,并设置其权值为-1,常见的否定词如:不、没、无、非、莫、弗、毋、勿、未、否、别、無、休。


另外,当程度副词修饰情感词,该情感词的情感倾向程度发生了变化。比如: “今天坐了12个小时的车,身体极度疲惫。”,“疲惫”是一个贬义词,前面一个程度副词“极度”的修饰使得“疲惫”原来的情感倾向程度发生了变化,这比没有修饰之前更加强烈。因此,为了准确表达文本的情感倾向,需做相应的权值调整。本文中的程度副词来源于知网(HowNet),选用“情感分析用词语集(beta版)”中的“中文程度级别词语”共219 个,蔺璜等人提出了把程度副词划分六个等级,笔者为每个程度副词定义了一个权重,被程度副词修饰后的情感词其权值应做相应调整。


“我今天很不高兴。”


①经过文本切割转换


[(1,“我”,“r”),(2,“今天”,”t”),(3,“很”,”d”),(4,“不”,”d”),(5,“高兴”,“a”)]


②情感定位


[(5,“Happy”,4),[(4,-1)],(3,1.25)] ##[情感词,否定词,程度副词]



图片情感分析

简介

对图片情感进行分类,分别是Amusement, Anger, Awe, Contentment, Disgust, Excitement, Fear, Sadness八个类。


首先我们必须有一个有label的图片数据集,有两中方法获取带label的数据集,最简单的当然是利用公开的数据集,图像情感方面可以参考IAPS;第二种自然是自己建立,通过人工的标注,最后统计结果作为ground truth。


预处理

把图片的尺寸变成一致并且进行裁剪,最好保持图片的长宽比和原来的一致,不至于让图片失真;


特征提取

根据相应的研究和论文提取出最有用的特征,组合成最后的特征;这一步决定了后面分类器分类的质量;


特征选择

因为提取的特征当中可能会有冗余的特征,并且特征过多容易造成维数灾难,比较常用的方法是作主成分分析(PCA),或者是直接利用现有特征,根据启发式、完全搜索式等等方法抽取特征子集;


分类器

对不同的分类器进行测试,比如SVM,RF,GBDT等等各种算法进行分类,测试效果,得到最终的分类模型;



舆情分析

定义

舆情分析就是根据特定问题的需要,对针对这个问题的舆情进行深层次的思维加工和分析研究,得到相关结论的过程。


两大方法

内容分析法是一种对信息内容作客观系统的定量分析的专门方法,其目的是弄清或测验信息中本质性的事实和趋势。提示信息所含有的隐性情报内容,对事物发展做情报预测。


实证分析法是通过分析大量案例和相关数据后试图得出某些结论的一种常见研究方法。


分析比较

一旦确定了舆情研究中将被描述和分析的人或事物,舆情分析人员就可以对这些个人、群体、组织、社区、社会产品、社会现象或社会体制对象的舆情样本进行横向研究,做探索性、描述性或解释性分析,以政策建议为针对性目标做应用性的研究。另外,从时间维度考虑,对于舆情事件与主体的发展变化,可以针对不同人物、组织和群体进行纵向研究。区分舆情分析的不同类型,可以发现:中央部委形象、地方政府形象和企业形象舆情分析侧重发展中亟须解决的焦点问题,一般样本选择比较复杂,特别是网络言论,要运用多种抽样方法;社会热点事件舆情分析要注意题材广泛,但一般来说事件呈发展状态,样本选择需要注意时效性与全面性,需要考虑复杂因素进行综合把握;话题、现象类舆情分析的题材也很广泛,但要注意抽样与分析的尺度,结合对象发展趋势与特点,找准角度进行参数设置,有些网络舆情虽然时效性强,却有很大的研究价值。


图表制作

由于图表与列表能够清晰、直观、简洁、深刻、形象地表现舆情事件,因此其制作的科学规范化特别重要,图灵舆情监测服务平台近期添加的图表功能应证了这一点。首先,一般常见的分析方法有连续接近法、举例说明法、比较分析法和流程图法等,应该根据舆情事件本身的特征科学选择图表,如趋势图、比例饼图、百分比柱图、流程图等,表格的设计则要简洁实用,科学高效;其次,舆情分析图表在数据来源上要注意区分传统媒体、网络论坛、博客、问答网站等;第三,在媒体类型上注意区分媒体历史形态、媒体控制类型与地域类型;第四,分析舆情言论主体的身份特征,如媒体、官员、机构、意见领袖、网民等,进行社会化考察;最后,在对各种观点做具体而微的定性分析时,为研究结果做结论时应该注意材料之间的异同,避免为了结论的独立精确而牺牲材料的丰富性,应该兼顾赞扬、支持、中立、不关心、反对、谴责等不同态度,以防止观点遗漏导致分析结论偏颇,立体化、多层次、客观地反映我国转型期多元化社会的不同利益诉求,为决策和研究提供科学全面的参考。



Back Home