资料来源《青年记者》 2019年7月奖
人类社会进入了以网络社会为特征的社交网络时代,普罗大众成为新闻信息的发布者、传播者,社会的信息生产不再由专门的大众媒体机构垄断。这个过程深刻地改变了舆论的生态,促进了传统舆论的概念变化,研究方法也出现了创新。
与舆论的概念相结合
(一)从舆论到舆论:舆论概念和意义的演变。在所有舆论概念中,人们都比较认同孟小平相关舆论的定义,认为“舆论是公众关心的人物、事件、现象、问题和观念的信念、态度和意见的总和,具有一定的一致性、强度和持续性,并影响相关事态的发展”。这一概念是舆论主体(群众)、舆论的大象(关心的人物、事件、现象、问题、观念)和舆论的实质(信念、态度、意见)并举,强调舆论的一致性、持续性、强度等,是比较完善和严格的舆论概念。
互联网时代到来后,舆论这个概念逐渐弱化,被“舆论”取代。从舆论到舆论只有一个字的差异,舆论中的“正”是强调互联网时代舆论的变化速度,“正”者强调舆论波动。二是强调互联网时代舆论具有很大的感性特征。也就是说,其中夹杂着大量的感情和情绪。网络表达短文文本、口语化、舆论表达的最大变化是情感因素和感性因素的增加。因此,“情”的第二个含义是感情或感情。
因此,舆论是指在特定的社会空间和历史时期内,围绕中介性社会事项(人、事、价值、观念、制度、规范)的发生、发展和变化,作为舆论主体的民众对相关社会问题的集体情感、意志、态度和意见的总和。因为网络。
(b)舆论的类别。目前舆论的划分比较多样,根据内容可以分为政务舆论、经济舆论、社会舆论、民生舆论、文体舆论等。根据官涉主体,可以分为公权力舆论、企业舆论、事业单位舆论、个人舆论等。根据预警水平,可以分为红色舆论、橙色舆论、黄色舆论、绿色舆论等。根据发生范围,可以分为国际舆论、全国舆论、地方舆论、城市舆论、县级以下舆论等。根据发源地的不同,可以分为媒体选拔舆论、网民曝光舆论等。在日常舆论分析工作中,中国人民大学舆论研究所一般根据内容将民政分为社会民生、反腐倡廉、文化教育、警察法、社会安全、时事政治、灾害事故、企业财经、公共卫生等。只要存在内在的一致性,各种舆论划分范围就不会相交,而是会相互排斥和匮乏。
舆情软件系统平台:舆情大样本方向分析
目前,关于舆论分析的研究方法有很多重复,但概括起来主要有两个基本类别:样本方向分析,即利用大型舆论软件系统平台进行的分析。其次,通过小样本多元分析,即最新的研究方法,对本地样本进行数据收集和分析。
(一)舆情软件系统平台的基本原则。近年来,舆论监测手段层出不穷,但舆论监测的基本方法没有根本改变。也就是说,都通过网络爬虫程序实现了数据收集。基本原则如下:首先,建立需要监测的样本库(微博、微信公众号、论坛、贴吧、网站等)作为监测数据源。二是通过网络爬虫捕获数据,下载到本地服务器。第三,在本地服务器上进行重复数据消除和聚合;第四,对“清理”的数据的图像等智能直观的表达。舆论监控软件监控微博上的数据,向新浪申请有偿应用程序编程接口(API),才能访问和收集数据。(否则可以关闭网络爬虫。) (阿尔伯特爱因斯坦、Northern Exposure、网络爬虫、网络爬虫、网络爬虫、网络爬虫)舆论监测软件724小时对网络信息进行实时监控、收集、全面搜索和自动消除收集的信息,分析舆论主题演变、分析时间趋势。目前国内比较大的舆论监测软件服务企业有卓斯、正方舆论、古尼舆论、美野舆论等。
(二)舆情软件系统平台的发展趋势。近两年来出现了从开发舆论软件到构建云平台的新趋势。舆论监控主要是基于团体的监控软件进行的,将软件产品放置在客户的本地服务器上,为软件企业提供软件后升级和支持服务。这种服务模式的缺点是,不同的战争导致服务器分散,数据收集和分析零碎,无助于开展大规模数据处理和密集输出。随着大数据和云计算时代的到来,软件服务逐渐被可以通过网页或客户端远程访问的云数据平台所取代,可以通过特定权限自定义关键字,从而通过舆论数据收集和可视化实现数据结果的可视化。
(三)舆情软件系统平台的缺陷。第一,舆论监测的有效性和可靠性问题很难验证。目前舆论监测的最大问题是无法证明自己的有效性。每家都有每家的“黑匣子”,相对不透明。手段和算法的差异一定会导致监测结果的偏差。到底哪家更准确,定论困难,还有“盲人摸象”的危险。二是数据源的数量在一定程度上决定了舆论监测的准确性。目前,舆情监测不是基于整个网络的舆情信息收集,而是使用样本库作为数据检索源。实际上只是样本量大的本地数据,数据源不全面,缺少重要的信息监控,最终会影响数据监控结果。第三,在消除重组的过程中,计算机还不能代替人工。目前舆论监测软件最大的不同在于后台的数据处理能力。但是,目前高水平的信息处理(如鉴定、影响力评估等),计算机不能完全代替人工。第四,网络爬虫本身的弊端也在不断出现。主要是关系数据越来越重要,爬行动物爬上来的数据主要是碎片化的信息数据,关系数据经常被忽略。另外,越来越多的网站对爬虫程序持不太友好的态度。一旦识别出直接关闭的端口,越来越多的社交网站就不会打开微信、豆瓣等自己的数据收集端口,因此很难掌握这种新的社交网络。
舆论小样本多分析方法
在现实舆论分析研究中,完全依靠舆论软件平台是不可能的。一般由研究者做。
根据研究对象的情况,进行必要的抽样,利用python、R语言进行数据抓取,借助各种方法进行舆情分析。概括起来,目前主要有以下三种小样本分析方法。(一)基于关系的分析:社会网络分析(SNA)。随着社交平台崛起,“关系”逐步在虚拟网络空间中成为一种基础性资源和底层构架,“没有一个自我是孤零零的岛屿,每个人都存在于关系网络之中,而这个网络比过去任何时候都来得更复杂、更流动”②。舆论信息基于社会关系网而传导,而社会网络分析方法恰恰是描述社会关系网并将之直观化的重要工具,近几年,社会网络分析已成为舆论分析的重要工具和手段。
另外,传统舆论调查方法的局限性进一步显性化,正如弗里曼(Freeman)指出的,“在过去的30年中,经验社会研究主要由抽样调查控制着。但是,如人们常常指出的那样,调查是一种社会学的绞肉机,它把个体从其所在的社会情境中抽离出来,并确保研究对象之间不存在联系”③。舆论抽样调查有一个基本假设前提——人的“属性数据”会决定人的言论和行为,但在关系网络崛起的今天,人的言论与行为越来越受到其所在的社会关系、社会阶层等“关系数据”的影响。社会网络分析是测量与调查社会系统中各部分(点,node)的特征与相互之间的关系(连接,tie),将其用网络的形式表示出来,然后分析其关系的模式与特征的一套理论、方法和技术。描述和测量行动者之间的关系或分析通过这些关系流动的各种有形或无形的东西如信息、资源等的方法,主要有图论、社会计量学和代数方法。图论适用于描述小型传播群体的核心关系和团聚力等特征;社会计量学适用于研究结构等价性和“块模型”关系;代数方法适用于对角色和位置关系的分析。在研究视角上可以大致分为两种:关系取向和位置取向。关系取向主要研究的是社会行动者的社会联结——密度、中介性、强度、对称性、规模等;位置取向主要关注的是社会行动者之间社会关系的模式化,不同行为个体在结构地位上是否一致,强调用“结构等效”来理解人类行为。社会网络分析目前主要使用的是Gephi、UCInet、Pajek、NETminer、MultiNet、NodeXL等软件,其中用得最多的是Gephi、UCInet等。
(二)基于文本的分析:词频与语义网分析。舆论是由各类词语构成的信息文本,文本内词的多寡、词与词之间的联系可以凸显信息文本的价值观、语意结构和社会诉求等,因此近年来很多研究者将词频分析、词与词之间的关系网分析等方法引入舆情分析之中。
1.词频分析法。分词是文本挖掘的基础,对于输入的一段文本成功地进行中文分词,可以达到计算机自动识别语句含义的效果。词频分析是对舆情文本中重要词汇出现的次数进行统计与分析,是舆情文本语义挖掘的重要手段,也是文献计量学中传统的和具有代表性的一种内容分析方法。其基本原理是通过词出现频次的变化来确定舆情关注的热点及其变化趋势。至少在认知层面上,某关键词被提及的次数越多表示表达者的诉求越集中与迫切。词频分析可以实现微博与微博聊天分析、新闻文本分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本分析。
词频分析的基本步骤是首先对文本进行分词,分词的基本前提是必须有一个相对比较完备的“字典”,“字典”的词容量越大,分词的精准度也就越高;分词后计算关键词的数量,即为词频。词频分析的工具目前越来越多,尤其是一些线上的工具,比较出名的有图悦、纽扣词云、腾讯文智、新榜词云词频分析、Excel词频分析工具、易词云等,国外比较出名的在线工具是Tagxedo、WordArt、Wordle等。近年来,随着各种编程语言的出现,利用Python语言进行词频计算的研究越来越多,一般使用Python中jieba包的中文分词工具(https://pypi.org/project/jieba/)对对象文本进行分词与词频计算。
2.社会语义网。社会语义网只是一种说法,主要是将各个高频词之间通过社会网络分析工具连接起来,形成一个高频词关系网,进而推测话语文本的主要表达逻辑及关注热点。具体来说有以下几种不同的分析方法与手段。
一是共词分析,共词分析的基本原理是通过对一组词项在一篇文本中共同出现的次数统计,并以此对这些词进行聚类,反映出这些词项之间的关联强弱,进而分析这些词项所反映文本的主题结构。一般来说,一个词项对在同一篇文本中出现的次数越多,则表明该词项对的关系越紧密;一个词项对在大量文档中出现次数越多,则说明该词项对与文本之间的关联性越强,共词分析采用一套结构图可以有效地展示词项之间的关联。一般来说,点的大小代表词频,节点越大词频越高,连线的粗细代表两词之间共现的次数,共现次数越多连线越粗。
二是聚类分析。基本思想是将变量按相似程度归于同一群组,“物以类聚”,是共词分析中比较常用的统计方法。根据一些能够测量多个变量指标之间相似程度的统计量,以此为划分依据,可以将各种不同相似度的变量聚合成不同的类别,再将它们的亲疏关系用谱系图的方式表现出来。在聚合的不同类别中,同一类别之内的变量彼此的相似度愈高愈好,而不同类别之间变量彼此的相似度愈低愈好。高频关键词聚类分析是对文本中高频关键词亲疏关系的分析,体现出高频关键词相似性和相异性的分析图谱,通过图谱可以进一步挖掘作者意图和社会语义等深层次信息。
三是词的多维尺度分析。主要通过测量对象之间的距离来展现数据结构,运用低维空间中对象所处的特定位置,通过观察这些对象之间的平面距离,可以了解它们之间的相似性。通过多维尺度分析,可以帮助研究者挖掘数据中的深层结构,通过软件绘制的平面图,能够清晰地揭示出数据中的隐藏联系。在多维尺度分析的结果中,被分析的对象呈现点状分布的特点,图中点与点之间的距离代表它们之间的相似程度,同时将相似度高的和关联性高的对象聚集成一个类别,处在中间位置的对象,代表该对象的核心地位。
(三)基于情绪的分析:情感计算。情感计算是主体对某一客体主观存在的内心喜恶倾向的计算方法。主要由情感倾向方向和情感倾向度两个方面来衡量。情感倾向方向也被称为情感极性,可以理解为用户对某客体表达观点所持的态度是支持、反对还是中立,即通常所指的正面情感、负面情感、中性情感;情感倾向度是指主体对客体表达情感时的强弱程度,不同的情感程度往往通过不同的情感词或情感语气等来体现。为了区分情感程度的差别,一般采取给每个情感词赋予不同的权值来体现。
目前,情感计算方法主要分为两类:一种是基于情感词典的方法;一种是基于机器学习的方法,如基于大规模语料库的机器学习。前者需要用到标注好的情感词典,英文的词典有很多,中文主要有知网整理的情感词典Hownet和台湾大学整理发布的NTUSD两个情感词典,还有哈尔滨工业大学信息检索研究室开源的《同义词词林》可以用于情感词典的扩充。基于机器学习的方法则需要大量的人工标注的语料作为训练集,通过提取文本特征,构建分类器来实现情感的分类。文本情感分析的分析粒度可以是词语、句子,也可以是段落或篇章。
舆情分析方法的发展趋势
(一)“文本 关系 情绪”的多元耦合分析。社交平台文本通常采用短文本形式,并且用户发文具有随意性,其语言的规范性非常低,不论用词还是语法常常有悖于标准的语言规范,由此带来文本表示的高维、稀疏、噪音等特性。这使得传统的文本分析方法难以直接应用,对这类社会化网络短文本如何进行有效建模和分析是未来舆情监测的难点与重要方向。另外,社交平台用户通过互相关注建立起来的网络关系是一种典型的社会网络,该社会网络既是用户社会关系与兴趣偏好的体现,又是舆情信息传播的通道。如何将社交平台的文本分析与用户的社会关系分析有机融合,进行语义分析和网络结构分析,是未来舆情分析不能回避的问题。
(二)“地理位置 社会关系网”的综合研判。地理位置数据的特点是多源、异构、高维、动态,这些特点使得地理位置大数据模式多变且关联复杂,使得其各种信息(特别是物理空间信息与社会空间信息)的关联映射成为必须。这方面的相关工作主要包括实体提取、主题建模、基于位置信息的搜索等。经过地理位置大数据信息的关联映射和融合阶段之后,需要对其有效表示才能进行进一步高效的群智认知及实际应用分析。张量(Tensor)作为一种有效的多源异构大数据一体化的表示方法,也得到了广泛关注。鉴于深度学习和张量在大数据表示中的优异表现,近年来陆续提出了一些基于张量的深度学习方法,如波尔斯曼机、张量递归神经网络、深度张量神经网络等。
(三)“动态化 实时化”结构演进分析。社会关系网络结构是舆情信息传播的载体,但由于社会关系网中的个体不断进出,社会关系网络具有高度的动态演化性,直接影响和制约着舆情信息传播过程。大量研究表明社会关系网络结构的动态演化性是由结构的微观变化决定的。对群体行为本质规律的理解离不开对社会关系网络结构动态演化微观机理的深入认识。对微观结构演化认识的匮乏割裂了社会关系网络结构和信息传播之间的动态关联,无法更好地认识群体行为的本质,做到精准化舆情预警。因此,建立社会关系结构的微观动力学模型,进而对其结构进行动态把握和演化,是未来舆情预警研究的关键。
注释:
①孟小平:《揭示公共关系的奥秘——舆论学》[M],中国新闻出版社,1989年版,第8-9页
②Lyotard,J.The Postmodern Condition, University of Minnesota Press,1984,p131
③刘军:《社会网络分析导论》[M],社科文献出版社,2004年版,第34-35页
(作者为中国人民大学新闻学院副教授、中国人民大学新闻与社会发展研究中心副主任)