企业网络舆情成因分析(企业网络舆情成因分析报告)

六八 105 0

企业网络舆情成因分析(企业网络舆情成因分析报告) 第1张

原标题:网络舆情分析一、网络舆情定义狭义上的舆情是指作为主体的民众对作为客体的国家管理者产生和持有的社会政治态度简而言之,舆情就是指民众的社会政治态度广义上的舆情通俗地讲就是社情民意,是指社会各阶层民众对社会存在和发展所持有的情绪、态度、看法、意见和行为倾向。

狭义上的网络舆情是指在网络上传播、作为主体的民众对作为客体的国家管理者所持有的社会政治态度广义上的网络舆情是指反映在网络上,民众对社会事件、社会现象、社会主体所持有的情绪、意见、态度,以及民众所具有的对社会事件、社会现象、社会主体有直接或间接影响的行为倾向。

二、网络舆情分析概述舆情分析也称倾向性分析(Orientation Analysis)、观点分析(Opinion Analysis)或者统计调查,是借助于技术手段对大众就某一个(些)事物或者某一个(些)事务的看法进行了解。

传统的舆情分析,通常采用采样调查方式,也称为民意调查或者市场调查,被广泛地应用于选举预测、产品市场预研、市场评估等领域,更有专业的市场调查公司来提供这样的调查服务采样调查的渠道包括电话采访、面对面采访、邮寄问答表格等。

但这些做法都存在人力消耗大、采样数量偏少的问题,还有答卷及答题的可选项设计可能存在偏差,被调查者也由于各种原则隐匿个人真实想法等问题所以,传统舆情分析的研究点在于如何设计问卷、如何确定样本量和样本选择方法等。

随着互联网各类应用中对用户生成内容功能的支持,尤其是互联网社交网络、博客、微博等信息发布平台的兴盛,个人表达自己观点的渠道日益畅通,手段日益便捷更可贵的是,信息的流动不再是单方向的报纸的信息流动是从报纸到读者,而在互联网应用中,可以方便地通过“评论”、“回复”等技术手段,使信息流动变成双向的,甚至评论和回复成为信息中的有机组成部分,进一步地丰富原有信息的内容。

例如,在淘宝应用中,人们通常会将评论的内容作为对商品描述的一个补充因此,从互联网上主动地收集信息,用数据挖掘方法或者自然语言处理的方法来分析信息中用户的观点,成为当前舆情分析的一种非常重要和直接的手段,也就是“网络舆情分析”。

1、网络舆情分析简介网络舆情分析用数据说话,跟踪网络舆情的起源和演变,最终是为了给出建议性结果,它渐渐成为政府、企业乃至个人都需要的舆情应对基础网络舆情分析有2个工作重点:一是还原舆情发展过程,找到舆情产生的根源;二是预测,分析出网络舆情的未来走向,再根据预测结果提出应对方案。

网络舆情分析的主体是网络舆情分析师,对此,各界有多层次的解读网络舆情分析面临着与传统舆情分析完全不同的问题和研究难点传统舆情的样本存在内容有效性较高但样本数量少的问题;在网络舆情分析中,则存在信息数量巨大但信息有效性差的问题。

信息有效性差的原因有很多,首先是难以确定信息来源,其次信息中的观点大都是附带的,很多并非有意为之但正因为如此,网络舆情分析具备传统舆情分析不可替代的优势:一是无答卷设计问题,信息中反映的观点较为真实;二是数据多,成本低廉,采样广泛,很大程度上弥补了信息来源不确定的问题,宏观上能更好地反映真实舆情。

网络舆情分析还有一个特别的优势在于能长时间重复地进行舆情分析,对舆情趋势及其变化的把握更为及时由于网络舆情分析具备传统舆情分析所不具备的一些优势,因此,网络舆情系统理论上可以有更全面和细致的分析成果但由于网络舆情系统的分析是基于在互联网中收集到的文本等信息,而同时自然语言处理技术在现阶段存在很大的局限性,即机器并不能真正做到理解人的语言,网络舆情系统在现阶段还不能做到尽善尽美,因此,网络舆情系统的发展空间非常大。

网络舆情分析系统如图1所示,可以大体分为4个层次图1简要列举了每一层可能具备的分析模块(更多的分析模块没有在图中列出)信息采集层负责收集互联网上的信息(以文本为主,多媒体信息为辅),并将它们整理存储下来。

趋势分析层实现对信息的进一步整理,识别话题(连续时间框架下有关某一主题的相关信息)的延续和传播,将信息组织为话题根据信息传播的广度、发展时间的长短等数据判断热点,实现对热点的识别,并持续地进行跟踪、观察和统计。

大数据分析层从大数据处理、互联网纵深角度,将多源数据进行融合,将零散的信息整合起来,从而能够得到一个更为全面的视图语义分析层借助自然语言处理技术,对话题信息进行进一步的处理,得出信息发布者对话题的倾向性看法,抽取出信息发布者的观点,最终达成传统舆情分析所能够达到的分析深度。

图1 网络舆情系统基本模块2、网络舆情分析市场需求经过多年发展,网络舆情服务的市场已日趋成熟,并发展出多层次的业务需求由于近年来我国网络舆情危机事件多爆发在城管、维稳、拆迁、上访等领域,政府部门往往是危机事件的涉事主体,所以,政法舆情发展迅速。

目前,敏感领域的政府部门多数都设置了网络舆情监测部门,或者设置专人进行网络舆情监测从服务内容来看,主要有以下几类:(1)适时、动态的舆情预警服务,这类服务一般为全天候24 h不间断的舆情预警,一旦发现负面舆情,及时上报客户;

(2)基于网络舆情监测系统的智能分析,通过向客户提供智能分析系统满足舆情服务;(3)针对日常性负面舆情或某一特定事件进行监测与趋势研判,主要体现在各类舆情报告中,如日报、周报、月报、专报;(4)舆情修复,为客户策划访谈节目、设置网络专题,有针对性地解读舆情事件,引导舆论发展方向,降低舆情事件风险;

(5)为客户提供网络舆情管理师、分析师等专业培训,扩充专业舆情人才队伍;(6)建立舆情研判指标体系,发布舆情榜单、报告,如网络舆论形象排行榜、政务微博排行榜、政务微博报告等3、网络舆情分析特征(1)跨学科研究。

在中国知网,以“网络舆情分析”为关键词进行检索,多篇文献来自情报学、新闻学、社会学、政治学领域其中,情报学主要针对舆情抓取阶段,通过系统建模的方法,致力于早期发现网络舆情,包括层次分析法、网页挖掘、聚类、熵理论、文本挖掘等;新闻学主要涉及舆情传播阶段,探讨新媒体与传统媒体的发展以及传播影响力、媒体关系以及舆论引导等;社会学和政治学则多致力于寻求解决方案,对舆情事件进行深度剖析,观察个体事件乃至大形势对参政议政以及社会阶层变动的影响。

这一跨学科特征也在“网络舆情分析师”招聘信息中得以充分体现,综合多个招聘网站,专业要求多为具有政治学、社会学、经济学、统计学、新闻传播学、公共管理学等多学科知识与跨学科视野(2)技术与文字的关系从网络舆情分析发展历史来看,技术应用经历了2个阶段:人工搜索阶段和引入舆情监测软件阶段。

早期网络舆情分析服务于特定对象(多为政府特殊部门或高层),搜索引擎数据更多被看作选题是否热门的一个重要指标,在搜索之外,则依赖于分析师自身业务素养,尤其对话题重要性、敏感性的判断,以及对重要舆论观点的抓取、提炼和升华,综合研判出重大事件的舆论动向。

近年来,随着技术的发展,涌现出大量舆情监测软件,更有不少是基于大数据和云计算技术,给网络舆情分析带来了有力的工具据统计,中国网民每天发布和转发微博信息达2.5亿条,每天发送微信等即时通信工具信息超过200亿条。

根据对新浪微博和腾讯微信等7家网站所发帖文的统计,在网民关注的20大热点事件中,前12位的帖文都超过了200万条,其中,排第一位的帖文数量超过4 500万条如此千万数量级的网络舆情事件,其分析研判是无法通过纯人工搜索能够实现的。

从功能上看,一些舆情监测软件可实现危机预警和基础研判,如输入关键词和监测时间,即可得到信息源类别分析、舆论倾向性分析、传播路径分析、高频热词分析、人物关系图谱等,甚至无需再经过人工分析研判即可形成简易舆情报告。

然而,对技术的过度应用也会引发担忧网络舆情管理出现技术主义倾向,其赋予舆情监测技术压倒性的优先地位,由此产生技术依赖,将舆情管理的目标抽象为实证主义或实用主义的目的——平息舆论热点,依靠舆情监测人员等技术人员实现。

技术主义倾向带来的问题包括解决重大问题无能为力、市场权力对政治权威的侵蚀、市场因迎合政治需要而损害民众利益、“为民意”成为科学决策的嗓音、检测技术本身不完善导致的缺陷和价值目标单一引发的身份危机简言之,即使通过舆情监测分析系统导出的结果有炫目的视觉效果、分析结论一目了然,但这类通过技术层面可实现的网络舆情分析仍停留在较低的层次,更高层次的舆情处置与引导建议、智库服务等,仍有赖于分析师的脑力付出。

三、网络舆情分析关键技术1、信息采集技术概要信息采集技术,顾名思义是在互联网可公开访问的信息中下载和收集的技术互联网上的信息采集主要由网络爬虫来实现网络爬虫是一种按照一定的规则、自动抓取(即下载)互联网信息的程序或者脚本。

爬虫存在的意义在于互联网上的信息发布是分散的和独立的,但信息间又是相互连接的(超链接)爬虫就在超链接所建立的网上穿梭,这是爬虫又被称为蜘蛛的原因由于互联网资源规模巨大,而下载需要时间,所以,网络爬虫都采用多进程或者多线程,甚至是分布式方式同时下载多个网络资源(文本、图片、音频或视频等),也就是说这是一项群体作业,爬虫们(下载器)集体完成抓取的任务(这也是网络爬虫又被称为蚂蚁的原因)。

如图2所示,爬虫的工作从一个初始的下载队列开始,随着下载发现更多的URL(如网页上的链接可供发现更多的 URL)不断被补充到下载队列中,由调度中心来决定下载哪些URL(称为选择策略),并将下载任务分配给各个下载器。

图2 网络爬虫工作针对不同的服务对象,网络爬虫的行为有很大的不同,它们的分工比工蚁和兵蚁的分工更为细致和多样服务于搜索引擎等搜索类应用的网络爬虫,它们的信息抓取规则是尽可能地覆盖更多的互联网网站,单一网站内的搜索深度要求不高。

但在针对性进行信息收集的应用中,如舆情分析系统,则要求它的网络爬虫具备高搜索深度和一定的主题选择能力具有高搜索深度的爬虫被称为路径追溯爬虫,该类爬虫尽可能深入地抓取给定网站的全部资源具有主题选择能力的爬虫被称为主题爬虫,该类爬虫会判断抓取的资源是否属于用户指定的主题,并持续对有关给定主题的网页进行搜索和抓取。

举例而言,某公司C为了了解该公司的某类产品P的市场反映而进行的网络舆情分析,可以采用主题爬虫来进行网络内容抓取用户定义主题可以采用关键词方式,例如,可采用产品P的名称,或者产品P的一些属性(型号、部件等)来定义主题。

用户还可以采用介绍产品P的一段文字或者一篇文章来定义主题定义主题时要做到准确,以方便爬虫对抓取内容做出正确的判断主题爬虫同样需要一个初始的下载队列来启动抓取任务,一般来讲,可以在搜索引擎搜索用户给定的关键词,用搜索引擎返回的一组结果作为初始下载队列。

如果公司C了解在互联网上有某些网站具备特别多的同类商品评论,那么网络舆情分析系统也可以采用路径追溯爬虫对这些网站进行深度抓取通常舆情分析系统采用的爬虫是以上介绍的两类爬虫的组合,并做一定的定制改动首先,随着网络技术的复杂化,网络爬虫也面临着越来越多的新问题,如支持Frame的网页的处理、登录页面的处理等。

其次,智能手持设备及相应应用(如微信手机版)的发展,使互联网资源的下载必须从单纯模拟浏览器浏览行为的爬虫,发展为能够模拟操作APP的爬虫然后,对于个性化定制内容的网站(微博和微信都属于此类网站,每一个用户登录后所得到的信息内容均不相同),如何持续保持登录状态、如何自动修改定制(如加关注)以得到更多信息都是在此类网站抓取信息需要处理的问题。

设计一款慢速的爬虫是一件非常简单的事情,但设计和实现一个下载量大、速度快又稳定的高性能爬虫,那就面临着全方面的挑战2、信息采集技术的特点目的:及时、准确、全面地采集境内外互联网信息范围:境内信源包括新闻网站(PC端和移动客户端)、论坛、博客、微博、微信公众号;境外采集范围主要包括境外主流媒体,Twitter、Facebook等境外自媒体,以及非政府组织、智库等特殊机构网站,如表1所示。

表1 某网络信息采集系统信息监测范围工具:(1)人工检索,借助于商业搜索引擎这样的开放性工具,实时进行监测,常用的有百度搜索(新闻、网页等)、新浪/腾讯微博搜索(微博)、搜狗搜索引擎(微信),舆情分析师若能通过日常积累建立针对性的新闻库和意见领袖库,将极大优化人工检索结果;

(2)使用专业网络舆情监测系统,可实现跨屏、跨库、跨区域、跨媒介的全方位信息收集二者进行比较发现,后者的优势在于自动抓取、定向抓取、全网抓取、高频率更新(可达分钟级)、海量数据处理,并可实现一定程度的后台过滤,前者的优势则在于分析研判融于监测过程之中,根据情况知悉语言变化并及时截图留存敏感信息,大大减少遗漏或损失重要信息的情况。

目前,在实际使用中,很多专业舆情服务机构均采取二者交替使用的方式,甚至有个别机构,仅仅是借助人工检索即可写出高质量的舆情研判报告,并获得一些政府机构的点名表扬3、其他信息获取平台简介(1)网络调查/投票

网络调查,又称在线调查,是指通过互联网及其调查系统把传统的调查、分析方法在线化、智能化网络舆情事件发生后,媒体、论坛、机构频繁使用此种方式,选题多为主要观点、情感倾向、建议方案等,具有一定随机性,此类线索主要靠人工发现,如新闻客户端互动栏目、微博微信分享等,也有媒体根据调查结果发布新闻稿件。

在一些特定重大事件中,也有相对常规的网络调查,如每年全国两会前新华网、人民网均会进行两会调查(2)媒体、社交平台热门话题排行根据后台信息提供热门新闻、热门话题排行榜,指标有点击量、评论数、分享数、参与数等,排序时间段一般为1 h、24 h、一周等。

通过热门排行入口可大大缩短对特定事件聚合信息、评论的搜集过程(3)后台信息公开渠道无法获得,可根据需要向相关单位提出明确数据需求,一般适用于特定话题、特定领域、特定群体4、舆情内容融合分析(1)舆论环境背景分析。

网络舆情事件均发生在一定的背景下,舆情分析的首要工作即了解其舆论环境背景一般舆情报告中,舆论环境背景分析不独立成章,而是融合在多个版块,舆论环境背景分析的广度和深度,是决定分析研判水平高低的重要因素分析内容有:

①在同类或相近网络舆情事件中,是否有与此次事件类似的情况,对应的舆情反应和舆情处置,并从根源解读网民心理和行为;②了解新媒体时代网络信息传播规律,知悉新闻传播中的乱象、政府对媒体的监管以及网民对标志性案例的舆论态度和趋势变化;

③了解政府方面涉及本次舆情事件的一些重大政策及反馈效果,以及当前民众对改善不足之处的期盼(2)舆情走势分析分析网络舆情事件的舆论热度走势,首先要理解网络舆情的生成机制①现实生活中本身存在一些舆情风险点,经过网民爆料或媒体报道引发话题出现在互联网空间,产生网络舆情苗头。

②网民围观热议,大V等意见领袖转发,传统媒体跟踪报道,形成舆情压力,舆情热点爆发③传统媒体、新媒体议题互动,继续推进舆情事件演化发展,除事件报道外,出现大量评论文章,议题广度和深度提升④当事方对事件进行回应,若处置失当可能发生次生灾害,造成新的舆情热点出现,舆情发展形成次高峰,若处置得当,则舆情热度消退。

舆情处置关键在于及时预警,在话题出现的初期加强实时监测,分析舆情走势和关注热点,最终目的是处置得当,化解危机,如图3所示图3 网络舆情研判要点(3)传播分析①传播者分析研究传播者的身份特征对预判下一步舆情走势和制定舆论引导策略具有重要的意义。

其一,绝大多数网络舆情事件中,传播者的身份与其传播影响力成正相关以下比喻尤为形象:如果你的微博听众超过100人,你就像一本内刊;如果超过1 000个,那你就是布告栏;超过10 000,你就像是一本正规的杂志;超过10万,就是一本都市报;超过100万,那就是全国性报纸;超过1 000万,那你就是电视台;超过1亿,那你就是CCTV;超过10亿,那就是春晚了。

作为稍微熟悉媒体格局的人,也能感知央视报道与某省市的某报纸报道分量的不同,那么,对于网站编辑来说,首发、转发媒体也成为其决定是否转发,以及将之放置于什么位置(首页头条、聚焦区)的重要参考因素分析的重点在于发现具有影响力的传播者:社交媒体方面,主要是跟踪大V、专业领域知名博主以及媒体账号的传播情况;媒体方面,关注报道媒体层级、类别。

②传播内容分析根据发布者舆论话语权的不同,事件信息很可能无法得到完整展现,某些关键事实或许被选择性忽略,某些内容可能在传播中走样,被夸大、歪曲,甚至异化成“谣言”对传播内容进行分析,旨在还原事实,并从中寻找舆情处置建议。

分析重点:第一,根据时间轴对事件进行最大程度还原,包括事件重要节点、发布时间、发布主体、发布内容、各方反馈;第二,传播过程中事实内容是否存在走样的情况③传播渠道分析分析重要舆情信息的传播渠道,方能掌握渠道间衔接的关键节点,而通过评判不同渠道的传播效果,有助于为优化传播内容以及后期开展舆情处置提供解决方案。

分析的重点在于还原舆情事件发展的传播路径,例如,从论坛、微博、朋友圈讨论到网络媒体传播,再到传统媒体跟进;从传统媒体报道到网络媒体传播,再到微博讨论;不同平台上传播信息的差异等(4)情感倾向性分析媒体和网民对网络舆情事件的情感倾向往往是涉事单位关注的核心内容。

在早期网络舆情事件中,一般为爱憎分明,对责任方质疑、抨击和对受害方同情、怜悯但近年来,随着事件本身和传播环境的愈发复杂、舆论话语权的不断分散,尤其是网民理性与感性的角力,“峰回路转”或“强势逆袭”的情况也不再少见。

分析方法:①对网民评论进行抽样分析,通过人工对文本进行归类,如“支持”“反对”“中立”;②依靠网络舆情监测系统的初步分析结果,目前市面上绝大多数舆情监测系统均能实现对舆论态度倾向性的判断,其原理是基于情感词库,利用系统进行自动语义分析,并直接绘制出情绪分析饼图;

③一些媒体、机构就网络舆情事件进行的网络调查,除直接的情绪选项外,一些观点选项也可作为情绪调查参考涉及服务的单位,其情感倾向分析可进一步深挖细挖,解读舆论表现背后深层次的心理预期,为最终基于长远考虑的解决方案提供思路。

(5)高频热词/舆论观点分析借助于网络舆情监测系统,可以获取一个网络舆情事件的高频热词,简言之就是被谈及最多的词在新华网发布的《中国县域网络形象报告白皮书》中,运用武汉大学ROST虚拟学习团队研发的ROST全网信息抓取工具,对报告样本的文本合并进行名词、动词、形容词三类词汇的总词频统计分析,以考察政府工作报告中的关注重点、趋势及政府管理者的工作期待等。

舆论观点分析,一方面通过舆情监测软件,可以获得根据网络转载量、网络点击量等数据排序的主要报道和主要评论;一方面通过网络舆情分析师对类似观点、评论进行归类整合四、话题跟踪与热点识别网络舆情分析区别于传统舆情分析的一个特点在于能够随时保持对舆情的收集和分析,因此,可以对舆情发展的整个过程进行分析。

对话题的跟踪以及热点的识别是舆情分析中一个重要组成部分由于互联网的信息发布渠道存在很强的交互能力,尤其是支持社交网络的应用,如国内的微博、微信,国际上的Facebook和Youtube等,通过转发和评论,使一个话题通过不断地传播得以加强,而且还能够产生更多的内容,使话题向更广更深的方向发展。

话题的影响不再局限于发起者本身,而在于整个互动过程中的每一个参与者话题跟踪技术种类很多,不同的实施环境,必须使用不同的技术例如博客环境下进行话题跟踪,需要对博客的内容进行文本分类处理,将同一类型的文本作为一个话题处理。

这是因为博客发表的信息长度较长,内容丰富,而且博客之间较少相互链接引用,所以无法从链接上获取太多相关内容的信息,但信息自身所含信息量大,信息的数量相对较少,就足以实现准确度相对较高的文本分类而在微博环境下进行话题跟踪,微博文本的字数限制在140字之内,大量的微博仅有寥寥数个文字、标点或表情符号,微博本身文本中不能抽取足够的特征进行文本分类的运算,但微博之间存在转发、回复等关联关系,通过追溯微博间的关联,可以得到微博传播的路径,以此进行话题的跟踪。

采用文本分类进行话题的跟踪,需要指定话题的代表性文本,例如,把崔永元作为一个话题,那么需要收集一些崔永元的介绍或新闻等文本这些文本包含有关崔永元的文字特征(相关词汇),如地理位置、文化氛围等这些文本称为样本集,根据样本集中文本特征(对于中文文本而言,可以是文本中出现的字、词等)出现情况构建分类器。

分类器将采集下来的文本加上相应话题的标签,加以保存,过程如图4所示图4 采用文本分类的话题跟踪尽管微博类型的网站本身提供话题功能,即用2个“#”字符括起来的内容,如#梭梭大战荒漠#,可以让人们就一个内容展开各自的叙述,少数可以形成主题一致的持续互动。

但在实际传播中,由于使用这个功能的人并不多,所以单纯采用这个功能无法对话题进行全面的跟踪更为全面的算法是通过信息关联关系进行话题的跟踪算法,例如,通过识别转发评论网络(可称之为转发路径)进行话题跟踪尽管可以直接获得某一个微博的转发量以及转发人,但对转发路径的分析和对舆情传播的分析更为深入和准确,且对转发过程中附加的信息也可以采集完整。

以新浪微博为例,某一个微博在转发时,源代码中带有原文的ID,这样很容易识别到这条微博的转发(包括该微博的评论和回复)当转发的微博被再次转发时,只有原文的信息被记录,而转发的路径作为转发的正文被记录下来,例如,微博正文是“//@范冰冰:转发微博 //@冯小刚:转发微博”,说明。

冯小刚是第一个转发者,范冰冰转发了冯小刚的转发微博,范冰冰的转发再一次被无名氏转发这里存在的问题是当转发路径太长时被截断,而且正文中的转发路径是可编辑的(甚至是伪造的),所以,强壮的算法并不但根据一个转发来确定转发路径,而是需要多重确认。

在舆情采集范围较广的系统中,由于数据量巨大,在实施话题跟踪前,可能首先要进行的是热点的识别,因为单就微博一个网站,一天内发起的话题数量也是惊人的,但只有少数的话题能够引起越来越多人的关注被识别出的热点就可以作为话题保存进话题库来跟踪。

实现热点识别有文本聚类和频繁集挖掘等多种方法无论哪一种方法,由于舆情系统处理的信息量巨大,都必须实现增量式的算法,也就是可以处理新增的数据,而不需要重新搭建已有数据所建立的模型或者数据结构,新增的数据将直接被增补到数据模型中。

现有的大多数算法都是基于文本聚类,但聚类算法本身速度慢,难以实现增量算法,且难以处理带时间标签的数据,即实时数据即使是对最新时段的信息进行聚类,也难以确定时段的长度,如果时段太长,那么数据太多,热点识别间隔长;如果时段太短,信息的传播需要时间,则容易漏掉很多发展较为缓慢的热点。

频繁集挖掘中有一种挖掘模式称为涌现集,涌现集是频繁集(即发生频率高于一定的阈值)的子集,它需要新时段的发生频率高于旧时段的发生频率可见,涌现集的定义非常符合热点的定义这种算法效率高、速度快、较适应在数据量较大的环境。

返回搜狐,查看更多责任编辑:

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~

先修复后付款18703823046