下面是小编为大家整理的基于大数据企业风险预警系统(全文完整),供大家参考。
基于大数据的企业风险预警系统 发布时间:2014-01-07
作者:启明星辰 前言
web2.0 时代的到来极大地改变了企业传统的经营模式、经营环境和经营方式,随着网络使用频率的大幅提升和用户参与行为的增加,来自网络的企业公关风险正在迅速攀升。网络的易用性和广泛传播性使得信息的传播和扩散达到了前所未有的快捷。
用户的高参与度使得信息的真实性和公正性变得难以掌控,因此网络正在升级成为企业的危机公关主战场。
与传统危机相比,网络公关危机具有更强的突发性、更难以彻底消除且扩散速度更快。因而尽早的发现危机或危机的苗头对有效的保护企业形象起到了重要作用。
另一方面,互联网的传播的广泛性和网状结构使得探寻事件根源变得更加困难,给事件的善后工作和对相关时间的预防带来了严重干扰。
原理
互联网媒体环境下的突发事件和危机的日常预警成本远低于危机爆发后的处理挽救成本。
大数据为企业危机应对提供了低成本、高效率、最快速、最便捷的信息基础,应用好大数据能够在事件形成前或刚刚出现时发现危机端倪,在事件大规模爆发前采取行动,争取更多的应对危机的时间和机会。
信息的分布式采集和并行处理能够快速的获取数据输出结果,实现及时发出警报的目的。原始数据的积累是信息溯源的重要基础,网络信息在某些情况下会被删除,从而中断了传播路径的回溯,原始数据的保存有助于解决这种问题。为了确保信息回溯时数据的可用性,需要保存大量数据,随着时间的推移部分数据可被逐渐降解,但仍会有数量庞大的数据需要保存,此时传统的数据存储和检索手段将难以满足应用需求,此处必须要引入分布式的大数据存储和检索方法。
为了确保已有数据的存储安全,需要对数据进行容灾备份,以确保部分设备出现故障时,分析系统仍旧正常运行。
数据来源从根本上决定了预警分析的效果,全网数据爬取无论从可行性角度或投入产出比角度均不可行。采用从网页元搜索引擎获取设定检索词返回结果的方式可保障信息来源的广泛性,同时获取结果中的有效信息率也很高。但是,网页元搜索引擎获取的数据受到检索词的制约,所得信息不够完整,因此需要选择一些重要网站,获取这些网站的全部数据或一定时间段内的全部数据,作为对元搜索引擎数据的补充。以上两种数据为网页数据来源。目前社交网络有着很高的浏览量和参与度,是事件传播和发酵的重要场所,社交网络不同于传统的网络,有其特有的传播和关联方式,在数据获取时需要使用社交网络自身提供的搜索引擎以获得更准确的返回结果;由于社交网络的单条发言文字较少,存在关联的信息不会全部包含在检索结果中,因此在获得检索结果后,要根据每个结果中的原始信息获取其前后的关联信息及其所包含的用户信息。
危机事件的表现实质是负面信息,负面信息中包含大量的负面情感词,即使一些文章没有直接使用负面情感词,然而在其回复和评论中必然会出现想用的情感信息。在社交网络中,数据的主要生产者是用户,由于用户表达习惯的影响,可能会出现无意义的负面情感倾向,因此在社交网络中出现负面信息时,应对部分用户的表达习惯进行判定以确定是否为用户表达习惯产生的干扰信息。
危机的出现一部分是由突发事件造成的,具有一定的随机性;另一部分则是逐步积累的结果,对于逐步形成的危机,若能在其显现端倪而尚未爆发时予以应对,则非常有利于维护企业的良好形象。危机在逐步形成的过程中会显露出些许特征,如果发现相应数据中负面倾向正在迅速凸显,则需要对该现象进一步观察,探究数据中是否集中出现了某些信息。对这些信息的深入分析课发掘出危机起因。
系统框架
系统架构图
数据获取层
数据获取层采用分布式爬取和存储框架进行数据的获取、预处理和存储。
数据获取层包含原始数据获取、预处理和数据存储两部分内容。
数据获取和预处理针对数据源不同和获取时间不同,包含以下分类:重点网站数据获取、网页元搜索引擎数据获取、社交网络数据获取。针对日常预警重点网站和网页元搜索引擎分为初始爬取和增量爬取两种方式,增量获取时需对数据时间进行检查。
重点网站在获取经过去重的有效链接后,逐一对链接原始网页内容进行爬取,提取正文内容。
网页元搜索引擎获取方式为发送检索词获取返回结果。当使用多个网页元搜索引擎进行信息获取后,由于元搜索引擎之间存在信息重复的情况需对得到的全部未加密链接使用布隆过滤器去重,之后获取剩余未加密链接和全部加密链接对应的原始网页内容,提取其中的标题、网站、正文内容。对比加密链接与未加密链接对应的网站和标题,完全一致时删除加密链接。
社交网络获取方式为使用社交网站提供的检索功能,发送检索词获取返回信息,请求信息原始内容,获取信息发起人、参与人、关联信息、发表时间。
数据获取和存储模块架构
本系统定点网站爬取和存储采用 Nutch 作为数据采集和检索的框架,Nutch 是一个开源 java 实现的搜索引擎,可采用分布式部署,以Hadoop + Hbase 作为存储环境,使用 Elasticsearch 进行检索。本系统使用一个主节点配合多个从节点方式进行部署。
Nutch 集群部署结构图
本系统网页元搜索引擎和社交网络的存储采用 MongoDB 框架,MongoDB 是一个高性能、开源、无模式的文档型数据库提供了面向集合的存储、动态查询等功能,通过查询优化器支持索引。本系统使用分片+副本模式部署 MongoDB 以加快查找速度和防止单点故障。
MongoDB 集群部署结构图
信息分析层
信息分析层完成文本分词、情感判断、危机预警、危机来源发现、危机结点发现,主要流程和方法包括:
对获取的标题、正文和社交网络上的发言进行分词处理,统计词频,根据词频找出每日关键词集合。
利用情感词库辨别情感词,分为正面、负面和中性,正面、负面词根据词汇本身的情感强度赋予一定的情感强度值;对每条文本的不同类型情感词进行统计。
危机发现:对于网站数据预先设定负面情感词阈值,当单个文章出现超过预定的阈值或当日总负面情感词数量超过阈值时进行标记,推送至展示层。对于社交网络中的每一发言统计情感词,一旦出现负面情感词即对该发言进行标记,全部发言统计完成后,对做出标记的发言查找其前后关联发言形成发言链路,计算每一链路的负面情感总值,按负面数值排序以发言链路的形式将结果推送给结果展示层。统计每日的情感词数值:正面情感量、负面情感量。
危机来源发现:对于发现的异常事件(包括危机预警发现和来自线下的危机),输入事件的名称或关键词组合作为检索词,从元搜索引擎获取全部检索结果,将结果按事件排序,查找最早出现时间,并对每一时间段返回检索结果数量进行统计,计算变化趋势。
危机结点发现:对包含负面情感的社交网络信息按发表用户进行合并,计算情感词累加值,查找高负面情感值用户,对该用户的发言进行词频统计,计算关键词。
结果展示层
结果展示层完成每日危机报警、情感趋势分析和危机关联工作。将每日分析出的网页危机事件按危机严重程度排序进行展示。将每日分析出的社交网络危机事件按事件链路的负面情感总值排序输出展示。情感趋势展示:生成情感趋势图展示不同时间段的情感变化走向。展示每一时间段的关键词,突出显示负面情感较高的时间段中的关键词。展示高负面情感值用户的关键词和负面情感出现时间。展示危机事件的起始时间和峰值时间及不同时间段的变化趋势。
危机预警是一项长期工作,随着网络信息的增加,危机预警系统的数据存储和处理量也会随之增长,除了使用有效的数据降解方式,采用高性能的大数据处理和存储方式是分析工作数据源的重要保障,唯有建立在充足数据基础上的分析结果才是客观、准确的。在不断改进危机预警的分析方法的同时,应用性价比高、响应快捷、结果正确率高的大数据处理方式也同样影响着危机公关的效率和成果。
推荐访问:基于大数据企业风险预警系统 预警系统 完整 风险