基于数据挖掘技术的舆情分析系统的设计

作者:柳源; 刊名:电脑知识与技术 上传者:张瑞格

【摘要】随着互联网在全球范围内的快速发展,人们的行为、交流方式发生了深刻的变化。社会上一些的热点、焦点问题通过互联网传播、碰撞和整合,形成网络舆论,对社会经济的发展产生重大影响。数据挖掘技术对网络舆情信息获取、内容分析、研判与预警等多方面都有极其重要的指导意义。该文提出基于数据挖掘技术设计网络舆情分析系统,引导舆论向着积极的方向发展,从而推进社会的稳定发展。

全文阅读

1概述随着互联网在全球范围内的迅速发展,网络已经成为社会舆论传播的主要载体之一。网络与人们的工作和生活息息相关,它在给人们带来便利的同时,也给社会管理工作带来诸多挑战。大量网民通过网络社交平台评论、转发社会突发事件,这些事件在网络传播的过程中很容易偏离事件性质本身,影响了事件的公正处理。网络舆论对社会经济的发展和个体声誉都将会产生一定的影响,如果不加以适当干预,对舆论的方向起误导作用。网络传播媒介多元化的今天,使得舆论的信息源呈现出多样性,同样实时有效地对网络舆论进行监测分析也变得越发困难。因此,本文将设计一个基于数据挖掘的舆情分析系统,采用分布式并行方法收集、处理数据,它能有效地对网络舆论进行预警和响应,在一定程度上减轻网络舆论的负面影响,尽量把舆论维持在一个可控的范围内,提高政府的公信力。2相关理论2.1网络舆情网络舆情信息,是指人们借助互联网,对社会公共事务,特别是社会热点和热点问题,发表有影响力、有偏见的意见和言论。是人们社会中各种现象、问题所表达认知、态度、情感和行为倾向的集合。网络舆情是社会舆情在互联网空间上的一种映射,是社会舆情的直接反映。2019年2月28日,中国互联网信息中心(CNNIC)在北京发布了第43期中国互联网发展统计报告。截至2018年12月,全国互联网用户数为8.29亿,全年新增网民5653万人,互联网普及率达59.6%,较2017年底提升3.8%。由于网络是一个开放的环境,因此它是匿名的,分散的,难以控制开放科学(资源服务)标识码(OSID):的。网络舆论表达迅速、信息多元化、互动性强,传播范围更加广泛,有着巨大的社会影响力。图12.2数据挖掘所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。3舆情分析系统的设计为了及时、准确地掌握网络舆论的导向,发挥政府的舆论监督作用,利用数据挖掘技术建立舆情分析系统势在必行。一个完整的舆论分析系统由数据模块、分析模块和评价模块组成,主要包括以下四个功能组件:数据收据、数据预处理、数据分析、预测评价。图21)数据收集。数据收集是按照确定的数据分析内容,收集相关数据的过程,它为数据分析提供了素材和依据。根据所得的数据,抽象出数据的特征信息,将收集到的信息存入数据库。选择一种合适的数据存储和管理的数据仓库类型数据集的选取对数据挖掘模式是否有趣起决定作用。网络舆情信息搜集可以从一个URL集合开始,通过与敏感关键字集合进行比对,过滤无关选项,把有用的信息加入数据队列。2)数据预处理。从对不同的源数据进行预处理的功能来分,数据预处理主要包括数据清理,数据集成,数据变换,数据规约等四个基本的功能。在数据挖掘整体过程中,海量的原始数据中存在这大量复杂的,重复的,不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差,为此,在数据挖掘算法执行之前,必须对收集到的原始数据进行预处理,以改进数据的质量,提高数据挖掘过程的效率,精度,性能。数据预处理主要包括数据清理,数据集成,数据变换与数据规约等技术。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的准确率和效率。图33)数据分析。网络舆情分析系统充分利用数据挖掘分析工具,从海量的、不完整的、复杂多变的网络舆论信息中,我们可以找到舆论演变的内在原因和规律,并分析其

参考文献

引证文献

问答

我要提问