【论文笔记】基于深度神经网络的新闻舆情分析系统研究与实现 论文题目:Research and Implementation of News Public Opinion Analysis Based on Deep Neural Network 作者信息:北京理工大学珠海学院,计算机学院 发表期刊:台州学院学报’2021 一、介绍 舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。 随着互联网在全球范围的极速发展,人们讯息的主要方式渐渐转变为经由网络媒体。网络上的新闻种类繁多,信息量巨大,当网络出现重大舆情,特别是负面舆情时,若不能及时了解、有效引导,很容易形成舆论危机,严重时甚至影响公共安全。 以往的舆情信息解析系统大多数是以规则、统计方法为主导的,容易因为规则数量庞大、逻辑复杂而难以维护与升级;而以神经网络模型为主、规则为辅的舆情分析系统准确率与速度得到巨大提升。 二、系统设计 新闻舆情分析系统采用微服务器架构,由四部分组成: ① 新闻搜集模块:利用Scrapy框架以及Blocking Scheduler库构建新闻爬虫,全天候多进程定时爬取新闻。 ② 数据分析预测模块:利用TensorFlow框架搭建CNN模型时间两个多分类任务,分别用于新闻类型和情感的预测。 ③ 数据存储模块:由Mysql(存储原始数据与滤重表)、MongoDB(存储分析后的数据)和ElasticSearch(作为搜索引擎单独部署)构成。 ④ Web服务模块:连接系统各部分的枢纽,基于Tornado构建web服务,以连通另外三个模块。 三、处理流程 系统按照如下的流程图进行数据的处理与预测。
系统流程图 ① 爬取新闻:使用Scrapy框架构建爬虫模块,从搜狗新闻的网页上爬取新闻,并对每条新闻提取标题、内容文本、更新日期、来源等结构性数据,进行编号后存入数据库。本文共搜集了约 15万条新闻,提取其结构性数据作为原始数据集,训练集与测试集比例为 9:1。 ② 关键词提取:使用TF-IDF(词频-逆文本频率)算法进行关键词提取,TF词频,一般来说一个词在文中出现的频率越高则越重要;然而存在很多介词,代词,它们出现的频率也很高,但意义不大,不能用来表示文本的特征。因此引入IDF逆文本频率,反映了一个词在所有文本中出现的频率,IDF高即代表这个词很少在文本中出现,唯一性高,计算公式如下:
N代表语料库中文本的总数,N(x)代表语料库中包含词x的文本总数 本文便利用Python的jieba库进行TF-IDF进行关键词提取,为了屏蔽不需要的词,还需要自定义一份停用词列表供切词器加载。 ③ Simhash滤重:为了避免对相同的新闻作重复的保存、分析等操作,必须对新闻列表进行滤重。具体操作是将文本切词后得到权重,计算出二进制的Hash值,加权求累加和,降维得到的即为Simhash值。 ④ 分析预测:对新闻类型分类6类:金融、科技、社会、时政、体育和游戏,情感倾向分为3种:正面、中性、负面。本文使用的是Tensorflow框架及CNN模型: 1)输入模型之前进行数据清洗与优化:确保分类标签的准确性+去除噪声(,如剔除“了” “的” “你” “我” “他”等无用词) 2)Embedding层,将文本数据表示为向量,方便计算相似度等 3)卷积层,筛选特征,根据卷积核得到想要的特征形状 4)池化层,减少学习的特征数和数据量 5)全连接层,将所有特征整合在一起计算出分类结果 6)Dropout层,将部分神经舍弃,防止过拟合 ⑤ 数据库技术:系统使用了 Mysql和 MongoDB两种数据库及 1个全文检索引擎 Elasticsearch。Mysql的作用主要是进行 Simhash滤重和存储原始数据。Mysql中建了两张表:news表和 simhash表。news表存放爬虫爬取的未加工数据,包括新闻的编号、标题、内容文本、更新日期、来源等具体信息。simhash表除了上述信息外 ,还存储了八列新闻文本的 Simhash序列码 ,用于新闻滤重时计算新闻文本之间的汉明距离 。MongoDB是一种文档型数据库,其拥有非常完善的权限机制。文中 Mongo数据库用来存储新闻解析后的完全体数据,并同步到 Elasticsearch中。MongoDB全文检索在数据量大时性能急剧下降,本文选用ElasticSearch来实现后台搜索。Elasticsearch存储的数据和 Mongo是同步的,但没有 Mongo自生成的_id。因此 Elasticsearch不需要设计数据库,只需建立索引和文档类型即可。Elasticsearch提供 RESTful的接口,系统通过 http方式与 ElasticSearch通信。 ⑥ 前端技术:页面使用 Bootstrap、Layui和 Datatables的组件搭建,使用 JavaScript编写前端逻辑。
主页界面 总结: 此文章为我们展示了一套系统的全栈开发过程,从前端到后台再到算法一应俱全,可以作为入门Demo上手。 详情参考原文,侵删~ 基于深度神经网络的新闻舆情分析系统研究与实现 – 中国知网
2024最新激活全家桶教程,稳定运行到2099年,请移步至置顶文章:https://sigusoft.com/99576.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。 文章由激活谷谷主-小谷整理,转载请注明出处:https://sigusoft.com/71191.html