摘要:随着我国经济的发展以及社会的进步,我国的科技也逐步发展起来,科技水平越来越高。而目前我国几乎每个人都由一部手机或电脑,人们通过这些工具上网,在网络上了解一些信息,网络的出现在给人们带来方面的同时,也对人们的生产生活产生了一些不利的影响。但网络上的内容良莠不齐,一些不良的内容会不利于网络空间以及社会的发展,因此需要有关部门对其进行监测并对数据进行采集和分析,从而使网络环境清洁化。
关键词:网络舆情监测;数据采集;文本分类
引言:
21世纪我国已经进入信息化社会,手机和网络已经成为了人们生活中不可分割的一部分。根据有关数据表明,截至2020年上半年,我国网民规模已达9.4亿。而网络舆情是在互联网上流行的对社会问题不同看法的网络舆论,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持有的较强影响力的言论和观点。而现如今网络舆情泛滥,对人们的生活和社会发展都产生了一定的影响,因此社会和国家一定要告诉重视这种现象并进行严格管理。接下来从以下几个方面来分析网络舆情监测的数据采集与文本分类技术的使用。
一、目前我国网络舆情发展现状
随着网络化的普及和发展,我国的社会上各个行业和领域对网络都有着较高的依赖性,他们在办公过程中享受着网络的便利,同时在网络上也会出现一些社会上关注度较高的问题,一些网民肆意评论造成网络舆情现象的发生[1];还有一些人为了在网上吸引人们的关注度和浏览量,他们故意在网上散播谣言,这种现象不仅不利于网络文化的发展,严重者还会触碰法律,在社会上造成不良的影响。这就需要网络监管部门加大监管力度,运用先进的科技手段对这些网络舆情进行监控和分析,从而达到合理控制网络舆情发展以及净化网络空间的目的。
二、利用先进技术手段加强网络舆情采集工作
近些年来我国的计算机产业发展较为迅速,而大数据和云计算作为计算机领域的两个重要分支,在社会各领域的发展中都扮演着非常重要的角色,这两种技术对网络舆情采集也有一定的推动作用。首先,相关工作人员可以利用云计算来分析出网络舆情大多集中在哪个领域和范围并对这些网络舆情进行判断和分析,看是否会影响网络环境以及社会发展。其次,可以使用大数据这种技术对网络舆情进行自动筛选和采集工作[2]。
互联网上存在着很多种类的舆情数据,有图片类、视频类等等,而且数量非常多。目前我国个人社交媒体相当发达,像抖音、快手和微博,很多人都在这些平台上注册账号来传播一些舆情,而QQ、微信以及各种网页客户端上也存在着很多网络舆情,由此可见,这些舆情传播范围非常大而且传播速度快,这对舆情采集工作是一个不小的挑战,因此需要很强的技术支持才能完成对这些舆情的采集工作。
大数据的出现为传统的人工采集节省了大量的时间,提升了采集效率。大数据技术可以通过与其它软件相结合的方式来对网络上的舆情信息进行监控和采集工作,大数据通过对这些舆情信息进行分析把对网络环境影响较大的信息储存在数据库里。其次,需要对数据库中的这些舆情信息进行第一步处理,因为数据库中的这些舆情信息包含着很多干扰大数据分析的信息,会对大数据分析产生一定的阻碍作用。因此,需要首先对这一部分的数据进行处理,提取其中的关键信息。还有一些网络舆情存在于网站中,这种网络舆情的采集工作相对来说是更加困难的,因为要提取网站中的相关信息,就需要进入这个网站内部,而这些网站大多数都是经过加密处理过的,进入网站相对比较困难。这就需要工作人员有较强的计算机操作能力以及对这些高科技技术的掌握能力,通过爬虫软件进入到这些网站当中,从而完成对这些网站的舆情监控和采集工作[3]。
三、网络舆情监测的文本分类技术
众所周知,网络舆情的数量规模庞大,如果人工对这些舆情进行文本分类不仅需要很多的人力资源,而且工作效率相对来说也非常低。这就需要一些先进的文本分类方法来对这些网路舆情进行分类。这些分类方法可以通过把这些网络舆情划分为不同种类从而缩小监测规模,这样做可以让有关部门对这些舆情查找起来更加容易。这些文本分类技术可快速判断这些网络舆情从而在这些网络舆情出现之前做出及时地处理,避免对社会和人们造成不良影响[4]。
相关期刊推荐:《无线互联科技》本刊栏目“业界前瞻”“通信观察”“无线天地”“网络地带”“软件透视”“实验研究”“计算机世界”“技术应用”“市场纵横”“设计分析”“教学探讨”“图书情报”“计算机教育”“管理论衡”“新媒体”等一直深受广大读者好评。刊登的文章已被中国学术期刊网络出版总库(知网)、万方数据期刊网、维普期刊数据库等网站收录。
有关的监测部门可以通过标签的方式来对这些文本进行分类,这种方法近些年来被很多部门和领域所使用,实践证明效果也非常好,而网络舆情监测同样也可以使用这种技术。相关技术人员可以使用单标签文本分类,每一个文本中只有一个标签,这样分类的优点在于工作人员可以对这些网络舆情进行精细化的查找,在保证准确的同时,也能最大程度上提升工作效率。而多文本标签可以通过把一个标签绑定多个网络舆情,这样可以通过对这种网络舆情进行分类查找,同样也可以对这些舆情进行全方位的监测。同时,工作人员可以利用计算机网络来对这些网络舆情进行分类,计算机可以通过对发布这些网络舆情的用户ID进行定位和追踪,通过这种方式把相似的网络舆情分到同一类别,这样可以方便对这些舆情的查找和处理工作,对净化网络空间起到了很大的推动作用。
四、结束语
综上所述,由于网络化的发展和普及,我国的网民数量大幅度提升。这种情况也导致了很多人在网络上肆意传播一些言论,导致网上有很多爆炸性的言论,很多网民也都参与到其中,这种现象既破坏了网络环境同时也不利于社会发展以及人们的身心健康,因此需要相关部门对网络上的这些舆论进行监管。有关部门的工作人员可以借助云计算和大数据等高科技手段对网络舆情进行采集并利用单标签以及多标签文本分类技术对这些网络舆情进行分类,从而更好地对这些网路舆情进行处理。——论文作者:韦逢姗
转载请注明来自:http://www.lunwencheng.com/lunwen/dzi/19033.html