现代学生群体的压力与生活的共存性分析——一项基于微博语料的自然语言处理技术应用

作者:金幕; 刊名:金华职业技术学院学报 上传者:吴寒阳

【摘要】压力,是现实生活中由于外界环境的变化而导致的人类生理变化和情绪波动。学生的生活中是否存在压力,以及其影响程度,都是学生群体心理健康研究的重要课题。本文采用了计算语言学的方法,以心理学模型为基础,计算机科学中的自然语言处理技术为手段,借助爬虫软件提取了具有代表性的现代大学生群体微博内容,用以探究学生群体压力与生活的共存性关系。分析结果显示,在现代学生群体的生活中,压力是不可或缺的一部分,它主要来自于家庭、学校、人际交往。为此,合理对待生活中的压力、积极面对生活是现代学生群体解压的有效途径。

全文阅读

压力是个体对直觉到的对自身心理、生理、情绪及精神威胁时的体验所导致的一系列的生理性反应及适应。正性压力能够激发和鼓舞个体达到预期目标,实现最高绩效,但压力持续上升就会转化为负性压力,个体能力因难以承受而造成绩效下降,其慢性效应长期积累会导致情绪失落、心理疾病等后果[1]。学生群体作为社会阶层的一个重要组成部分,其年龄层较低,在面对压力时往往容易出现不同程度的心理问题。本文基于Python平台,利用爬虫技术爬取了2018年6月1日-6月23日的语料数据,利用自然语言处理方法,如关键词TF-IDF算法、Word2Vec词向量训练模型等技术,对获取的微博语料进行可视化分析,探究当代学生群体的学业、就业、经济、情感、人际关系和自我认同的发展与生存状况,并通过对前人的经典心理学模型的研究,对压力之于生命的意义进行了更深入的阐释。一、爬虫技术与微博语料的采集处理(一)爬虫技术简介爬虫技术,是一种按照一定的网页协议规则,自动地抓取互联网信息的一些代码脚本。通常认为,网络爬虫是一种程序,主要用于搜索引擎,它可以将一个网站的所有内容和链接进行读取,从第一个网站地址开始读取,获取目标内容,并建立相关的全文索引到数据库中,然后跳到下一个相关网站,如此下去,一直循环获取所有相关的内容和链接,直至读取完毕,并将所有读取的内容依次索引到数据库中,进行记录,从而快速、高效地获取所有的信息内容。由于爬虫的方式与蜘蛛运作方式相似,爬虫技术,又称为“网页蜘蛛”或“网页追逐者”。在大数据时代,互联网中富含丰富的数据信息,由于人工处理费时费力,浪费时间和资金,因此需要通过爬虫这种方式进行批量、自动化地抓取和处理数据。本文所研究的微博语料就是基于若干用以反映学生群体身份的关键词,爬取微博获得的,这些关键词包括“高中”“高一”“高二”“高三”“大学”“大一”“大二”“大三”“大四”“研究生”“研一”“研二”。利用爬虫软件提取博文内容,共提取23760条微博,合计750406字。爬取的基本思想是通过构造微博的URL序列,爬取相关网页、解析网页、储存。整个爬取过程都是以Python作为操作平台。本文爬取所获的部分语料如图1所示。在获取了初步的微博语料以后,需要对获取的微博语料进行去噪、分词。微博语料的去噪包括初步去噪和后去噪。初步去噪指去除无关的标点符号、字母、数字;后去噪是指去除停用词(即一些没有实际意义的词诸如“的”“和”“啊”等无意义的词,即一些连词、感叹词、介词)。初步去噪在分词前处理,后去噪是在分词以后处理。分词就是将连续的字序列按照一定的规范重新组合成次序列的过程。中文分词是指将语段按照汉字序列分割成一个个单独的词。本文采用的分词工具是基于Python平台下的清华大学中文词平台下的清华大学中文词法分析工具包THULAC。THULAC是由清华大学自然语言处理与社会人文计算实验室推出的一套中文词法分析工具包,该分词工具经过了大量的中文语料模型训练,具有消除歧义、更高精度分词的功能,有很高的准确性[2]。当然,没有任何分词工具可以做到100%准确率,但是经测试,THULAC工具包工具包的准确召回率已经达到了95%。通过分词、去噪之后的语料如图2,此时的语料已经可以进行自然语言处理。图1初步获取的粗语料图2处理完毕的微博语料(二)微博语料的可视化分析1.关键词提取算法(1)TF-IDF算法原理TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成

参考文献

引证文献

问答

我要提问