基于t-SNE和模糊聚类的科技论文推荐方法研究

作者:白金源 刊名: 上传者:张廷辉

【摘要】近些年互联网飞速发展,其低廉的存储成本以及方便快捷的查询能力使得其成为科技论文的重要载体。目前科技论文查阅平台基本上依托于文本检索技术,科研用户希望在包含众多科技论文的查阅平台上快速准确的获取到自己需要的科技论文的愿望还难以实现。为此许多科研工作者将目光投到个性化科技论文推荐领域。互联网上的科技论文绝大部分以文本形式存在,判别两篇文本是否相似最具说服力的因素莫过于文本内容。针对传统的科技论文推荐领域忽视这一重要因素的问题以及对数据库中的科技论文进行两两对比造成的时间浪费和空间浪费的问题,从科技论文文本内容入手,提出基于t-SNE和模糊聚类的科技论文推荐方法。利用t-分布邻域嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)算法在处理高维数据方面的优势,对建模后的科技论文集矩阵进行维数约简,使用模糊聚类算法对t-SNE处理后的数据进行聚类,实现基于t-SNE和模糊聚类的科技论文个性化推荐。首先,利用空间向量模型对科技论文建模,其次为了解决向量空间模型带来的模型维数过大问题,提出采用t-SNE算法对科技论文模型进行维数约简。然后考虑到科技论文学科之间的交叉性,提出使用模糊C均值(fuzzy c-means,FCM)算法来对科技论文进行聚类,既避免了硬聚类带来的硬性划分问题以保留学科间交叉的特性,又减少了科技论文之间判断相似性时进行的不必要的比对。同时针对FCM需要人为指定聚类个数带来的聚类结果好坏不确定性问题,提出一种简单的自动确定其聚类个数的算法。最后,采用基于内容的推荐方法为科研用户进行科技论文的个性化推荐。实验表明,本文的方法在时间和空间复杂度上优于传统的科技论文推荐算法,同时推荐的准确性也较传统科技论文推荐有所提升。

参考文献

引证文献

问答

我要提问