基于特征的传统科技论文结构化析取关键技术研究

作者:陈建国 刊名: 上传者:姜立英

【摘要】科技论文是科学技术研究活动产出的一种重要形式,是促进现代科学技术转化为现实生产力的重要媒介。目前科技论文大多采用文字处理软件(如Microsoft Word等)进行编辑,由于Word等格式为非结构化的文本,不能直接提取标题、作者、摘要、关键词、正文等论文要素,难以满足科技论文结构化检索、统计分类、关联分析等高层次应用需求。 本文工作主要围绕传统科技论文的结构化析取展开,通过分析传统科技论文的基本构成和格式特征,基于特征学习提炼析取规则,设计并实现一个传统论文结构化析取系统,可将传统论文按多维科技论文的格式要求导出结构化文本。论文的主要工作和创新包括: 1)通过分析国内核心期刊中科技论文的格式特征与存储标准,结合多维科技论文的结构化存储要求,设计并实现了一个科技论文结构化析取的总体技术框架,该框架具有良好的可扩展性。 2)提出一种Word文档结构化信息析取算法,该算法由三部分组成:首先,样本学习:由于各期刊的论文发表格式不尽相同,先对各期刊的传统论文分别进行样本学习,标识Word文档中各论文要素的文本、格式特征,生成析取规则并存入规则文档库。其次,信息析取:选择与预析取期刊论文相对应的析取规则,从Word文档提取出相应的论文各要素信息。也可对期刊存储目录的论文进行批量提取。最后,生成多维论文:自动生成基于XML的符合多维科技论文存储格式的结构化多维科技论文。 3)设计并实现一个基于特征的传统科技论文结构化析取系统XWordExchanger。系统开发集成信息析取技术、XML结构化技术和机器学习技术,目前该系统试用情况良好。

参考文献

引证文献

问答

我要提问