软件开发活动数据的数据质量问题

作者:涂菲菲;周明辉; 刊名:软件学报 上传者:吴超盛

【摘要】问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这3个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正.

全文阅读

软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn Journal of Software,2019,30(5):1522−1531 [doi: 10.13328/j.cnki.jos.005727] http://www.jos.org.cn ©中国科学院软件研究所版权所有. Tel: +86-10-62562563 软件开发活动数据的数据质量问题 ∗ 涂菲菲 1,2, 周明辉 1,2 1(高可信软件技术教育部重点实验室(北京大学),北京 100871) 2(北京大学 信息科学技术学院,北京 100871) 通讯作者: 周明辉, E-mail: zhmh@pku.edu.cn 摘 要: 问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这 3 个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正. 关键词: 数据质量;数据产生;数据收集;数据应用;问题追踪数据;版本控制数据 中图法分类号: TP311 中文引用格式: 涂菲菲,周明辉.软件开发活动数据的数据质量问题.软件学报,2019,30(5):1522−1531. http://www.jos.org.cn/ 1000-9825/5727.htm 英文引用格式: Tu FF, Zhou MH. Data quality problems in software development activity data. Ruan Jian Xue Bao/Journal of Software, 2019,30(5):1522−1531 (in Chinese). http://www.jos.org.cn/1000-9825/5727.htm Data Quality Problems in Software Development Activity Data TU Fei-Fei1,2, ZHOU Ming-Hui1,2 1(Key Laboratory of High Confidence Software Technologies (Peking University), Ministry of Education, Beijing 100871, China) 2(School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China) Abstract: Software development tools, such as issue tracking system (ITS) and version control system (VCS), are widely used in the intelligent development of open source software and co

参考文献

引证文献

问答

我要提问