基于大数据的小微企业统计信息采集策略

作者:张玉明;张远远; 刊名:统计与决策 上传者:陈雪娇

【摘要】小微企业由于信息严重不对称导致融资难、融资贵、贷款难等问题,基于大数据来源之一的互联网社交媒体的小微企业信息采集是获取小微企业信息数据的重要途径。文章面对爆发式增长的互联网信息资源,利用主题聚焦网络爬虫技术、数据库技术、Java技术等设计并实现由基于链接结构分析的链接地址URL筛选及采集、基于模板节点匹配的网页正文信息抽取、数据入库三个功能模块组成的小微企业统计信息自动采集系统,采集到的数据以结构化数据的形式存储到My SQL数据库中,为后续数据挖掘与分析提供良好的数据支持。结果表明,文章所提出的信息自动采集系统采集效率较高,能够适应小微企业统计信息采集的需求。

全文阅读

DOI:1【J.13546,j.cnk1.tjyje.201l/.14.044 基于大数据的小微企业统计信息采集策略 张 玉 明 ,张远 远 (山东大学 管理学院,济南 250100) 摘 要 :小微企业由于信息严重不对称导致融资难、融资责、贷款难等问题 ,基于大数据来源之一的互联 网 社交媒体的小微企业信息采集是获取小微企业信息数据的重要途径。文章面对爆发式增长的互联 网信息资 源.利用主题聚焦网络爬虫技术、数据库技术、Java技术等设计并实现由基于链接结构分析的链接地址URL筛 选及采集 、基 于模板 节点 匹配的 网页正文信 息抽取 、数据入库 三个功能模块组成 的小微企业统计信 息 自动采集 系统 ,采集到 的数据 以结构化数据 的形式存储 到 MySQL数 据库 中,为后 续数据挖 掘与分 析提供 良好 的数 据 支 持。结果表明,文章所提出的信息自动采集系统采集效率较高,能够适应小微企业统计信息采集的需求。 关键词 :大数据 ;小微企业信息 ;信 息不对称 ;web信息采集 ;主题聚 焦网络爬 虫 中图分类号 :F276.3 文献标识码 :A 文章编号 :1002—6487(2017)14—0178—04 1 问题的提出 大数据时代 ,面对爆发式增长的、复杂多元的、海量的 互联网信息资源 ,采用面向互联网大数据的主题聚焦网络 爬虫信息定 向采集是小微企业信息获取的重要手段 。利 用主题聚焦 网络爬虫技术 、数据库技术 、Java技术等设计 并实现由链接地址 URL筛选及采集 、网页正文信息抽取 、 数据入库i个功能模块组成的小微企业统计信息 自动采 集系统 ,其中链接地址 URL抽取是运用基于链 接结构 的 链接导航技术实现的,正文信息采集要经过预处理 、定制 采集模板 、基于模板节点匹配进行正文信息抽取这几个步 骤来实现,采集的数据以结构化数据的形式存人到MySQL 数据库中以备数据挖掘与分析。 为提高小微企业互联网信息采集的效率以及丰富小 微企业信息数据来源,本文在前人研究的web信息采集方 法的基础上 ,利用基于链接结构的网页链接导航技术以及 基于模板节点匹配的网页正文抽取方法设计并实现了一 个 自动抓取 网页 内容的小微企业信息 自动采集系统。 2 利用主题聚焦网络爬虫采集小微企业信息 为实现对基于大数据 的互联 网社交媒体中的小微企 业信息采集 ,本文确定 了信息数据来源 、明确采集系统架 构以及描述采集过程中涉及到的其他技术要点 ,并展示一 个具体的小微企业信息 自动采集系统开发实例。 2.1 数 据 源或信 息 范围的确 定 伴随着互联网技术 、物联网技术 、大数据技术 以及云 计算 的快速发展 ,互联 网因其使用成本较低 、信息传播速 度快 、信息含量巨大等特征 ,成为 当前主流的社交平 台。 互联 网信息呈现指数式增长 ,面对海量 的互联 网信息数 据 ,并非所有的信息都具备信息采集的价值。因此 ,为实 现快速精准地采集小微企业信息 ,需要排除那些价值密度 低 、信息含量少 、信息真伪难辨的站点,选出信息含量高的 web站点利用主题聚焦 网络爬虫进行定向数据采集。 主题聚焦 ,是指采集小微企业统计信息的具体数据源 或信息范围。首要 的任务就是寻找含有海量小微企业可 靠信息的相关站点 ,许多企业搜索平台对小微企业发布的 相关信息进行整合分类 ,在这类 网站上汇集了海量 的小微 企业相关统计信息 ,如识别信息(公 司名称 、公司地址 、联 系电话等)、属性信息(所属行业 、经营范同等)、数据信息 (从业人员 、年营业额等

参考文献

引证文献

问答

我要提问