>服务与支持>成功案例>大型企业

国家电网运营监测(控)中心互联网大数据采集处理项目_澳门太阳城99135

网络爬虫工具(Spider)

国家电网公司运营监测(控)中心的核心业务要求实现对电网运营关键指标、重要资源、核心业务的在线监测、分析,及时发现问题并协调解决,提高公司整体运营效率效益。因此,运监中心需要从互联网持续跟踪、采集与电网行业相关的各行业数据。互联网数据往往存在着数据海量、数据分散、数据杂乱、数据不完整以及数据准确性参差不齐等问题,给运监中心如何快速高效的采集数据和分析数据提出了很高的要求。运监中心需要改变目前采用手工采集的方式,实现智能自动的互联网行业数据资源采集,建立行业数据分类存储,并最终为运监中心数据分析与利用提供有效的数据基础。
    本项目旨在通过建立互联网行业大数据采集与分析服务平台,围绕国家电网运营核心业务,开展行业数据资源规划,实现智能自动的互联网行业数据资源采集与行业数据统计关联分析,建立高统一、高精确、高权威的电网行业数据门户网站,提供行业大数据利用服务,为电网运营关键指标、重要资源、核心业务的在线监测、分析提供辅助决策与数据支持。
    在数据规划方面,以国家电网业务为核心,梳理各类数据来源、数据类型和数据结构。数据来源主要是指互联网上各类行业信息网站、政府部门门户网站、大型互联网门户网站、相关企业门户网站等发布的相关数据、报告、新闻资讯等内容。聚焦国家电网业务关联行业,重点关注电力、金融、气象、水利、环保、贸易等行业,确定数据采集的主要来源和范围。
    在信息采集方面,要建立专业化的网络信息采集工具,通过采集策略配置,实现周期性、持续性、自动化的信息采集。
    1、对于网页上的结构化数据,如各类统计报告、数据表格等信息,可以直接分析网页上的数据结构,并将相应的数据直接以结构化方式采集下来,并保存到数据库中;
    2、对于网络上的非结构化数据,如网页新闻、文档附件等,可以通过页面分析,直接将网页内容采集下来,将文档附件下载下来。采集下来的数据为非结构化数据(内容文本或文件),需要通过相应的结构化处理手段,并这些内容进行标引和结构化拆分,并保存到数据库中。
    在数据存储方面,主要基于元数据仓储对结构化数据进行存储。根据元数据规范,为不同行业、不同类型的数据建立相应的元数据库,存储各种结构化数据。对元数据库中的数据内容建立索引,以有效实现地数据搜索、统计、关联与分析。对于非结构化数据,需要通过分析标引和结构化处理,将内容分解为一系列结构化数据,并保存到元数据库中。元数据仓储支持大数据分布式存储。
    在数据分析利用方面,需要建立基本的行业数据分类导航、统一搜索与在线查看功能。以电网运营业务为核心,建立跨行业数据的关联分析模型,对采集下来的大量行业数据进行文本分析、内容挖掘与数据统计分析,将各类行业数据与电网业务密切关联起来,通过不同地区、不同行业、不同形式的数据变化情况,揭示其对电网运营带来的影响,统计分析业务发展现状与变化趋势,及时发现与预警重点状况, 为国网企业整体运行提供更多的辅助决策与智力支持。

 _太阳城2138

国家电网运监中心互联网大数据采集处理架构示意图
澳门太阳城99135
国网运监中心网络数据采集结果示意图