大数据平台

  • 商品介绍
  • 规格参数
  • 大数据(Big data)通常用来形容大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。因此大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。具体有以下方面:

    1、数据获取

    内部数据可以直接获取,但对于外部数据,特别是互联网数据,爬虫是一种功能强大的数据采集手段。数据获取采用可横向扩展的分布式爬虫系统,依靠先进的信息采集技术,有效提高平台的数据整合能力,全面、准确、快速、精细的采集各类资源平台信息。

    2、数据存储

    大数据存储需要满足对海量多样性数据的存储需求,数据存储需要能够处理结构化、半结构化、非结构化数据,并且要为大数据计算层提供快速的数据检索功能。目前,没有一种数据存储方案能满足所有数据类型及应用的需求,我们采用多种数据存储方案中灵活选择和组合,根据每个客户实际情况进行灵活定制。

    3、数据计算

        1)分布式计算

    为了满足不同类型数据分析任务的需求,大数据平台需要部署多种分布式计算框架,满足程序调试、作业性能优化等需求。

        (2)实时计算

    在大数据计算处理中,存在对于海量数据的实时响应的需要。

        3)索引及检索

    大数据平台中的数据索引在集群数据库上,并通过定制化数据存储结构和索引方式,实现结构化和非结构化数据的检索秒级响应。

    海存志合目前在海量数据分析、数据可视化、异构数据融合、互联网数据服务、大数据集群服务等方面形成了系统性的研究成果,提供全方位一体化的大数据解决方案。

本网站由阿里云提供云计算及安全服务