您现在的位置是: 首页 - 行业动态 - HBase大数据存储实战探究工业场景下通讯协议的选择 行业动态

HBase大数据存储实战探究工业场景下通讯协议的选择

2025-02-20 行业动态 0人已围观

简介随着工业4.0时代的到来,工业互联网和企业的智能化、信息化都将不断推进,传统的工业实时数据库和关系数据库已经难以完全胜任工业大数据的存储,以HBase为代表的NoSQL数据库正在蓬勃发展,其完全分布式特征、高性能、多副本和灵活的动态扩展等特点,使得HBase在工业大数据的存储上拥有强大的优势,打破了流程工业生产中的数据壁垒效应的瓶颈,可以促进工业生产水平和生产管理水平的大幅提升。本期格物汇

随着工业4.0时代的到来,工业互联网和企业的智能化、信息化都将不断推进,传统的工业实时数据库和关系数据库已经难以完全胜任工业大数据的存储,以HBase为代表的NoSQL数据库正在蓬勃发展,其完全分布式特征、高性能、多副本和灵活的动态扩展等特点,使得HBase在工业大数据的存储上拥有强大的优势,打破了流程工业生产中的数据壁垒效应的瓶颈,可以促进工业生产水平和生产管理水平的大幅提升。本期格物汇,就来给大家介绍HBase数据库及格创东智相关实战案例。

了解HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的大型分布式存储系统。

利用HBase技术可以在廉价PC服务器上搭建起大规模结构化存储集群。

HBASE是Google Bigtable的一个开源实现,但是也有很多不同之处。比如:

GoogleBigtable使用GFS作为其文件存储系统,而HBASE利用Hadoop HDFS作为其文件存储系统;

Google运行MAPREDUCE来处理Bigtable中的海量数据,而HBASE同样利用MapReduce来处理HBASE中的海量数据;

GoogleBigtable利用Chubby作为协同服务,而HBASE利用Zookeeper作为协同服务。

与传统数据库相比,基于以下几个方面,Hbase具备多重优势:

线性扩展能力:随着数据量增多,可以通过节点扩展进行支撑。

数据备份机制健全:通过复制机制保证了高可靠性。

访问速度快:通过Zookeeper协调访问快速地获取所需信息。

应用场景

半导体显示行业

为了更好地展示如何在人工智能领域使用hbase,我们以某半导体显示企业为案例,分析格创东智团队如何设计一个快速查找面板特征系统。

该公司业务场景中,有大量面板相关特征,每张面板包含3.2k个二进制字节,这些面板被分成许多组,每个组对应一系列面的特征。具体情况如下:

大约43% 的组里只有1张面的特征;

大约47% 的组里有2到9张面的特征;

剩下的小部分组可能包含10到10000张面的特征;

业务需求主要包括两个方面:

根据group_id查询该group下的所有faces;

根据group_id + face_id查询某个face上的具体data.

原有方案

之前,由于业务规模较小,所以主要依赖MySQL以及OSS(对象存储)解决问题。相关表主要包括groups表和faces表,其中每条记录表示一个单独的事务,但实际上这些事务往往属于相同的事务范围内。此外,还存在一些额外的问题,如需要根据face_id从OSS中检索大量的小文件,这导致了长时间延迟并且增加了成本。

改善方案

鉴于这些限制,大数据团队决定采用新的方法。在这项工作中,他们决定使用hbase,因为它具有动态列名功能,该功能使得我们能够更有效地组织我们的行,并提高查询速度。这意味着我们可以创建一个只有一行就能包含所有faces的一个单一行,在这个rowkey就是groupid而columnfamily则是"faces"。这样做不仅减少了需要扫描到的rows数量,也简化了后续操作,因为现在我们只需要读取或写入单一row即可完成任务。

此外,我们还发现hbase提供了一种名为MOB(Medium-sized Object)的新功能,它允许我们像处理普通对象一样轻松地处理那些大小介于几KB至几MB之间的小型文件,从而进一步优化了我们的性能并降低了成本。这使得我们的程序更加灵活,同时也极大地方便了维护工作,因为现在不再需要担心因为不同大小的事务而产生过多冗余或损失空间效率的问题。

总结来说,大型工程项目中,无论是在产品开发还是日常运营过程中,都会遇到各种各样的挑战。在这种情境下,不断寻求创新性的解决方案对于保持竞争力至关重要。而基于hbase这一强大的工具,对未来的人工智能领域来说无疑是一次巨大的步伐,为未来的数字转型奠定坚实基础。

标签: 数码电器行业动态