您的位置:首页 > 资讯频道 > 国内资讯 > 社会资讯>正文

提速100倍+,柏睿数据RapidsDB助力云能力中心内存化改造,实现架构优化和实时分析

时间:2022-06-13 14:38:31    来源:厂商内容    浏览次数:    我来说两句() 字号:TT

  柏睿数据依托数据中台的分布式内存数据库RapidsDB能力,助力电信运营商云能力中心实现租户经营分析系统(简称经分系统)的明细数据查询、多维度复杂分析、可视化指标服务等提速诉求;解决原基于磁盘架构数据库(如MySQL)检索与分析的性能瓶颈问题,通过内存化数据的关键计算节点,精简化数据的预处理流程,有效地提升了系统开发与运行效率。

  云能力中心通过使用经分业务系统的真实数据和日常热度较高的测试用例作测试比对的结果显示,与等同配置的磁盘数据库MySQL性能相比,柏睿数据分布式内存数据库RapidsDB普遍提速100~200倍以上,实现了TB级上百个维度随机数据体量的毫秒级分析。可以预见,分布式内存数据库在未来众多的电信行业业务场景(比如报表分析、自助即席查询、实时数仓、机器学习等等)中都具有很大的推广价值。

  业务痛点

  随着该电信运营商云能业务发展,业务侧为更好实现云产品经营健康度分析及市场拓展推广,对云能租户经分系统前台可视化指标服务、明细数据查询及多维分析提出更高的性能要求。随着业务数据量的发展和业务复杂度的增长,经分系统在日常数据处理上呈现以下三个技术特点:

  (1)数据量大:数据仓库表随着业务量逐步发展,典型单表记录数达到万亿级,需要复杂关联分析和高频更新;

  (2)无索引条件下多表关联的复杂查询性能瓶颈:主要是多表关联或者无索引时查询缓慢,每当遇到业务高峰期,核心应用响应及时性压力巨大,影响业务报表的生成效率;

  (3)查询频率高、并发量大、数据库负载高:工单由单次任务加上定时任务执行SQL取数分析,查询频率高,任务涉及的表查询中,报表查询并发量在几百到上千个级别。

  现有的经分系统在支撑这样日常数据处理中不断地面临着性能挑战,数据批量处理时间长,SQL查询性能差,无法满足业务实时性的要求。

  解决方案

  因此,云能力中心尝试使用基于分布式内存数据库的方式来替代原有基于磁盘架构的数据库,以提升数据处理性能,成为未来经分系统改造的方向。

  从上图可以看到,改造后的经分系统前端应用如果需要实时自主分析与自助取数,可以直接从柏睿数据分布式内存数据库RapidsDB的查询接口传达指令并调取数据,也就是直接从融合数据模型整合子层DWI层对应的事实表和维度表获得数据。优化后的架构有两个方面好处:

  (1)对原本使用的磁盘数据库MySQL的处理流程,减少业务数据的预聚合和预处理操作,同时SQL查询避开磁盘I/O,借助内存处理的高效性,有效地减少提数等待时长,实现从数小时的响应周期降低至秒级甚至毫秒级响应的超高性能,极大地提升前端应用的数据访问性能;

  (2)减少原数仓的数据中间结果落盘存储环节(大多是数据预计算目的,以提升前端查询性能),不仅降低了数据存储空间,同时也减少了数据开发工作量。

  测试方案

  为此,云能力中心通过柏睿数据分布式内存数据库RapidsDB,与原有数据库MySQL进行性能比对测试,完成TPC-H、租户经分抽样用例和并发测试三方面测试工作,以验证RapidsDB数据分析和处理能力。

  为实现RapidsDB使用评测,首先在资源池部署RapidsDB集群,通过打通RapidsDB与云能力中心租户PaaS平台、应用分析服务器间的网络策略,实现RapidsDB与其他服务器的直连交互,方便后续数据传输和分析使用。对比在用MySQL服务器,RapidsDB服务器型号和CPU数量完全一致,内存数量较多,而数据磁盘较小,集群部署架构如图所示:

  测试结果

  参考业内TPC-H测试方案,以及云能力中心实际经营分析和挖掘诉求,对柏睿数据分布式内存数据库RapidsDB与系统原有磁盘数据库MySQL开展比对测评:

  (1)22个基本查询进行数据库SQL兼容性测试,通过RapidsDB查询响应时间,评价其计算性能。

  兼容性测试:22个基本查询全部执行成功,没有语法错误,RapidsDB具备很好的标准SQL支持能力。

  TPC-H测试:100GB数据量下,RapidsDB所有查询响应时间在0.2s~6s区间内,完全满足日常多维分析使用诉求,性能表现优秀。

  不同数据量对比测试:设定不同的数据量,进行性能延时比对,数据量翻倍的情况下,RapidsDB响应时间控制在1~2倍间,总体表现稳定。

  (2)根据目前,分析指标,基于实际数据对内存数据的运算性能做相应的对比测试,测试用例主要选择日常使用热度较高的可视化报表分析和自主分析场景, RapidsDB和MySQL性能比对结果如下:

  从云能力中心的分布式内存数据库性能评测报告中可知,“RapidsDB与MySQL硬件环境相似、数据量相同、测试用例相同的情况下,运算速度比MySQL高达100倍以上”;在当前经营分析OLAP场景中,RapidsDB大大提升日常数据分析效率,快速响应客户分析、业务决策、市场研判的要求,有效增强自身业务服务水平及管理能力。

  应用展望

  通过本次试用与评测,该运营商云能力中心认为柏睿数据分布式内存数据库RapidsDB尤其适合电信行业多维复杂业务分析场景,完全满足其不断发展的提速增效的高要求,也适用于未来众多的报表实时分析、即席查询、机器学习等行业领域:

  报表分析:实现海量数据复杂查询的秒级响应,可直查明细数据报表,减少预聚合和预处理操作,大大提升开发效率。

  即席查询:面对个性化的数据查询诉求,可灵活选择数据源和查询条件,无需担心因为非专业人员提交SQL脚本低效而导致的运行超时。

  机器学习:有效支撑数据科学家和数据分析师对原始数据的机器学习等诉求,显著提升即时预测分析的效益。


免责声明:本网站所刊登、转载的各种稿件、图片均有可靠的来源,市场有风险,选择需谨慎!此文仅供参考,不作买卖依据,并不代表新讯网观点,由此产生的财务损失,本站不承担任何经济和法律责任,本站自动屏蔽违反《广告法》词语。

请选择您浏览此资讯时的心情

相关资讯
网友评论
本文共有人参与评论
用户名:
密码:
验证码:  
匿名发表
主办单位:北京时代互通文化传媒有限公司 技术支持单位:西部数码