产业数字化升级,数据由幕后走到台前,“数据湖”与“数据仓”逐渐形成目前“湖仓一体”的数据体系进化趋势。这股风潮不仅仅席卷数据圈,更影响了一系列下游产业,对数据的场景落地构成最为直接的影响,尤其是IT运维。
“湖仓一体”是目前大数据绕不开的一个坎儿
当数据真正成为一种生产资料,我们才切实进入大数据时代。笔者以为,当数据被主动沉淀下来并进行复用的行为出现,才意味着一个企业确实将数据变为一种生产资料。
这种沉淀,必然涉及数据的存储。随着数据存储技术和应用场景快速丰富的同时,关于数据湖、数据仓的争论也日趋白热化。数据湖和数据仓用于描述数据存储结构,但它们的优势却各有不同。
简单理解,数据仓就像一个大型图书馆,数据根据类别等统一的规范分类放好,虽然存取手续较为复杂,但确保能方便找到,且找到即可直接使用。数据仓一般面向主题设计,提升了数据的结构程度,可存储大量的结构化数据。在数据量和数据类型尚且不丰富的时代,数据仓并没有遇到太大的瓶颈。2011年之前,数据仓还占据着主流市场,当数据上云等趋势出现后,数据仓得以依靠云端降低成本,满足日益扩大的数据量。
数据湖则面向更广泛的数据源,并大大提升了信息密度,可以容纳结构化、半结构化甚至是非结构化的数据;数据可以是各种格式,比如文本、音频、视频。
如一汪湖泊就是一个生态。数据湖的优势在于其对数据的范式没有太严苛的要求,可以保留大量的原始数据,对于真正“跑”在数据上的企业来说做到了“高保真”。同时,数据湖存储、处理、分析数据的基础设施是可以不断拓展的,这也极大降低了存储成本。数据湖对数据不加严格规范,也造成了数据质量、可用性等问题较为突出,这一点又将人们的目光转向了数据仓。
在21世纪的第二个十年,数据湖和数据仓的争议一直未停止。短期看来,数据湖的可扩展性,适合目前业务端突飞猛进的数据环境;长期看来,数据仓的规范性利于后端数据运维,实现企业价值的沉淀。数据湖和数据仓的争议,可大致视为数据扩展性和可用性之争。
近年来,产业数字化进程带来了数据场景大爆发,使得湖仓之争最终走向统一:既然数据湖和数据仓都有各自的优点,那么取长补短就是了。可以设计一种范式,拥有数据湖的低成本存储和可扩展优点,又有数据仓的规范性,就像在湖边建水产仓库,需要的时候从湖里提取、就地分类加工。湖仓一体,正是客观环境催生的产物。
IT分布式运维是大数据“湖仓一体”最直接的着陆点
湖仓一体的数据存储结构思路,引发了数据存储革命的浪潮,IT运维首当其冲。
IT运维的数字化升级,标志着对数据划时代的运用,让数据“从幕后走到台前”。在运维过程中,数据源变得多样化、巨量化。企业需要迈入大数据门槛,优先要考虑的,就是数据对IT运维的划时代影响。对于企业来说,数据的可扩展性、可用性要求双双提升,数据将成为直接的生产资料,而非评估生产的辅助标准。
数据源的丰富,带来数据量和数据场景的双重爆发。数据产生于基础设施,伴生而来的IT运维面临两个显著问题:
1、数据直接反映系统的健康状况,成为决策者的直接参考,其类型和范式都面临巨大增长;
2、数据采集由离散变为连续,由被动采集变成了主动采集、留存、分析,数据量产生了指数级飞跃。
对于企业来说,下一个时代的IT运维,是在深入与数据打交道。数据成为了名副其实的生产资料,运维标准、运维思路足以决定企业在数字化的路上是原地踏步,还是大踏步前进。
相较于之前流于数据湖、数据仓的争议,IT运维遇到的数据问题则现实得多:IOT时代企业的IT环境,要求既要拥有数据湖的兼容和可扩展性,又要具备数据仓的可用性。湖仓一体的架构思路,自然成为了企业构建IT运维大数据栈的必选项。
目前市面提供的IT运维基础设施方案,普遍落后于生产力需求,难以促成真正的数据化布局。市面上对IT运维解决方案的升级,仅,于部署单机、局域网式、小规模的监控运维产品,尽管多有推陈出新,却同样是“数据仓”思维的延续,毕竟过去面向主营业务这一主题设计数据仓,数据类型和数据数量都在可控范围。
如今,随着数据来源复杂化,企业若想沿袭数据仓的形式,数据仓就只能设计得更加臃肿,数据孤岛更加严重,企业将不得不以扩大运维投入的手法来收获增长。
另一方面,产业升级的趋势、产能扩大的客观需求,让企业的IT基础设施高度离散;在生产效率、多端业务协同、一体化管理上却产生了更高的要求。这些要求,仅能通过IT基础设施分布式运维解决。在数据结构层面,“湖仓一体”思路自然成为IT分布式运维的必答题。
监控易IT基础设施分布式运维,为“湖仓一体”写下注脚
企业应用传统的单机式、局域网式的运维产品,投入巨大、管理混乱尚在其次;开拓新业务即搭建新的数据体系的做法,只会让企业陷入数据仓的无穷增补中,在数字化的大门面前举步维艰。
美信时代的监控易,准确切入了大数据时代企业构建“湖仓一体”IT运维体系的客观需求,对IT基础设施实现分布式运维。
首先,监控易内置了自研的BigRiver四合一超融合数据库。
BigRiver四合一超融合数据库最初专为网管数据研发而成,采用超融合策略,为用户提供集成“消息队列”、“Key-Value树状数据库”、“关系型表状数据库”、“内存数据库”和“高性能时序数据库”为一体的超融合数据库存储。这让BigRiver数据库具备了数据湖的一些基本特征,囊括主流数据类型的特性让数据库具备相当的兼容性,消除数据孤岛。辅以高压缩算法,显著提升数据库的泛用性和读写效率,夯实IT分布式运维基础。BigRiver数据库还具备出色的事务管理机制,保证数据的一致性和完整性,对数据质量的重视,也具备数据仓的严谨。
除了对基础设施友好,BigRiver数据库还提供了丰富多元的操作接口,包括“标准SQL接口”、“自有BSAPI接口”和“Grafana展示接口”,便于用户的使用、查询和展示,赋予数据可视化属性,更便于运维人员介入。
其次,监控易的,控制台可以轻易实现一体化资源配置。
消除数据孤岛、洞察一切分布式IT基础设施,对于监控易仅仅是“基本操作”。监控易采用“云边端一体化”架构,可通过架构的核心——,控制台进行协调、管理、分配众多的任务管理器和实时数据库,调动云管理中的各项功能模块,实现一体化资源调配。
做到这些尚且不能算完全实现了IT分布式运维。
第三,监控易还拥有具体到监控终端(TS)的长臂管辖能力。监控易系统采用底层分布式架构,各地数据中心或机房皆可实现一体化运维。终端自带高性能数据库,设备指标的采集在监控终端完成,仅将监控数据和告警信息上传,控制台,节省了带宽,在集中管理平台上呈现关键信息。如监测任务负载过高,TS监测服务器还会自动调节监测任务量,实现监控终端分布式管理、一体化运维的“壮举”。
通过三大核心组件,监控易在IT基础设施领域,实现了分布式运维,打破了传统依赖单机版进行局域网、小规模网络运维的模式,构建了为TOP3000规模级别的头部企业打造分布式一体化运维平台的实力,也彻底贯彻了数据库的湖仓一体。目前,监控易已应用于政府、军工、金融、电力、石油石化、交通、医疗等多个领域,纳管设备超百万台。
数据领域对数据井喷时代的探索,挖掘出“湖仓一体”这个成果,将会极大影响未来的数字世界。“湖仓一体”今后将在各个领域得到印证;在IT运维领域,监控易实现IT分布式运维,就是对湖仓一体最有力的注脚。它成功证明了在科学合理的架构下,庞大的、分布式的IT基础设施,可以实现数据的“生产资料化”,赋能企业数字化进程。