数智物探进入“深水区”: 全闪分布式存储如何应对数据洪流?
“历史亿万年、地下上万米”——这不是文艺作品的浪漫叙事,而是油气勘探行业面临的真实境遇。如何穿越时空的迷雾,觅得隐于深处的宝藏,素来殊非易事。
在相当长一段时间里,寻找油气资源主要依赖“经验驱动”,地质学家通过查看地层构造来推测“这里曾经是不是海洋”;如今,借助海量数据的采集与分析,油气勘探已进入“数据驱动”的新阶段,找到万米深层富集的油气储存不再是天方夜谭。
不难看出,与诸多传统行业类似,油气勘探也在经历“重做一遍”的洗礼,迈向“数智物探”是必由之路:基于数字孪生、大数据、人工智能、物联网、5G通信等先进技术的加持,通过实时数据采集和智能化处理,以及可视化指挥前后方增速提效,传统的勘探模式已渐行渐远,“数智物探”大行其道的新时代疾驰而至。
在新时代的话语体系中,数据无疑扮演着举足轻重的角色。用数据说话、用数据决策、用数据管理、用数据创新,用数据换效率……这些不是口号,而是扎实的行动,且正逐步转化为真金白银的收益。
然而,数智物探对数据的高度依赖也必然带来前所未有的挑战。一方面,高价值数据呈指数级激增,对存储的性能、容量、能耗等指标均提出更高要求,全闪分布式存储被寄予厚望;另一方面,大规模使用SSD等先进存储还需要考虑成本因素,打破性能、容量和可负担的“不可能三角”,离不开行业领头羊的率先垂范与产业链的协同突围。
探秘数智物探“深水区”的数据洪流
作为国内数智物探的开路先锋,中国石化石油物探技术研究院(下简称物探院)是油气勘探模式转型的见证者与践行者。对于数智化“深水区”数据洪流的形成原因及应对方法,物探院颇有心得。
中国石化石油物探技术研究院信息中心副经理曹永生
中国石化石油物探技术研究院信息中心副经理曹永生认为,油气勘探相当于“给地球做CT”,透过影像及相关数据找到破解难题的线索。从数据采集环节来看,宽频宽方位高密度采集技术的使用,可控震源的引进,再加上越来越复杂的地下地质构造,使得采集数据规模相对传统炸药震源呈现指数级的增长。
据了解,十年前勘探一个区块大概可以采集10TB规模数据,现在常见的规模达到40~50TB,有些区域上百TB甚至达到PB级。在一年时间里如果同时运行三四十个工区,其产生的数据规模带来的巨大冲击可想而知,做到“存得下”并不容易。
事实上,数据采集只是万里长征的第一步,数据采回后还要进行地震数据处理,需要对原始数据经过专业物探方法处理后生成新的数据,整个地震处理过程中会产生近10倍于原始数据的临时数据。早在上世纪六七十年代即已提出过物探的专业方法,但当时的高性能算力不足以支撑过于高端复杂技术方法需的计算量,只能作为理论方法活跃在学术科研领域,直到大规模集群、GPU并计算技术的飞速发展,使得物探处理方法能应用于地震数据处理环节。数据处理环节需要反复迭代计算,每一次迭代会产生几十T数据,对于这些数据从数据存储中如何高效地加载到计算机内存中,对高性能存储I/O访问速度乃至整个IT基础设施的数据传输能力都提出了更高的要求。
尤值一提的是,国内的很多油层埋藏在5000米甚至万米以下,这意味着采集难度更大,为提高物探质量、减低成本,需采集更多的数据支撑后续工作,这也意味着高精度成像的难度更大,导致的后果就是数据量和计算量也会大幅飙升。显而易见,当油气勘探不断突破深水、深地等深度下限,地质复杂多变将使算法更复杂、计算周期更长,存储性能从百GB提升到TB/s逐渐成为“刚需”,而存储架构及数智化平台的全面升级需求愈发迫在眉睫。
探索数据全生命周期管理的最佳路径
如果将油气勘探看作一个系统工程,那么“物探”则是其中技术含量最高、弹性空间最大的关键环节,堪称智慧油气田建设的重要支点。
从这个意义上讲,“数智物探”具有纲举目张的作用,必须承担起化解数据洪流的重任——如何在“存得下”的基础上让数据“流得动,算的快”,实现全生命周期的数据管理,是物探院致力于破解的首要课题。
打造基于Hadoop大数据技术体系的大型处理软件平台,既是物探院“十年磨一剑”的核心成果,也是其探索数智化转型路径的重要一步。这个平台具备PB级数据(包括单体百TB级)的管理能力,在特定的发展阶段确实有助于缓解数据存储与管理的压力。
伴随数智物探向纵深挺进,AI技术也被应用于数据的提取与处理。过去,十几个人要花几个月时间才能完成裂缝数据提取,如今借助AI实现自动计算,效率得到显著改善。当然,裂缝精度从30米提高到15米,计算量也水涨船高,迭代过程中还会产生新的数据体,对存储架构及平台能力的要求明显高出不止一个档次。
再叠加前面提到的油气勘探不断开疆扩土,作业范围从陆地拓展到海上,数据采集难度更大,数据规模也迈上更高台阶。对物探院而言,要想把PB级数据管好用好,应对级别更高的数据洪流,必须对既有的存储平台技术架构再做升级。
值得深思的是,Hadoop存算一体架构可以在廉价的集群上同时解决计算与存储的问题,但在计算集群规模一定的情况下,当数据体量飙升至更高的层次,存储能力很可能达到极限——如果要“装得下”这些数据,则需要连同计算同步扩容,这可能会衍生计算能力的过剩问题。存算分离的业务需求由此摆在了科研开发人员面前,物探院选择与华为联合开展技术攻关,用两年半时间解决了这个业务痛点。Hadoop分布式技术存储方案摆脱了平台受限于本地hdfs的桎梏,不仅能让海量数据“放进来”,而且对勘探效率以及运维管理水平的提升起到了不可或缺的作用。
全闪分布式存储是打破“不可能三角”的终极利器
站在更长远的视角,由于先进存储SSD在高性能、大容量和绿色环保等维度均有出色表现,全闪分布式存储解决方案有望成为数智物探的坚实底座。
当然,这个进化过程并非一蹴而就,采购成本过高依然是横亘其间的主要障碍。相关统计显示,传统HDD存储所需空间与能耗是SSD的30倍,而当前SSD成本仍为HDD的3至5倍。虽然物探领域的很多客户非常看好SSD的应用效果,但出于经济层面的考虑,只能“好钢用在刀刃上”,主要在数据加速层采用SSD,底层的数据存放还是用传统存储。
不容回避的是,遭遇性能、容量和可负担的“不可能三角”,是很多创新技术“成长的烦恼”,而打破困局的最好方式就是尽快达到客户期望的“甜点区”。SSD借助技术创新正朝着这一目标迈进:一方面,在SSD优异性能的加持下,存储层的数据缩减比可达3:1甚至更高,将显著缩小单位数据存储成本与HDD之间的差距;另一方面,SSD单盘容量的增长速度大幅超越HDD,到2026年其单盘容量可达300TB,远超HDD42TB的水平。
从油气勘探全生命周期数据管理的角度看,尽管SSD在采购阶段的成本较高,但综合评估能耗、维护、升级等总体拥有成本,全闪分布式存储解决方案的“长期性价比”优势就凸现出来。根据相关研究,基于典型机房空间租赁、功耗费用的评估,同等规模下采用SSD的5年总体运营支出(OPEX)将降低70%~80%,使得二者在5年TCO上实现持平。
远眺未来,在整个产业链协同创新的背景下,存储介质的进化已跨过关键节点,面向混合负载的全闪存分布式存储有望成为客户的最佳选择。全闪分布式存储将让“不可能三角”变成“最强铁三角”,使海量数据资产应存尽存,助力油气勘探开发提质增效,驱动“数智物探”迈向崭新的境界。