《CUDA 加速下的九分量互相关算法在地震背景噪声信号处理中应用》论文提出的基于CUDA加速的九分量互相关算法,主要用于地震信号处理领域。然而,其高效的并行计算能力和对复杂数据的处理优势,使其在石油行业的地震勘探和储层监测中具有潜在的应用价值。
1. 地震勘探数据处理:
石油勘探过程中,地震数据的处理和分析是关键环节。传统的CPU计算方法在处理大规模地震数据时可能存在效率瓶颈。 采用CUDA加速的九分量互相关算法,可以通过GPU的并行计算能力,显著提高地震数据处理的速度和效率。
2. 储层监测与成像:
高效的地震数据处理有助于更精确地提取地下结构信息。通过加速的互相关算法,可以更清晰地识别地层特征,提升地震成像的分辨率和准确性。 这对于石油勘探中的储层识别和评估至关重要。
3. 计算成本与效率:
GPU的高性能计算能力使得在相同时间内处理更多的数据成为可能。这不仅提高了工作效率,还可能降低计算资源的消耗和成本。 对于需要处理大量地震数据的石油公司而言,具有重要的经济意义。
4. 支持复杂的地震反演和建模:
石油勘探中,地震反演和建模是理解地下结构的关键技术。加速的九分量互相关算法可以处理更复杂的地震数据,支持更精细的反演和建模工作。这有助于提高储层描述的精度和可靠性。
5. 促进技术创新和应用:
将CUDA加速技术应用于地震信号处理,展示了高性能计算在地球物理领域的潜力。 石油行业可以借鉴这一经验,探索更多高性能计算技术在勘探和开发中的应用,推动技术创新。
综上所述,《CUDA 加速下的九分量互相关算法在地震背景噪声信号处理中应用》论文为石油行业提供了在地震数据处理、成像、建模等方面的技术借鉴,有助于提升勘探效率和精度,降低成本,促进技术进步。
该研究通过并行计算,有效地缩短了处理时间,为地震学研究提供了新的技术路径。其方法不仅具有较高的计算效率,还在实际应用中取得了显著成果。其高效的信号处理能力为润滑油行业的性能评估和质量控制提供了潜在的技术参考。中国润滑油信息网转载此文,旨在为润滑油行业的科研人员和工程师提供先进的信号处理技术参考,促进跨领域的技术交流与合作。
我们期待该研究成果的推广能为润滑油行业的优化性能测试、模拟工况分析、质量检测与监控、设备故障诊断与预测、 产品研发与创新等方面提供新的思路和方法。
1 背景与动机
大洋风暴翻腾不息,掀起汹涌海浪。这些海浪产生的微弱信号,远在陆地的地震台也能听到。从上世纪中叶起,科学家们便开始关注这些几乎被湮没在地震图中的背景噪声;新世纪以来,噪声成像方法逐渐被广泛应用,乃至成为一种常规手段,为我们更加全面地探测地球内部打开了新视角。
海浪激发地脉动信号示意图。风暴激起的海浪将力作用于海底和海岸,通过固体地球将信号传递到远处陆地上的观测台阵 (Prieto, 2012)
与依赖天然地震或主动震源的研究方法相比,噪声地震学使用截然不同的信号源。地震背景噪声(Ambient Noise) 几乎在地球上无时无刻不在发生,它源自海浪、微震、各种环境振动及人类活动等。
通过对不同台站的噪声进行互相关处理,我们能从嘈杂信号中提取出两个台站之间的经验格林函数(Empirical Green’s function) ,对应台站之间地下介质对脉冲信号的响应。
这一技术不仅可应用于地球内部结构的成像,还能用于监测局部区域的速度变化、应力场演化等,为我们揭示地球内部的演化过程。
地震仪通常在三个方向上记录地震动信号,包括东西(E-W),南北(N-S)和垂直方向(U-D),当我们对两个台站的三分量信号进行互相关时,就会得到九分量互相关函数。不同分量的互相关函数里,蕴含了不同类型变形信息:
Z-Z(垂直-垂直分量)常常含有丰富的瑞利波,用于分析地下SV波速度结构和方位各向异性。
T-T分量(垂直于台站连线的水平分量)则包含丰富的勒夫波,可用于反演SH波速度结构。勒夫波和瑞利波的频散曲线可联合揭示地下介质的径向各向异性。
这些信息帮助我们认识地下结构的三维空间变化和介质的变形特征,也为后续成像与监测研究带来更多可能。
然而,面对日益增多的台站与不断延长的观测时长,如何快速高效地完成庞大的九分量互相关计算,成了一个亟待解决的关键问题。
2 海量计算挑战
海量计算规模是九分量互相关计算面临的第一个挑战,也是最基本的挑战。
当台站数量为 N 时,每两台站之间都要做互相关,参与计算的台站对总数达到 N×(N−1)/2。而每对台站的三分量又需与另一台站的三分量逐一互相关,计算量随之增加 9 倍。更何况,这些互相关往往要对连续波形记录开展,动辄几个月甚至几年的数据累积,体量之大令人咋舌。
在如此庞大的数据规模下,即使是CPU 多核并行计算方案 也往往需要漫长的计算时间。有的团队会将数据打包上传到云端或分布式集群,虽然能将运算负载分担到各个节点上,但昂贵的费用和网络传输瓶颈也随之而来。
于是,更具灵活性的方案——CPU-GPU 异构并行计算开始受到关注。通过CPU-GPU异构计算,我们能在一台装载一张或多张GPU设备的工作站上,处理海量九分量互相关数据,显著缩短计算周期。这为大规模背景噪声研究扫清了关键障碍。
接下来,我们将具体探讨GPU 加速在九分量互相关中的原理与实现。
3 CUDA计算技术
可以打一个简单的比方:
CPU 就像手艺高超但人数有限的专家团队,能独立完成各种精巧操作,却难以同时处理海量重复性工作。
GPU 则像由成百上千名普通工匠组成的大军,虽然每位工匠只能干相对简单的活儿,却能齐头并进、同时出力。
CPU:少量强大的核心,适合复杂、单线程任务,如逻辑计算、系统管理。GPU:海量小核心,适合并行计算、批量处理,如图像渲染、深度学习。本图由 GPT 使用DALL·E 自动生成,直观展示CPU 和GPU 的工作模式差异。
CUDA (Compute Unified Device Architecture)是NVIDIA 推出的开发环境,能够让研究者轻松指挥这支 GPU 大军。
对于地震学从业者来说,在CUDA的助力下,只要把适合并行的那部分算法(如 FFT、卷积或互相关)包装好,调用合适的函数或库,就能充分释放 GPU 的算力。
为什么地震学格外适合 GPU 加速?
因为在许多场景中(如互相关、卷积、数值积分、有限差分模拟),我们需要进行成千上万次类似的运算。这些操作都有一个共同点:可将大块数据拆分成无数小任务,再并行派给 GPU 核心处理。如此一来,以往在 CPU 环境下可能需要数天甚至更久的计算,借助 GPU 通常能在数小时甚至更短时间内完成,大大提升研究与应用效率。
4 预处理和叠加:提升NCF信噪比的关键
要真正从背景噪声中挖掘出有用信号,互相关之前,往往少不了预处理。
为什么要预处理?因为我们收集到的连续记录里,既有微震、海潮、风浪带来的随机振动,也可能混进高能强震或其他非背景事件(例如PL源,Persist and Localized Source, 固定位置持续发出固定频率信号的噪声源)。如果不及时抑制这些无关干扰,互相关结果中就可能出现显著的无物理意义的信号。
常见的预处理方式包括时间域归一化(如one-bit、滑动窗平均归一化)和频域谱白化(frequency-domain whitening)。
它们的主要思路是在时间和频率两个维度上将噪声均衡化,避免特定时段或频带能量过于集中,从而干扰后续互相关的结果。在我们的工作中,我们进一步引入了分频带滑动窗时间域归一化(Multi-band running absolute time domain normalization)(Zhang et al., 2018),进一步提升了目标信号的信噪比。
(a)使用不同预处理手段对噪声信号进行预处理后得到的互相关函数。 (b)使用分频带滑动窗时间域归一化+谱白化;(c)谱白化+不分频带的滑动窗时间域归一化
那么,获得互相关函数之后,该怎么进一步通过叠加提升互相关函数中主要信号的信噪比(SNR)呢?最简单的线性叠加并不能总是抑制噪声。根据高斯噪声的特性,信噪比与线性叠加数量的平方根成正比。
这时就需要效率更高的相位加权叠加(Phase-Weighted Stacking,PWS)和时频相位加权叠加(tf-PWS) (Schimmel et al. 1997; Schimmel et al., 2011)出马了:
·PWS 通过捕捉不同时段互相关结果在相位上的一致性来赋予权重,从而抑制相位紊乱的噪声;
·tf-PWS 更进一步,将相位加权操作延伸到时-频域,不同频率成分在不同时间段都能得到“个性化”加权,进而让信噪比获得更全面的提升。
不同叠加方法的互相关函数结果,测试数据为日本Hi-net,(a)中黑色三角形为测试台站。
值得一提的是,在我们的计算框架里,预处理和高级叠加算法也借由CUDA实现了并行加速。对高信噪比处理技术的高性能优化,为我们带来更加优质、高效、干净和丰富的互相关结果。
5 我们的解决方案
在此前提及的预处理与叠加技术基础上,我们搭建了一套 CPU+GPU 异构计算框架,以兼顾灵活性与高效性。
通过这种CPU负责管理调度(以及不多的数据处理)、GPU 专注数值并行的模式,重复性最强、计算量最大的互相关和信号处理环节可以在 GPU 上获得显著加速,而CPU 则更好地承担文件读写与流程管理任务,最大化整体效率。
速度对比:CPU并行 vs. CPU-GPU异构
为验证加速效果,我们选取了305个三分量台站连续92天的噪声记录作为测试数据,数据采样率为10Hz,数据规模为243GB。
若仅用CPU并行方案(在我们的实验中使用了60个核心),一次完整的九分量互相关往往需要几天甚至数周;而在 CPU-GPU 并行方案下,通过合理的显存管理与算法设计,运算时间可显著缩短至不到一天,加速比达到176。
结果检验
架构设计为了让研究者在实际操作中更加便捷高效,我们对CPU 端与GPU 端做了明确分工,并通过多任务队列来调度多张显卡:
CPU 端任务
SAC 文件匹配:借助正则表达式快速筛选所需地震记录,极大地方便用户导入数据。
滤波器设计:在此阶段灵活定义滤波参数,为后续 GPU 大规模并行处理做准备。
多卡调度:使用 ThreadPoolExecutor(源自concurrent.futures)管理多任务队列,将数据批次动态分配给多张GPU,充分利用硬件资源。
GPU 端任务
并行滤波、谱白化与时间域归一化:在 GPU 上完成大量重复性预处理操作,大幅降低传统 CPU 串行或小规模并行方式下的时间损耗。
自适应批次(Adaptive Batch Size)互相关:根据数据规模自动调整批次大小来做互相关,既充分利用显存,又适应小规模及超大规模数据的处理需求。
PWS/tf-PWS 叠加框架:在 GPU 上直接调用高阶叠加算法(PWS、tf-PWS),让原本耗时巨大的信号增强流程也能顺畅融入常规化处理。
两种对连续波形数据进大规模互相关分批处理的手段。(a) 优先处理同一时段所有台站对的数据,(b) 优先处理单一台站对所有时间段的数据。两种方法都可以根据GPU内存能力进行自动化分批处理。
在这样一套架构下,CPU主要负责数据组织与任务调度,GPU 则专攻计算密集型环节,从而达成最大化整体效率的目标。对用户而言,无需深度掌握 GPU 的底层指令或编程逻辑,只要准备好 SAC 数据、指定必要参数,系统便可自动完成从预处理到九分量互相关及后续叠加的一系列操作——既易用又高效。
此外,这种设计在动辄数百GB乃至更大规模的背景噪声数据处理中尤为实用。以往,单机 CPU 可能算力吃紧,或者要耗费大量时间排队云端和超算资源。现在,通过一台带显卡的服务器,就能轻松完成海量九分量互相关与叠加处理,为后续的地震学成像和监测研究提供强力支撑。
通过以上方法与成果,我们成功突破了九分量互相关在大规模数据下的运算瓶颈,也让高阶叠加算法(PWS、tf-PWS)的计算效率大幅提升。
6 总结
在大数据时代,密集台阵对与长时间观测的传统 CPU 难以招架背景噪声互相关计算;而GPU 并行的出现,为我们提供了一个灵活、高效并且更具性价比的解决思路。
当然,要想真正发挥GPU 并行的威力,还需要在程序设计和算法层面进行不断优化。像减少 CPU 与GPU 之间的频繁数据传输、合理安排数据块大小和巧用 GPU 共享内存等技巧,都能显著提升最终的加速效果。
展望未来,这种GPU 并行 + 先进算法 的思路并不限于九分量互相关。
任何具有大量可并行操作的数值流程都能从 GPU 算力中受益。在学术研究和生产实践里,我们也能在更短时间内完成更多迭代与更复杂的实验,获取更细致的结果。
更为重要的是,相比堆叠更多 CPU 核心或依赖大规模集群,单台 GPU 工作站往往能在单位能耗下获得更高的计算吞吐量,既节省成本(根据Google Cloud的报价推算,使用CPU-GPU异构计算的成本是使用纯粹CPU并行架构的1/50),也更加绿色环保。
我们相信,在不远的将来,经过CUDA加速并装载了更高级叠加方法的九分量互相关计算程序,将会逐渐成为背景噪声研究中的常规配置,帮助研究者高效处理海量数据、提炼更多细节,迈向更深更广的未知领域。
声明和致谢:
本程序最初由中国地震局地球物理研究所王伟涛老师委托中国科学技术大学网络和信息中心的孙广中、吴超老师团队开发完成。最初的单分量版本加速代码的相关论文已发表在在DOI: 10.1109/paap56126.2022.10010612。
后续的改进(包括预处理方法、批处理和多卡适配、高级叠加算法加速以及九分量扩展等)由本文作者中国科学技术大学博士研究生王景熙完成,相关成果已发表在High-performance CPU-GPU Heterogeneous Computing Method for 9-Component Ambient Noise Cross-correlation, Earthquake Research Advances, https://doi.org/10.1016/j.eqrea.2024.100357,
阅读原文:
本程序已在https://github.com/wangkingh/FastXC上开源。
本文的测试数据来自日本精度密集台网Hi-net以及中国科学技术大学姚华建老师课题组。程序已通过多套数据集的校验测试,效果优异,能够完成不同尺度的数据规模的计算。相关程序,特别是经过加速的高级叠加算法,已成功应用于示范矿区成像、断裂带成像、区域结构成像等实验。
欢迎大家使用我们的程序并引用我们的论文,也欢迎大家提出各种建议和意见!同时,再次感谢在程序测试过程中各单位伙伴们的信任与支持!
参考文献:
1. Wang, J., et al., High-performance CPU-GPU Heterogeneous Computing Method for 9-Component Ambient Noise Cross-correlation. Earthquake Research Advances, 2025: p. 100357.
2. Prieto, G.A., Imaging the Deep Earth. Science, 2012. 338(6110): p. 1037-1038.
3. Schimmel, M. and H. Paulssen, Noise reduction and detection of weak, coherent signals through phase-weighted stacks. Geophysical Journal International, 1997. 130(2): p. 497-505.
4. Schimmel, M., E. Stutzmann, and J. Gallart, Using instantaneous phase coherence for signal extraction from ambient noise data at a local to a global scale. Geophysical Journal International, 2011. 184(1): p. 494-506.
5. Wu, C., et al., An Efficient Ambient Noise Cross-Correlation Algorithm on Heterogeneous CPU-GPU Cluster. 2022 IEEE 13th International Symposium on Parallel Architectures, Algorithms and Programming (PAAP), 2022: p. 1-5.
6. Zhang, Y., et al., 3-D Crustal Shear-Wave Velocity Structure of the Taiwan Strait and Fujian, SE China, Revealed by Ambient Noise Tomography. Journal of Geophysical Research: Solid Earth, 2018. 123(9): p. 8016-8031.
文章来源:ERA期刊/地震学科普
友情提醒 |
本信息真实性未经中国工程机械信息网证实,仅供您参考。未经许可,请勿转载。已经本网授权使用的,应在授权范围内使用,并注明“来源:中国工程机械信息网”。 |
特别注意 |
本网部分文章转载自其它媒体,转载目的在于传递更多行业信息,并不代表本网赞同其观点和对其真实性负责。在本网论坛上发表言论者,文责自负,本网有权在网站内转载或引用,论坛的言论不代表本网观点。本网所提供的信息,如需使用,请与原作者联系,版权归原作者所有。如果涉及版权需要同本网联系的,请在15日内进行。 |