| Issue |
JNWPU
Volume 43, Number 4, August 2025
|
|
|---|---|---|
| Page(s) | 784 - 793 | |
| DOI | https://doi.org/10.1051/jnwpu/20254340784 | |
| Published online | 08 October 2025 | |
The intelligent classification method of aircraft cockpit sound based on deep learning
基于深度学习的飞机舱音智能分类方法
1
Engineering Technology Training Center, Civil Aviation University of China, Tianjin 300300, China
2
College of Electronic Information and Automation, Civil Aviation University of China, Tianjin 300300, China
Received:
9
September
2024
The critical background sounds in the cockpit provide important evidence for flight monitoring evaluations and accident investigations. Regarding the high complexity and large data requirements of cockpit voice recorder(CVR) audio recognition, the issue of identifying low-frequency transient background sounds is particularly challenging, along with the interference caused by engine noise, an intelligent classification method of CVR background sounds based on deep learning is paper proposed. A dataset of 10 types of CVR background sounds was established, with acoustic features extracted by using three spectrogram methods, and a time-delay neural network model was built. Context-aware masking modules were used to reduce the impact of noise on operational sounds, while the front-end convolution module captured low-frequency transient signals. This study optimized a hybrid convolutional and time-delay neural network model, TDNN-CF. The improved model achieved a classification accuracy of 98.90%, representing increases of 13.04 and 2.99 percentage points comparing with the traditional CNN and TDNN models, respectively. Additionally, comparing with the classic machine learning algorithms like decision trees, random forests, and K-nearest neighbors(KNN), accuracy improved by 18.07, 15.62, and 14.55 percentage points, respectively. Experimental results show that the present method efficiently classifies CVR audio.
摘要
飞机舱音的关键背景声为航空器飞行监控评估与事故调查分析提供了重要的依据。针对驾驶舱话音记录器(CVR)音频识别的高专业性和数据密集型特征、低频瞬时背景声识别难度高以及发动机噪声干扰的问题, 提出了一种基于深度学习的CVR背景声智能分类方法。该方法以十类CVR背景声建立数据集; 采用3种特征谱图提取声学特征, 并搭建时延神经网络模型; 利用上下文掩蔽模块降低噪声对开关和操作声音的影响, 使用前端卷积模块捕捉低频瞬时声信号, 进而优化出卷积神经和时延神经的混合模型TDNN-CF。改进后模型的CVR音频分类准确率达到98.90%, 相较于传统的卷积神经网络和时延神经网络模型, 其准确率分别提升了13.04和2.99个百分点。此外, 与决策树、随机森林和K近邻等经典机器学习算法相比, 准确率分别提升了18.07, 15.62和14.55个百分点。实验结果表明, 所提方法实现了CVR音频的高效分类。
Key words: cockpit voice recorder / sound classification / characteristic spectrum / time delay neural network / context-aware masking
关键字 : 驾驶舱话音记录器 / 声音分类 / 特征谱图 / 时延神经网络 / 上下文掩蔽模块
© 2025 Journal of Northwestern Polytechnical University. All rights reserved.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (https://creativecommons.org/licenses/by/4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
飞机舱音即飞机运行时驾驶舱的声音, 为飞行监控评估、事故和事故征候调查分析提供重要依据和音频信息。通过舱音不仅能够判断机组人员的操纵、意识、决断、生理、心理等状态, 还可以辨别发动机转速变化、系统故障警告、飞行速度变化等事件发生, 分析航空器状态及所处环境[1]。驾驶舱话音记录器(cockpit voice recorder, CVR)是目前主流飞机实时记录关键飞行阶段舱音的机载航电设备。CVR有4个独立的音频通道, 包括机长、副驾驶和第一观察员的麦克风和耳机通道, 以及驾驶舱中话音记录器面板上的区域麦克风通道。麦克风和耳机通道采集和存储驾驶舱内机组人员之间、机组人员与地面空管人员的双向通话语音; 区域麦克风通道采集和存储驾驶舱其他背景声音, 包括发动机和飞机电子电气等系统运行、音响警告、部件操纵等声音[2]。但是, 由于可靠性设计要求, 音频信号需经压缩和转换后存储至CVR, 解析出的语音质量不高, 需要具有丰富经验的维修工程师人工辨别和筛选。随着我国民航飞机数量和飞行总量的快速增长, CVR的声音分析技术急需提高。然而, CVR语音分析过程复杂、专业性较强、数据量大, 许多重要的背景声音信息仅凭人耳无法辨别。因此, 国内外学者采取了各种分析方法和技术手段, 以识别CVR背景声数据的种类和其中所蕴含的重要信息。
2004年, Hsiao等[3]使用综合信号处理技术识别单个声源, 利用反向传播神经网络从CVR混合信号分离和识别不同的声源。2006年, 程道来等[4]运用小波变换识别CVR声音信息, 为舱音识别打开了新思路。2007年, Lin等[5]提出了一种基于波束的CVR搜索方法。2014年, 杨恒等[6]提出了一种基于独立成分分析的舱音信号分离方法, 实现了多种舱音的盲源分离。2023年, 吴峰等[7]针对航空公司话音记录器数据下载及译码等工作现状, 开展了在翼下载及译码工作新方式的可行性研究。2024年, Puigt等[8]发现多个盲源分离(BSS)输出有助于转录CVR数据。上述方法从不同的角度提取和分析CVR背景声音, 但均存在操作复杂、分析能力不足的问题。
近年来, 深度学习在声音识别领域的应用已经取得了显著成果。深度学习通过神经网络学习数据特征, 并从中捕捉抽象特征, 提高了声音识别系统的分析能力。基于深度学习的声音识别技术被广泛应用于语音助手、智能家居、汽车控制系统和医疗保健等领域[9–11]。在声音事件识别方面, Mushtaq等[12]提出一种数据增强功能的深度卷积神经网络(DCNN), 在环境声音分类问题上取得了最佳性能。赵东豪等[13]提出了一种基于改进的瀑布声谱图卷积神经网络的变压器声信号识别模型, 使用特征声谱图进行变压器的状态监测和故障诊断。Hu等[14]使用鸟鸣声特征进行鸟类物种的分类识别。
本文提出了一种基于深度神经网络的CVR背景声音智能分类方法。探究不同语音特征提取对模型的影响, 搭建分类神经网络模型并针对关键问题对其进行改进, 获得CVR背景声自动识别的解决方案。
1 CVR背景声特性
驾驶舱中的环境背景声类别复杂, 各种不同的敏感声代表不同的声事件。本文将研究的10种声音分为操作声音、警告声音和开关声音3类。
1.1 时域特征
每种背景声都有各自的声音特征。抖杆器抖动声是低频连续振动声,随着抖动强度变化;风切变警告是合成语音提示;俯仰配平轮操作声是低频齿轮转动声,随着操作速度变化;火警警告是急促的高频警报声;航向选择旋钮是短促的按键声,随着旋转速度变化;襟翼手柄滑动声是低频摩擦声,伴有手柄进入档位时的短促“咔嗒”声;马赫警告是高频蜂鸣声;起飞复飞电门是中低频的短促“咔嗒”声,持续时间短;飞行刹车释放声是高频短促的金属撞击声;头顶板两位拨动开关是机械开关声,声音短促且具有机械感。
警告声具有较长的持续时间, 表现出较长的时间相关性。在时域分析中, 警告声会产生连续性较强的波形。警告声被设计成在驾驶舱的噪声环境中能被迅速识别, 具有高频和显著性, 确保飞行员能立即注意到。操作和开关声音往往是短促和瞬时的, 时域特征显示为短时间的脉冲, 时间上变化较快, 持续时间较短,更多是为确认操作, 而非紧急提醒。
1.2 频率特征
每种不同背景声的频率特征有所差异, 频率范围[15]如表 1所示。操作和开关声音的频率范围较窄, 多集中在低频到中频。特征提取时, 显示出较平稳和连续的频率成分, 具有较少的频率跳跃。而警告声音具有高频和复杂的波形, 包含尖锐的音调变化。频率特征会显示更多的高频成分和复杂的频谱图形。背景噪声的频率与操作和开关声音的频率范围相似, 因此背景噪声对操作和开关声音的识别影响较大。
驾驶舱敏感声频率范围表
2 深度学习方法
2.1 特征提取方法
CVR背景声的一维波形数据具有很大的数据量, 且对于频域特征不够敏感。特征谱图将原始声音信号转换为二维语谱图, 能够展示声音在不同频率上的能量分布。为了处理短促且频率范围较窄的开关和操作声音, 模型需要更高分辨率的输入特征以捕捉瞬时变化。因此本文选取语谱图(spectrogram)、FBank(fiterbank)和MFCC(mel-frequency cepstral coefficients)这3种高分辨率的二维特征谱图作为输入特征, 其特征提取流程图如图 1所示。
将输入的原始信号进行预处理、分帧和加窗。再进行快速傅里叶变换, 使时域信号转换为频域信号, 得到的结果即为每一帧的频谱, 将频域信号的幅度平方得到功率谱[16]。功率谱通过一组梅尔滤波器, 将线性频率轴映射到梅尔频率轴, 以模拟人耳对频率的感知。对信号取对数, 将每一帧的对数能量谱按时间顺序排列, 形成FBank。另外, MFCC要在取对数后进行离散余弦变化, 而Spectrogram无需经过梅尔滤波器滤波。
Spectrogram可以表示为
式中:X(n, w)为时间n和频率w的二维函数; x(m)为输入信号; g(m)为窗函数。
FBank将输入信号x(m)分解成一组分析信号x1(m), x2(m), …, xn(m), 每个分析信号对应于x(m)频谱中的不同区域。它的表示方法为
式中:ωm(k)是第m个窗函数;X(k)是输入信号x(m)的FFT。
MFCC可以由FBank表示
式中, C为MFCC的个数。
将这3种特征提取方法得到的语谱图作为模型输入, 并对训练结果进行分析比较。通过对比3种不同的语音特征, 选取合适的特征作为实验输入可以有效提高声事件分类结果的准确率。
![]() |
图1 特征提取流程图 |
2.2 网络结构
卷积神经网络(convolutional neural network, CNN)和时延神经网络(time delay neural network, TDNN)在声音分类任务中发挥着重要的作用。本文根据CVR背景声的时频域特征选择适当的神经网络。
TDNN是一种擅长处理时间序列的神经网络, 它能够通过捕捉不同时间延迟的特征来识别序列中的模式[17]。因此特别适合处理具有时间相关性的声音, TDNN通过捕捉时序信息来提高识别效果。对于操作声音具有短时特征, TDNN通过较短的时间窗口捕捉瞬时变化。TDNN通过时间延迟捕捉不同时间点的声音特征, 允许模型对背景噪声产生一定的鲁棒性[18]。
CNN因其在捕捉时频特征和处理二维输入方面的强大能力, 在声音识别任务中表现优异[19]。对于CVR背景声识别, CNN通过对声音的语谱图进行卷积操作, 提取出声音的局部时频特征。CNN通过卷积核有效提取火警警告频谱中的高频特征。对于操作声音, CNN通过频谱图捕捉到短时变化的模式, 尤其当声音具有机械撞击特性时。此外, CNN对背景噪声的处理能力较强, 能够通过多层卷积过滤掉大部分背景噪声的低频成分。
本文提出了一种结合了TDNN和CNN的CVR声音分类模型。该模型主要由2个连续TDNN块和1个二维CNN块组成, 此外还包括统计池化层和作为分类器的2个全连接层[20]。
2.2.1 上下文感知掩蔽模块CAM
由于驾驶舱中嘈杂的工作环境, 样本数据中混合着大量的噪声。这些噪声对于操作声音分类的精确性有严重干扰,而普通方法去除噪声信号又会带来严重的信息丢失且效率低。因此, 在网络结构中加入一个基于注意力机制的上下文感知掩蔽模块(context-aware masking, CAM), 该模块使网络聚焦于感兴趣的CVR背景噪声, 同时不模糊噪声, 从而显著提高了网络的性能[21]。CAM对于CVR中的声音识别尤为重要, 它根据环境动态屏蔽背景噪声, 从而提高模型对背景声的识别效果, 特别是开关声音或短暂的操作声音。这些声音较短且容易被其他长时声音或噪声覆盖, CAM模块能够帮助模型识别出这些瞬时声音的时间点并进行精确分类。同时, CAM模块使得模型能够根据声音的上下文信息做出更精确的判断。
CAM模块结构如图 2c)所示,首先,将输入的声音特征表示为X,输入TDNN层进行局部特征提取。
式中:F(·)表示TDNN层的变换;g(·)表示TDNN层之前的变换;g(F(X))为TDNN层输出的局部特征。其次, 预测一个合适的特征映射比例掩码, 并期望它包含感兴趣的背景声音特征和背景噪声两部分。这个比例掩码用于衡量每个局部特征在全局上下文中的重要性, 进而决定它们的权重。为了使网络在不同级别获取更多的上下文信息, 生成更准确的掩码, 使用全局平均池提取全局的上下文信息, 同时, 使用段平均池来提取阶级的上下文信息[22]。
式中:σ(·)为Sigmoid函数; δ(·)为ReLU与BN的结合; M为预测的比例掩码; M*t表示M的第t帧。eg为全局上下文嵌入, esk为阶级上下文嵌入。
最后, 将局部特征g(F(X))与预测的比例掩码M相乘, 得到加权后的特征
。
式中, ⊗表示基于每一个元素的乘法。
通过以上步骤, CAM模块实现了对输入特征的全局和局部的融合, 提升了模型对全局语境的感知能力, 并在训练过程中学习不同特征之间的关联性, 提升了模型的性能和泛化能力。将CAM插入到每个TDNN层, 以增强整个网络中每一层的基本表达性能。
![]() |
图2 TDNN-CF模型的整体框架图 |
2.2.2 二维前端卷积模块FCM
TDNN更擅长处理长时间序列, 对低频、短时声音效果较弱。CNN通过卷积层捕捉声音在不同时间点的局部模式, 对短促的操作和开关声音具有优势。而TDNN和CNN的混合架构已被证明可以产生进一步的改进[23]。因此, 本文将TDNN和CNN结合起来, 在TDNN层的前面加了一个二维前端卷积模块(front-end convolution module, FCM), 以增强网络对背景声信号中的高频长时间声音和低频瞬时声音的识别效果。
FCM的结构如图 2a)所示, 用于提取多尺度特征, 为后续任务提供了丰富语义信息的特征表示。FCM由堆叠的二维残差卷积块组成, 在时域和频域2个维度对特征进行编码, 以获取更多的时频细节[24]。所得的输出特征图沿着通道和频率维度被平坦化, 在频域上进行下采样并调整输出特征的形状。平坦化的一维特征被用作TDNN层的输入, 经过TDNN层提取更高级的特征。
2.2.3 TDNN-CF网络模型
TDNN-CF的整体框架如图 2b)所示, 该模型主要由2个TDNN块、二维前端卷积模块、统计池化层和全连接层组成。
FCM作为头部模型, 主要用于从输入音频特征中提取初级特征。输入语音特征是一个三维张量(B, T, F), 其中B是批量大小, T是时间步数, F是特征维度。首先, 为了便于二维卷积操作, 输入张量在通道维度上被扩展为四维张量(B, 1, T, F)。其次, 通过初始卷积层提取初级时频特征, 卷积核的大小为3×3, 步长为1, 填充为1。再次, 经过2个类似的残差块, 每个残差块通过2个3×3卷积层和批量归一化层来提取更高级的特征表示, 并通过残差连接增强特征传递, 步长均为2。最后, 使用一个3×3的降采样卷积层进一步减小特征图的时间维度, 时间轴方向步长为2。输出维度为(B, Cm, T/8, F), 其中Cm为FCM的通道数, 大小为32。在完成上述卷积和降采样操作后, 对输出特征的维度进行重塑, 将通道和时间维度合并, 重塑后输出是维度为(B, Cm×T/8, F)的张量, 用作TDNN块的输入。
TDNN块接收了FCM模块的输出特征, 进行更加高级的特征提取和编码。通过时间延迟神经网络层提取不同时间窗口的特征, 增强模型对时间动态的捕捉能力。这2个TDNN块由一系列的TDNN层组成, 每个块分别包含6个和12个TDNN层。TDNN层使用一维卷积层提取时间特征, 为了降低驾驶舱内部嘈杂环境的干扰, 又不减少声音的原始特征, 在每个TDNN层都结合CAM进行上下文信息提取。CAM模块通过TDNN层提取局部特征, 引入全局和段池化提取上下文信息, 利用ReLU和Sigmoid计算注意力权重, 最后将注意力权重应用到局部特征上。CAM模块通过注意力机制动态调整特征的重要性, 增强特征表示, 为后续的特征提取和分类提供更丰富的信息。TDNN块的输出是维度为(B, C, T)的张量, 并作为统计池化层的输入。
统计池化层合并时序维度的信息, 计算特征的均值和标准差, 从而生成固定大小的表示, 适应不同长度的输入。统计池化层的输出是维度为(B, C×2)的张量, 并用作全连接层的输入。
全连接层由嵌入层和分类层组成。嵌入层将统计池化后的特征映射到低维度的嵌入空间, 用于特征压缩和表示。分类层通过线性层将嵌入特征映射到类别输出, 用于最终分类。输出层为(B, N), 其中N是数据集中的类别, 大小为10。
3 实验结果与分析
3.1 实验数据集建立
本实验的数据源来自Plane Crash Info(https://www.planecrashinfo.com)网站的公开数据集Last Words、Tailstrike(https://tailstrike.com)网站的公开数据集Cockpit voice recorder database和其他网站及纪录片中波音737飞机的CVR音频。Cockpit voice recorder database包含了从1965年到2020年间世界各地的181起空难事故的CVR记录, 涉及各种背景下的声事件。本文经过挑选剪辑后保存所需的wav格式音频作为原始数据。根据飞行过程的重要操作, 筛选出10种特殊且具有代表性的背景声信号作为具体研究对象。
3.1.1 数据增强
为了防止数据集因样本复杂度低导致模型过拟合, 本文使用背景噪声进行数据增强。对关键操作声等低频数据增加不同强度的背景噪声, 确保在高噪声条件下也能有效识别。以-5~5 dB之间的随机信噪比(SNR)混合背景噪声和低频背景声, 得到样本数据。
3.1.2 数据集详情
数据集大小为13 180条。背景声的数量、类型和标签如表 2所示, 样本长度为1.0~3.0 s, 采样频率为8 kHz, 帧长为2 048, 帧移为512, 梅尔滤波器数量为128。将处理好的数据分类并打好如表 2所示标签,以7∶3的比例划分训练集和测试集。
驾驶舱背景声标签信息表
3.2 实验环境配置与评估指标
实验训练所采用的物理环境配置: CPU为13th Gen Intel(R) Core(TM) i7-13700KF, GPU为RTX4080, 显存32 GB, 主存1 TB; 软件环境: Windows10操作系统, pytorch1.12.0(python3.8)深度学习框架。所有实验采用的损失函数为交叉熵损失函数, 最大迭代次数为200, 批大小为64, Dropout的大小为0.5, 优化器的选择为Adam, 初始学习率为0.01, 学习率调度器为余弦退火, 使学习率在0.01~0.000 01之间变化。保存识别准确率最高的模型,并使用测试集验证了该模型的最终识别准确率。
本实验采用准确率A(accuracy)精确率P(precision)、召回率R(recall)和F1值(F1 score)等指标对实验的数据结果进行进一步分析评价。计算方法如(10)~(13)式所示。
式中:NTP代表正类判定为正类; NFP代表负类判定为正类; NFN代表正类判定为负类; NTN代表负类判定为负类。
此外, 采用混淆矩阵对模型性能进行全面评估, 分析模型性能, 进而指导调整模型的结构和参数, 以提高模型的分类精度[25]。
3.3 识别结果及分析
3.3.1 特征提取结果
本文使用Spectrogram、FBank、MFCC 3种声学特征对输入的wav格式语音信号进行特征提取。采用TDNN模型对3种特征提取方法进行验证, 经过对比, 3种特征的分类准确率结果如表 3所示。
结果显示, Spectrogram的识别准确率最低, 其在短时间内表现出较大的波动, 不利于稳定分类。MFCC的识别准确率较好, 但需要经过离散余弦变换等多步处理, 引入额外的复杂性和不稳定性。FBank的准确率为95.91%, 明显高于其他2种特征提取方法。其特征频谱分辨率更适合人耳听觉系统, 计算复杂度适中, 归一化过程相对简单有效, 能够更好地适应不同复杂环境下的驾驶舱背景声数据。因此, 后续实验均采用FBank进行特征提取。
特征提取结果对比表
3.3.2 对比实验结果
为了观测不同模型的分类效果, 设计了4组实验, 分别为: ①典型的CNN声音分类模型; ②典型的TDNN声音分类模型; ③TDNN-CAM模型,相较于模型②, 加入了CAM模块, 用于降低噪声对于低频背景声分类的影响, 从而提升低频背景声的识别准确率; ④TDNN-CF模型,相较于模型③,增加了FCM, 利用CNN和TDNN的混合模型来增加网络的深度, 以提升高频长时警告声和低频瞬时开关声音的识别准确。
将测试分类模型的结果结合评价指标进行综合分析, 结果如表 4所示。
表 4中A为总体准确率,P, R和F1均代表 10种数据的加权平均值。从表 4中可以看出CNN的分类效果一般,整体分类指标均未达到90%。TDNN的各项分类指标明显优于CNN。因此, TDNN模型更适用于CVR声事件分类。在加入CAM模块后, 使神经网络聚焦于感兴趣的开关和操作声音的同时, 动态模糊不相关的发动机噪声提高了网络对于低频背景声的分类性能[26], 模型的准确率提升至97.90%, 相较于前者提升了约2个百分点, 证明CAM模块针对驾驶舱内嘈杂的噪声问题提出的改进有效。最后,TDNN-CF最终的分类结果准确率为98.90%,且剩余指标相对于其他对比模型均表现优秀,证明TDNN与CNN的结合能够提高分类精度。对比实验结果表明, 本文提出的模型分类指标都在98%以上, 具有较高的准确性和稳定的性能。
不同模型评价指标结果
3.3.3 准确率和损失曲线分析
为了观察训练和测试过程中准确率的变化情况, 对200轮训练进行了可视化处理。图 3为不同模型在训练和测试过程中分类准确率与损失值的曲线对比图。从中可以看出在CVR声事件分类任务中, 模型的改进效果明显。在训练的过程中, CNN模型虽然准确率在不断提升, 但最终的准确率为85%左右, 且最终的损失较大。TDNN模型的准确率提升较大, 但在训练初期波动较大, 且收敛速度慢, 直到迭代了160次后模型才趋于稳定, 模型的分类效果不理想。TDNN-CAM准确率高, 收敛速度快, 同时稳定性强, 表现出了较高的水平。TDNN-CF相较于前者更加稳定,损失值在60次迭代之后就变得很小,收敛速度进一步提升,准确率达到最高的98%以上。结果表明, TDNN-CF模型在复杂的驾驶舱中的声音分离效果良好, 具有一定的稳定性。
![]() |
图3 训练和测试准确率损失图 |
3.3.4 性能分析
图 4展示了4种模型的混淆矩阵,图中横坐标为预测的标签, 纵坐标为真实标签。CNN模型对于个别独立性高的背景声分类情况较好, 如风切变警告这种高显著性的警告声, 而对于复杂情况的背景声分类结果较差, 如俯仰配平轮操作声和襟翼手柄滑动声, 分类准确率仅有67%和69%;TDNN模型相较于前者, 对于类似背景声的分类, 有了明显提升, 俯仰配平轮操作声和襟翼手柄滑动声的分类准确率达到91%和96%, 分别提升了24和27个百分点; TDNN-CAM的分类性能有了整体提升,而对个别与背景噪声相似的低频操作声音分类提升最为明显,如俯仰配平轮操作声和飞行刹车释放声,针对TDNN模型分别提升了9和10个百分点,解决噪声对于背景声识别的干扰问题;TDNN-CF提高了每一类背景声的分类性能,各类的准确率均在95%以上,解决了相似低频开关和操作声音的识别问题。模型整体的识别准确率达到了最高的98.90%,整体分类性能较好。
![]() |
图4 混淆矩阵图 |
3.4 不同方法对比实验
为了体现TDNN-CF模型的分类性能, 与传统机器学习分类方法做了对比, 4种不同方法的分类结果见表 5。
实验结果表明, 传统的机器学习方法在CVR声音分类领域的识别准确率比较低, 所选取的几种机器学习方法准确率均不到85%, 其他评价指标也不高, 而本文所提出的TDNN-CF深度学习分类模型准确率比较高, 相较于决策树、随机森林和K近邻分别提升了18.07, 15.62和14.55个百分点。
机器学习方法对比结果表
4 结论
1) 在CVR背景声分类任务中, 使用FBank特征的准确率最高, 明显优于Spectrogram和MFCC。因其适中的计算复杂度、与人耳感知相符的频谱分辨率、对噪声的抑制效果以及时间上的稳定性, 更适合作为实验输入, 显著提升分类的准确性。
2) 在CVR背景分类任务中, TDNN在捕捉时间相关性上表现出色, 适合处理连续的警告声音; CNN在捕捉局部时频特征方面表现优异, 能更好地识别短促的操作和开关声音; CAM通过动态屏蔽不相关的噪声, 并在上下文中理解声音事件的发生时机, 能够显著提高模型对复杂背景噪声环境中声音的识别能力。通过实验模型对比, 发现结合这3种技术, 能在处理不同类型声音时发挥各自的优势, 有效提高了CVR背景声识别模型在复杂噪声环境下的表现。
3) 与传统的机器学习方法相比, 基于的深度学习的智能分类方法在CVR背景声分类任务中具有显著的优势, 为航空飞行监控评估和事故调查分析提供了更加准确和高效的背景声识别手段。通过训练过程中的准确率和损失值曲线分析,发现TDNN-CF模型在收敛速度和模型稳定性方面表现优异,在较少的迭代次数内达到了较高的分类准确率,并在后续训练中保持稳定,其在复杂环境下的适应能力优秀。
References
- JIA Yuchen, CHEN Daolai, JI Linzhang, et al. Information fusion-based aircraft cabin acoustic signal analysis and fault diagnosis[J]. Noise and Vibration Control, 2018, 38(A02): 648–652 (in Chinese) [Google Scholar]
- NUGROHO S, NASUTION S M, AZMI F. Analysis of cockpit voice recorder compression reliability for airplane on demand blackbox data transmission[C]//2017 International Conference on Control, Electronics, Renewable Energy and Communications, 2017: 148–152 [Google Scholar]
- HSIAO F B, HAN S Y, HSIEH S C, et al. Sound source separation and identification for aircraft cockpit voice recorder[J]. Journal of Aerospace Computing, Information, and Communication, 2004, 1(12): 466–483. [Article] [Google Scholar]
- CHENG Daolai, YI Chuijie, YAO Hongyu, et al. A preliminary study on voice information recognition methods for aircraft cockpit voice recorders[J]. Noise and Vibration Control, 2006, 26(3): 81–84 (in Chinese) [Google Scholar]
- YANG L. Sound identification and speaker recognition for aircraft cockpit voice recorder[C]//Proceedings of 2010 Asia-Pacific International Symposium on Aerospace Technology, 2010: 260–263 [Google Scholar]
- YANG Heng, LU Yu, BAI Wenhu. Aircraft cockpit specific sound signal extraction[J]. Mechanical & Electrical, 2014(12): 16–20 (in Chinese) [Google Scholar]
- WU Feng, FU Yanhua, SONG Jian. Feasibility study and application of on-wing decoding of aircraft voice recorder data[J]. Aviation Maintenance and Engineering, 2023(3): 39–41 (in Chinese) [Google Scholar]
- PUIGT M, BIGOT B, DEVULDER H. Introducing the "cockpit party proble": blind source separation enhances aircraft cockpit speech transcription[J]. Journal of the Audio Engineering Society, 2024, 72(3): 123–135. [Article] [Google Scholar]
- SOMESHWAR D, BHANUSHALI D, CHAUDHARI V, et al. Implementation of virtual assistant with sign language using deep learning and TensorFlow[C]//2020 2nd International Conference on Inventive Research in Computing Applications, 2020: 595–600 [Google Scholar]
- KUUTTI S, BOWDEN R, JIN Y, et al. A survey of deep learning applications to autonomous vehicle control[J]. IEEE Trans on Intelligent Transportation Systems, 2020, 22(2): 712–733 [Google Scholar]
- CHAIANI M, SELOUANI S A, BOUDRAA M, et al. Voice disorder classification using speech enhancement and deep learning models[J]. Biocybernetics and Biomedical Engineering, 2022, 42(2): 463–480 [Google Scholar]
- MUSHTAQ Z, SU S F. Environmental sound classification using a regularized deep convolutional neural network with data augmentation[J]. Applied Acoustics, 2020, 167: 107389 [Google Scholar]
- ZHAO Donghao, ZAHNG Jiguo, SHI Lei, et al. Transformer condition monitoring and fault diagnosis based on characteristic acoustic spectrogram of acoustic signals[J]. Electrical Automation, 2023, 45(1): 106–108 (in Chinese) [Google Scholar]
- HU S, CHU Y, WEN Z , et al. Deep learning bird song recognition based on MFF-ScSEnet[J]. Ecological Indicators, 2023, 154: 110844 [Google Scholar]
- BUTTERFIELD A J. Data mining of NASA Boeing 737 flight data: frequency analysis of in-flight recorded data[R]. NASA/CR-2001-210641, 2001 [Google Scholar]
- LI P, WU J, WANG Y, et al. STM: spectrogram transformer model for underwater acoustic target recognition[J]. Journal of Marine Science and Engineering, 2022, 10(10): 1428 [Google Scholar]
- MARTINEZ A M C, SPILLE C, ROBBACH J, et al. Prediction of speech intelligibility with DNN-based performance measures[J]. Computer Speech & Language, 2022, 74: 101329 [Google Scholar]
- ARGATOV I, JIN X. Time-delay neural network modeling of the running-in wear process[J]. Tribology International, 2023, 178: 108021 [Google Scholar]
- ZHANG Ke, SU Yu, WANG Jingyu, et al. Research on environmental sound classification system based on fusion features and convolutional neural network[J]. Journal of Northwestern Polytechnical University, 2020, 38(1): 162–169. [Article] (in Chinese) [Google Scholar]
- HUANG B, SHAO Y, ZHANG H, et al. Design and implementation of a silent speech recognition system based on sEMG signals: a neural network approach[J]. Biomedical Signal Processing and Control, 2024, 92: 106052 [Google Scholar]
- YU Y Q, ZHENG S, SUO H, et al. CAM: context-aware masking for robust speaker verification[C]//2021 IEEE International Conference on Acoustics, Speech and Signal Processing, 2021: 6703–6707 [Google Scholar]
- WANG H, ZHENG S, CHEN Y, et al. CAM++: a fast and efficient network for speaker verification using context-aware masking[EB/OL]. (2023-06-16)[2024-08-11]. [Article] [Google Scholar]
- LIU T, DAS R K, LEE K A, et al. MFA: TDNN with multi-scale frequency-channel attention for text-independent speaker verification with short utterances[C]//2022 IEEE International Conference on Acoustics, Speech and Signal Processing, 2022: 7517–7521 [Google Scholar]
- THIENPONDT J, DESPLANQUES B, DEMUYNCK K. Integrating frequency translational invariance in tdnns and frequency positional information in 2D resnets to enhance speaker verification[EB/OL]. (2021-09-09)[2024-08-11]. [Article] [Google Scholar]
- HEYDARIAN M, DOYLE T E, SAMAVI R. MLCM: Multi-label confusion matrix[J]. IEEE Access, 2022, 10: 19083–19095 [Google Scholar]
- ZHANG Y J, SONG W, YUE Y, et al. MaskedSpeech: context-aware speech synthesis with masking strategy[EB/OL]. (2023-05-18)[2024-08-11]. [Article] [Google Scholar]
All Tables
All Figures
![]() |
图1 特征提取流程图 |
| In the text | |
![]() |
图2 TDNN-CF模型的整体框架图 |
| In the text | |
![]() |
图3 训练和测试准确率损失图 |
| In the text | |
![]() |
图4 混淆矩阵图 |
| In the text | |
Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.
Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.
Initial download of the metrics may take a while.



![$ C_{m}=\sum\limits_{m=0}^{M-1} F_{m} \cos \left[\frac{{\rm{ \mathsf{ \pi}}} n(m-0.5)}{M}\right] \quad 0 \leqslant n \leqslant C-1$](/articles/jnwpu/full_html/2025/04/jnwpu2025434p784/jnwpu2025434p784-eq3.gif)













