VPR_zhvoice_EcapaTdnn / config.yml
2DIPW's picture
init commit
016c2ce
# 数据集参数
dataset_conf:
# 训练的批量大小
batch_size: 64
# 说话人数量,即分类大小
num_speakers: 3242
# 读取数据的线程数量
num_workers: 4
# 过滤最短的音频长度
min_duration: 0.5
# 最长的音频长度,大于这个长度会裁剪掉
max_duration: 3
# 是否裁剪静音片段
do_vad: False
# 音频的采样率
sample_rate: 16000
# 是否对音频进行音量归一化
use_dB_normalization: True
# 对音频进行音量归一化的音量分贝值
target_dB: -20
# 训练数据的数据列表路径
train_list: 'dataset/train_list.txt'
# 测试数据的数据列表路径
test_list: 'dataset/test_list.txt'
# 数据预处理参数
preprocess_conf:
# 音频预处理方法,支持:MelSpectrogram、Spectrogram、MFCC
feature_method: 'MelSpectrogram'
# MelSpectrogram的参数,其他的预处理方法查看对应API设设置参数
feature_conf:
sample_rate: 16000
n_fft: 1024
hop_length: 320
win_length: 1024
f_min: 50.0
f_max: 14000.0
n_mels: 64
optimizer_conf:
# 优化方法,支持Adam、AdamW、SGD
optimizer: 'Adam'
# 初始学习率的大小
learning_rate: 0.001
weight_decay: 1e-6
model_conf:
# 所使用的池化层,支持ASP、SAP、TSP、TAP
pooling_type: 'ASP'
train_conf:
# 训练的轮数
max_epoch: 30
log_interval: 100
# 所使用的模型,支持EcapaTdnn、TDNN、Res2Net、ResNetSE
use_model: 'EcapaTdnn'
# 所使用的损失函数,支持AAMLoss、AMLoss、ARMLoss、CELoss
use_loss: 'AAMLoss'