2DIPW
/

VPR_zhvoice_EcapaTdnn

Audio Classification

Model card Files Files and versions Community

VPR_zhvoice_EcapaTdnn / config.yml

2DIPW's picture

init commit

016c2ce over 1 year ago

history blame contribute delete

1.55 kB

	# 数据集参数
	dataset_conf:
	# 训练的批量大小
	batch_size: 64
	# 说话人数量，即分类大小
	num_speakers: 3242
	# 读取数据的线程数量
	num_workers: 4
	# 过滤最短的音频长度
	min_duration: 0.5
	# 最长的音频长度，大于这个长度会裁剪掉
	max_duration: 3
	# 是否裁剪静音片段
	do_vad: False
	# 音频的采样率
	sample_rate: 16000
	# 是否对音频进行音量归一化
	use_dB_normalization: True
	# 对音频进行音量归一化的音量分贝值
	target_dB: -20
	# 训练数据的数据列表路径
	train_list: 'dataset/train_list.txt'
	# 测试数据的数据列表路径
	test_list: 'dataset/test_list.txt'

	# 数据预处理参数
	preprocess_conf:
	# 音频预处理方法，支持：MelSpectrogram、Spectrogram、MFCC
	feature_method: 'MelSpectrogram'

	# MelSpectrogram的参数，其他的预处理方法查看对应API设设置参数
	feature_conf:
	sample_rate: 16000
	n_fft: 1024
	hop_length: 320
	win_length: 1024
	f_min: 50.0
	f_max: 14000.0
	n_mels: 64

	optimizer_conf:
	# 优化方法，支持Adam、AdamW、SGD
	optimizer: 'Adam'
	# 初始学习率的大小
	learning_rate: 0.001
	weight_decay: 1e-6

	model_conf:
	# 所使用的池化层，支持ASP、SAP、TSP、TAP
	pooling_type: 'ASP'

	train_conf:
	# 训练的轮数
	max_epoch: 30
	log_interval: 100

	# 所使用的模型，支持EcapaTdnn、TDNN、Res2Net、ResNetSE
	use_model: 'EcapaTdnn'
	# 所使用的损失函数，支持AAMLoss、AMLoss、ARMLoss、CELoss
	use_loss: 'AAMLoss'