{"model_chunk_0": ["clap.nvclap.spectrogram_extractor.stft.conv_real.weight", "clap.nvclap.spectrogram_extractor.stft.conv_imag.weight", "clap.nvclap.logmel_extractor.melW", "clap.nvclap.bn0.weight", "clap.nvclap.bn0.bias", "clap.nvclap.bn0.running_mean", "clap.nvclap.bn0.running_var", "clap.nvclap.bn0.num_batches_tracked", "clap.nvclap.patch_embed.proj.weight", "clap.nvclap.patch_embed.proj.bias", "clap.nvclap.patch_embed.norm.weight", "clap.nvclap.patch_embed.norm.bias", "clap.nvclap.patch_embed.mel_conv2d.weight", "clap.nvclap.patch_embed.mel_conv2d.bias", "clap.nvclap.patch_embed.fusion_model.local_att.0.weight", "clap.nvclap.patch_embed.fusion_model.local_att.0.bias", "clap.nvclap.patch_embed.fusion_model.local_att.1.weight", "clap.nvclap.patch_embed.fusion_model.local_att.1.bias", "clap.nvclap.patch_embed.fusion_model.local_att.1.running_mean", "clap.nvclap.patch_embed.fusion_model.local_att.1.running_var", "clap.nvclap.patch_embed.fusion_model.local_att.1.num_batches_tracked", "clap.nvclap.patch_embed.fusion_model.local_att.3.weight", "clap.nvclap.patch_embed.fusion_model.local_att.3.bias", "clap.nvclap.patch_embed.fusion_model.local_att.4.weight", "clap.nvclap.patch_embed.fusion_model.local_att.4.bias", "clap.nvclap.patch_embed.fusion_model.local_att.4.running_mean", "clap.nvclap.patch_embed.fusion_model.local_att.4.running_var", "clap.nvclap.patch_embed.fusion_model.local_att.4.num_batches_tracked", "clap.nvclap.patch_embed.fusion_model.global_att.1.weight", "clap.nvclap.patch_embed.fusion_model.global_att.1.bias", "clap.nvclap.patch_embed.fusion_model.global_att.2.weight", "clap.nvclap.patch_embed.fusion_model.global_att.2.bias", "clap.nvclap.patch_embed.fusion_model.global_att.2.running_mean", "clap.nvclap.patch_embed.fusion_model.global_att.2.running_var", "clap.nvclap.patch_embed.fusion_model.global_att.2.num_batches_tracked", "clap.nvclap.patch_embed.fusion_model.global_att.4.weight", "clap.nvclap.patch_embed.fusion_model.global_att.4.bias", "clap.nvclap.patch_embed.fusion_model.global_att.5.weight", "clap.nvclap.patch_embed.fusion_model.global_att.5.bias", "clap.nvclap.patch_embed.fusion_model.global_att.5.running_mean", "clap.nvclap.patch_embed.fusion_model.global_att.5.running_var", "clap.nvclap.patch_embed.fusion_model.global_att.5.num_batches_tracked", "clap.nvclap.layers.0.blocks.0.norm1.weight", "clap.nvclap.layers.0.blocks.0.norm1.bias", "clap.nvclap.layers.0.blocks.0.attn.relative_position_bias_table", "clap.nvclap.layers.0.blocks.0.attn.relative_position_index", "clap.nvclap.layers.0.blocks.0.attn.qkv.weight", "clap.nvclap.layers.0.blocks.0.attn.qkv.bias", "clap.nvclap.layers.0.blocks.0.attn.proj.weight", "clap.nvclap.layers.0.blocks.0.attn.proj.bias", "clap.nvclap.layers.0.blocks.0.norm2.weight", "clap.nvclap.layers.0.blocks.0.norm2.bias", "clap.nvclap.layers.0.blocks.0.mlp.fc1.weight", "clap.nvclap.layers.0.blocks.0.mlp.fc1.bias", "clap.nvclap.layers.0.blocks.0.mlp.fc2.weight", "clap.nvclap.layers.0.blocks.0.mlp.fc2.bias", "clap.nvclap.layers.0.blocks.1.attn_mask", "clap.nvclap.layers.0.blocks.1.norm1.weight", "clap.nvclap.layers.0.blocks.1.norm1.bias", "clap.nvclap.layers.0.blocks.1.attn.relative_position_bias_table", "clap.nvclap.layers.0.blocks.1.attn.relative_position_index", "clap.nvclap.layers.0.blocks.1.attn.qkv.weight", "clap.nvclap.layers.0.blocks.1.attn.qkv.bias", "clap.nvclap.layers.0.blocks.1.attn.proj.weight", "clap.nvclap.layers.0.blocks.1.attn.proj.bias", "clap.nvclap.layers.0.blocks.1.norm2.weight", "clap.nvclap.layers.0.blocks.1.norm2.bias", "clap.nvclap.layers.0.blocks.1.mlp.fc1.weight", "clap.nvclap.layers.0.blocks.1.mlp.fc1.bias", "clap.nvclap.layers.0.blocks.1.mlp.fc2.weight", "clap.nvclap.layers.0.blocks.1.mlp.fc2.bias", "clap.nvclap.layers.0.downsample.reduction.weight", "clap.nvclap.layers.0.downsample.norm.weight", "clap.nvclap.layers.0.downsample.norm.bias", "clap.nvclap.layers.1.blocks.0.norm1.weight", "clap.nvclap.layers.1.blocks.0.norm1.bias", "clap.nvclap.layers.1.blocks.0.attn.relative_position_bias_table", "clap.nvclap.layers.1.blocks.0.attn.relative_position_index", "clap.nvclap.layers.1.blocks.0.attn.qkv.weight", "clap.nvclap.layers.1.blocks.0.attn.qkv.bias", "clap.nvclap.layers.1.blocks.0.attn.proj.weight", "clap.nvclap.layers.1.blocks.0.attn.proj.bias", "clap.nvclap.layers.1.blocks.0.norm2.weight", "clap.nvclap.layers.1.blocks.0.norm2.bias", "clap.nvclap.layers.1.blocks.0.mlp.fc1.weight", "clap.nvclap.layers.1.blocks.0.mlp.fc1.bias", "clap.nvclap.layers.1.blocks.0.mlp.fc2.weight", "clap.nvclap.layers.1.blocks.0.mlp.fc2.bias", "clap.nvclap.layers.1.blocks.1.attn_mask", "clap.nvclap.layers.1.blocks.1.norm1.weight", "clap.nvclap.layers.1.blocks.1.norm1.bias", "clap.nvclap.layers.1.blocks.1.attn.relative_position_bias_table", "clap.nvclap.layers.1.blocks.1.attn.relative_position_index", "clap.nvclap.layers.1.blocks.1.attn.qkv.weight", "clap.nvclap.layers.1.blocks.1.attn.qkv.bias", "clap.nvclap.layers.1.blocks.1.attn.proj.weight", "clap.nvclap.layers.1.blocks.1.attn.proj.bias", "clap.nvclap.layers.1.blocks.1.norm2.weight", "clap.nvclap.layers.1.blocks.1.norm2.bias", "clap.nvclap.layers.1.blocks.1.mlp.fc1.weight", "clap.nvclap.layers.1.blocks.1.mlp.fc1.bias", "clap.nvclap.layers.1.blocks.1.mlp.fc2.weight", "clap.nvclap.layers.1.blocks.1.mlp.fc2.bias", "clap.nvclap.layers.1.downsample.reduction.weight", "clap.nvclap.layers.1.downsample.norm.weight", "clap.nvclap.layers.1.downsample.norm.bias", "clap.nvclap.layers.2.blocks.0.norm1.weight", "clap.nvclap.layers.2.blocks.0.norm1.bias", "clap.nvclap.layers.2.blocks.0.attn.relative_position_bias_table", "clap.nvclap.layers.2.blocks.0.attn.relative_position_index", "clap.nvclap.layers.2.blocks.0.attn.qkv.weight", "clap.nvclap.layers.2.blocks.0.attn.qkv.bias", "clap.nvclap.layers.2.blocks.0.attn.proj.weight", "clap.nvclap.layers.2.blocks.0.attn.proj.bias", "clap.nvclap.layers.2.blocks.0.norm2.weight", "clap.nvclap.layers.2.blocks.0.norm2.bias", "clap.nvclap.layers.2.blocks.0.mlp.fc1.weight", "clap.nvclap.layers.2.blocks.0.mlp.fc1.bias", "clap.nvclap.layers.2.blocks.0.mlp.fc2.weight", "clap.nvclap.layers.2.blocks.0.mlp.fc2.bias", "clap.nvclap.layers.2.blocks.1.attn_mask", "clap.nvclap.layers.2.blocks.1.norm1.weight", "clap.nvclap.layers.2.blocks.1.norm1.bias", "clap.nvclap.layers.2.blocks.1.attn.relative_position_bias_table", "clap.nvclap.layers.2.blocks.1.attn.relative_position_index", "clap.nvclap.layers.2.blocks.1.attn.qkv.weight", "clap.nvclap.layers.2.blocks.1.attn.qkv.bias", "clap.nvclap.layers.2.blocks.1.attn.proj.weight", "clap.nvclap.layers.2.blocks.1.attn.proj.bias", "clap.nvclap.layers.2.blocks.1.norm2.weight", "clap.nvclap.layers.2.blocks.1.norm2.bias", "clap.nvclap.layers.2.blocks.1.mlp.fc1.weight", "clap.nvclap.layers.2.blocks.1.mlp.fc1.bias", "clap.nvclap.layers.2.blocks.1.mlp.fc2.weight", "clap.nvclap.layers.2.blocks.1.mlp.fc2.bias", "clap.nvclap.layers.2.blocks.2.norm1.weight", "clap.nvclap.layers.2.blocks.2.norm1.bias", "clap.nvclap.layers.2.blocks.2.attn.relative_position_bias_table", "clap.nvclap.layers.2.blocks.2.attn.relative_position_index", "clap.nvclap.layers.2.blocks.2.attn.qkv.weight", "clap.nvclap.layers.2.blocks.2.attn.qkv.bias", "clap.nvclap.layers.2.blocks.2.attn.proj.weight", "clap.nvclap.layers.2.blocks.2.attn.proj.bias", "clap.nvclap.layers.2.blocks.2.norm2.weight", "clap.nvclap.layers.2.blocks.2.norm2.bias", "clap.nvclap.layers.2.blocks.2.mlp.fc1.weight", "clap.nvclap.layers.2.blocks.2.mlp.fc1.bias", "clap.nvclap.layers.2.blocks.2.mlp.fc2.weight", "clap.nvclap.layers.2.blocks.2.mlp.fc2.bias", "clap.nvclap.layers.2.blocks.3.attn_mask", "clap.nvclap.layers.2.blocks.3.norm1.weight", "clap.nvclap.layers.2.blocks.3.norm1.bias", "clap.nvclap.layers.2.blocks.3.attn.relative_position_bias_table", "clap.nvclap.layers.2.blocks.3.attn.relative_position_index", "clap.nvclap.layers.2.blocks.3.attn.qkv.weight", "clap.nvclap.layers.2.blocks.3.attn.qkv.bias", "clap.nvclap.layers.2.blocks.3.attn.proj.weight", "clap.nvclap.layers.2.blocks.3.attn.proj.bias", "clap.nvclap.layers.2.blocks.3.norm2.weight", "clap.nvclap.layers.2.blocks.3.norm2.bias", "clap.nvclap.layers.2.blocks.3.mlp.fc1.weight", "clap.nvclap.layers.2.blocks.3.mlp.fc1.bias", "clap.nvclap.layers.2.blocks.3.mlp.fc2.weight", "clap.nvclap.layers.2.blocks.3.mlp.fc2.bias", "clap.nvclap.layers.2.blocks.4.norm1.weight", "clap.nvclap.layers.2.blocks.4.norm1.bias", "clap.nvclap.layers.2.blocks.4.attn.relative_position_bias_table", "clap.nvclap.layers.2.blocks.4.attn.relative_position_index", "clap.nvclap.layers.2.blocks.4.attn.qkv.weight", "clap.nvclap.layers.2.blocks.4.attn.qkv.bias", "clap.nvclap.layers.2.blocks.4.attn.proj.weight", "clap.nvclap.layers.2.blocks.4.attn.proj.bias", "clap.nvclap.layers.2.blocks.4.norm2.weight", "clap.nvclap.layers.2.blocks.4.norm2.bias", "clap.nvclap.layers.2.blocks.4.mlp.fc1.weight", "clap.nvclap.layers.2.blocks.4.mlp.fc1.bias", "clap.nvclap.layers.2.blocks.4.mlp.fc2.weight", "clap.nvclap.layers.2.blocks.4.mlp.fc2.bias", "clap.nvclap.layers.2.blocks.5.attn_mask", "clap.nvclap.layers.2.blocks.5.norm1.weight", "clap.nvclap.layers.2.blocks.5.norm1.bias", "clap.nvclap.layers.2.blocks.5.attn.relative_position_bias_table", "clap.nvclap.layers.2.blocks.5.attn.relative_position_index", "clap.nvclap.layers.2.blocks.5.attn.qkv.weight", "clap.nvclap.layers.2.blocks.5.attn.qkv.bias", "clap.nvclap.layers.2.blocks.5.attn.proj.weight", "clap.nvclap.layers.2.blocks.5.attn.proj.bias", "clap.nvclap.layers.2.blocks.5.norm2.weight", "clap.nvclap.layers.2.blocks.5.norm2.bias", "clap.nvclap.layers.2.blocks.5.mlp.fc1.weight", "clap.nvclap.layers.2.blocks.5.mlp.fc1.bias", "clap.nvclap.layers.2.blocks.5.mlp.fc2.weight", "clap.nvclap.layers.2.blocks.5.mlp.fc2.bias", "clap.nvclap.layers.2.blocks.6.norm1.weight", "clap.nvclap.layers.2.blocks.6.norm1.bias", "clap.nvclap.layers.2.blocks.6.attn.relative_position_bias_table", "clap.nvclap.layers.2.blocks.6.attn.relative_position_index", "clap.nvclap.layers.2.blocks.6.attn.qkv.weight", "clap.nvclap.layers.2.blocks.6.attn.qkv.bias", "clap.nvclap.layers.2.blocks.6.attn.proj.weight", "clap.nvclap.layers.2.blocks.6.attn.proj.bias", "clap.nvclap.layers.2.blocks.6.norm2.weight", "clap.nvclap.layers.2.blocks.6.norm2.bias", "clap.nvclap.layers.2.blocks.6.mlp.fc1.weight", "clap.nvclap.layers.2.blocks.6.mlp.fc1.bias", "clap.nvclap.layers.2.blocks.6.mlp.fc2.weight", "clap.nvclap.layers.2.blocks.6.mlp.fc2.bias", "clap.nvclap.layers.2.blocks.7.attn_mask", "clap.nvclap.layers.2.blocks.7.norm1.weight", "clap.nvclap.layers.2.blocks.7.norm1.bias", "clap.nvclap.layers.2.blocks.7.attn.relative_position_bias_table", "clap.nvclap.layers.2.blocks.7.attn.relative_position_index", "clap.nvclap.layers.2.blocks.7.attn.qkv.weight", "clap.nvclap.layers.2.blocks.7.attn.qkv.bias", "clap.nvclap.layers.2.blocks.7.attn.proj.weight", "clap.nvclap.layers.2.blocks.7.attn.proj.bias", "clap.nvclap.layers.2.blocks.7.norm2.weight", "clap.nvclap.layers.2.blocks.7.norm2.bias", "clap.nvclap.layers.2.blocks.7.mlp.fc1.weight", "clap.nvclap.layers.2.blocks.7.mlp.fc1.bias", "clap.nvclap.layers.2.blocks.7.mlp.fc2.weight", "clap.nvclap.layers.2.blocks.7.mlp.fc2.bias", "clap.nvclap.layers.2.blocks.8.norm1.weight", "clap.nvclap.layers.2.blocks.8.norm1.bias", "clap.nvclap.layers.2.blocks.8.attn.relative_position_bias_table", "clap.nvclap.layers.2.blocks.8.attn.relative_position_index", "clap.nvclap.layers.2.blocks.8.attn.qkv.weight", "clap.nvclap.layers.2.blocks.8.attn.qkv.bias", "clap.nvclap.layers.2.blocks.8.attn.proj.weight", "clap.nvclap.layers.2.blocks.8.attn.proj.bias", "clap.nvclap.layers.2.blocks.8.norm2.weight", "clap.nvclap.layers.2.blocks.8.norm2.bias", "clap.nvclap.layers.2.blocks.8.mlp.fc1.weight", "clap.nvclap.layers.2.blocks.8.mlp.fc1.bias", "clap.nvclap.layers.2.blocks.8.mlp.fc2.weight", "clap.nvclap.layers.2.blocks.8.mlp.fc2.bias", "clap.nvclap.layers.2.blocks.9.attn_mask", "clap.nvclap.layers.2.blocks.9.norm1.weight", "clap.nvclap.layers.2.blocks.9.norm1.bias", "clap.nvclap.layers.2.blocks.9.attn.relative_position_bias_table", "clap.nvclap.layers.2.blocks.9.attn.relative_position_index", "clap.nvclap.layers.2.blocks.9.attn.qkv.weight", "clap.nvclap.layers.2.blocks.9.attn.qkv.bias", "clap.nvclap.layers.2.blocks.9.attn.proj.weight", "clap.nvclap.layers.2.blocks.9.attn.proj.bias", "clap.nvclap.layers.2.blocks.9.norm2.weight", "clap.nvclap.layers.2.blocks.9.norm2.bias", "clap.nvclap.layers.2.blocks.9.mlp.fc1.weight", "clap.nvclap.layers.2.blocks.9.mlp.fc1.bias", "clap.nvclap.layers.2.blocks.9.mlp.fc2.weight", "clap.nvclap.layers.2.blocks.9.mlp.fc2.bias", "clap.nvclap.layers.2.blocks.10.norm1.weight", "clap.nvclap.layers.2.blocks.10.norm1.bias", "clap.nvclap.layers.2.blocks.10.attn.relative_position_bias_table", "clap.nvclap.layers.2.blocks.10.attn.relative_position_index", "clap.nvclap.layers.2.blocks.10.attn.qkv.weight", "clap.nvclap.layers.2.blocks.10.attn.qkv.bias", "clap.nvclap.layers.2.blocks.10.attn.proj.weight", "clap.nvclap.layers.2.blocks.10.attn.proj.bias", "clap.nvclap.layers.2.blocks.10.norm2.weight", "clap.nvclap.layers.2.blocks.10.norm2.bias", "clap.nvclap.layers.2.blocks.10.mlp.fc1.weight", "clap.nvclap.layers.2.blocks.10.mlp.fc1.bias", "clap.nvclap.layers.2.blocks.10.mlp.fc2.weight", "clap.nvclap.layers.2.blocks.10.mlp.fc2.bias", "clap.nvclap.layers.2.blocks.11.attn_mask", "clap.nvclap.layers.2.blocks.11.norm1.weight", "clap.nvclap.layers.2.blocks.11.norm1.bias", "clap.nvclap.layers.2.blocks.11.attn.relative_position_bias_table", "clap.nvclap.layers.2.blocks.11.attn.relative_position_index", "clap.nvclap.layers.2.blocks.11.attn.qkv.weight", "clap.nvclap.layers.2.blocks.11.attn.qkv.bias", "clap.nvclap.layers.2.blocks.11.attn.proj.weight", "clap.nvclap.layers.2.blocks.11.attn.proj.bias", "clap.nvclap.layers.2.blocks.11.norm2.weight", "clap.nvclap.layers.2.blocks.11.norm2.bias", "clap.nvclap.layers.2.blocks.11.mlp.fc1.weight", "clap.nvclap.layers.2.blocks.11.mlp.fc1.bias", "clap.nvclap.layers.2.blocks.11.mlp.fc2.weight", "clap.nvclap.layers.2.blocks.11.mlp.fc2.bias", "clap.nvclap.layers.2.downsample.reduction.weight", "clap.nvclap.layers.2.downsample.norm.weight", "clap.nvclap.layers.2.downsample.norm.bias", "clap.nvclap.layers.3.blocks.0.norm1.weight", "clap.nvclap.layers.3.blocks.0.norm1.bias", "clap.nvclap.layers.3.blocks.0.attn.relative_position_bias_table", "clap.nvclap.layers.3.blocks.0.attn.relative_position_index", "clap.nvclap.layers.3.blocks.0.attn.qkv.weight", "clap.nvclap.layers.3.blocks.0.attn.qkv.bias", "clap.nvclap.layers.3.blocks.0.attn.proj.weight", "clap.nvclap.layers.3.blocks.0.attn.proj.bias", "clap.nvclap.layers.3.blocks.0.norm2.weight", "clap.nvclap.layers.3.blocks.0.norm2.bias", "clap.nvclap.layers.3.blocks.0.mlp.fc1.weight", "clap.nvclap.layers.3.blocks.0.mlp.fc1.bias", "clap.nvclap.layers.3.blocks.0.mlp.fc2.weight", "clap.nvclap.layers.3.blocks.0.mlp.fc2.bias", "clap.nvclap.layers.3.blocks.1.norm1.weight", "clap.nvclap.layers.3.blocks.1.norm1.bias", "clap.nvclap.layers.3.blocks.1.attn.relative_position_bias_table", "clap.nvclap.layers.3.blocks.1.attn.relative_position_index", "clap.nvclap.layers.3.blocks.1.attn.qkv.weight", "clap.nvclap.layers.3.blocks.1.attn.qkv.bias", "clap.nvclap.layers.3.blocks.1.attn.proj.weight", "clap.nvclap.layers.3.blocks.1.attn.proj.bias", "clap.nvclap.layers.3.blocks.1.norm2.weight", "clap.nvclap.layers.3.blocks.1.norm2.bias", "clap.nvclap.layers.3.blocks.1.mlp.fc1.weight", "clap.nvclap.layers.3.blocks.1.mlp.fc1.bias", "clap.nvclap.layers.3.blocks.1.mlp.fc2.weight", "clap.nvclap.layers.3.blocks.1.mlp.fc2.bias", "clap.nvclap.norm.weight", "clap.nvclap.norm.bias", "clap.nvclap.tscam_conv.weight", "clap.nvclap.tscam_conv.bias", "clap.nvclap.head.weight", "clap.nvclap.head.bias", "audio_transformer_clap.position_enc.inv_freq", "audio_transformer_clap.layer_stack.0.slf_attn.w_qs.weight", "audio_transformer_clap.layer_stack.0.slf_attn.w_ks.weight", "audio_transformer_clap.layer_stack.0.slf_attn.w_vs.weight", "audio_transformer_clap.layer_stack.0.slf_attn.fc.weight", "audio_transformer_clap.layer_stack.0.slf_attn.layer_norm.weight", "audio_transformer_clap.layer_stack.0.slf_attn.layer_norm.bias", "audio_transformer_clap.layer_stack.0.pos_ffn.w_1.weight", "audio_transformer_clap.layer_stack.0.pos_ffn.w_1.bias", "audio_transformer_clap.layer_stack.0.pos_ffn.w_2.weight", "audio_transformer_clap.layer_stack.0.pos_ffn.w_2.bias", "audio_transformer_clap.layer_stack.0.pos_ffn.layer_norm.weight", "audio_transformer_clap.layer_stack.0.pos_ffn.layer_norm.bias", "audio_transformer_clap.layer_stack.1.slf_attn.w_qs.weight", "audio_transformer_clap.layer_stack.1.slf_attn.w_ks.weight", "audio_transformer_clap.layer_stack.1.slf_attn.w_vs.weight", "audio_transformer_clap.layer_stack.1.slf_attn.fc.weight", "audio_transformer_clap.layer_stack.1.slf_attn.layer_norm.weight", "audio_transformer_clap.layer_stack.1.slf_attn.layer_norm.bias", "audio_transformer_clap.layer_stack.1.pos_ffn.w_1.weight", "audio_transformer_clap.layer_stack.1.pos_ffn.w_1.bias", "audio_transformer_clap.layer_stack.1.pos_ffn.w_2.weight", "audio_transformer_clap.layer_stack.1.pos_ffn.w_2.bias", "audio_transformer_clap.layer_stack.1.pos_ffn.layer_norm.weight", "audio_transformer_clap.layer_stack.1.pos_ffn.layer_norm.bias", "audio_transformer_clap.layer_stack.2.slf_attn.w_qs.weight", "audio_transformer_clap.layer_stack.2.slf_attn.w_ks.weight", "audio_transformer_clap.layer_stack.2.slf_attn.w_vs.weight", "audio_transformer_clap.layer_stack.2.slf_attn.fc.weight", "audio_transformer_clap.layer_stack.2.slf_attn.layer_norm.weight", "audio_transformer_clap.layer_stack.2.slf_attn.layer_norm.bias", "audio_transformer_clap.layer_stack.2.pos_ffn.w_1.weight", "audio_transformer_clap.layer_stack.2.pos_ffn.w_1.bias", "audio_transformer_clap.layer_stack.2.pos_ffn.w_2.weight", "audio_transformer_clap.layer_stack.2.pos_ffn.w_2.bias", "audio_transformer_clap.layer_stack.2.pos_ffn.layer_norm.weight", "audio_transformer_clap.layer_stack.2.pos_ffn.layer_norm.bias", "audio_transformer_clap.layer_norm.weight", "audio_transformer_clap.layer_norm.bias", "lang_encoder.model.embed_tokens.weight", "lang_encoder.model.layers.0.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.0.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.0.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.0.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.0.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.0.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.0.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.0.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.0.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.0.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.0.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.0.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.0.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.0.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.0.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.0.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.0.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.0.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.0.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.0.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.0.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.0.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.0.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.1.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.1.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.1.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.1.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.1.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.1.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.1.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.1.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.1.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.1.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.1.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.1.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.1.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.1.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.1.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.1.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.1.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.1.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.1.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.1.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.1.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.1.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.1.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.2.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.2.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.2.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.2.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.2.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.2.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.2.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.2.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.2.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.2.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.2.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.2.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.2.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.2.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.2.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.2.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.2.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.2.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.2.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.2.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.2.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.2.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.2.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.3.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.3.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.3.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.3.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.3.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.3.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.3.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.3.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.3.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.3.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.3.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.3.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.3.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.3.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.3.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.3.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.3.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.3.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.3.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.3.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.3.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.3.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.3.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.4.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.4.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.4.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.4.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.4.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.4.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.4.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.4.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.4.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.4.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.4.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.4.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.4.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.4.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.4.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.4.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.4.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.4.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.4.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.4.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.4.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.4.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.4.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.5.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.5.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.5.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.5.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.5.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.5.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.5.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.5.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.5.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.5.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.5.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.5.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.5.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.5.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.5.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.5.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.5.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.5.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.5.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.5.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.5.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.5.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.5.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.6.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.6.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.6.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.6.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.6.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.6.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.6.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.6.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.6.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.6.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.6.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.6.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.6.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.6.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.6.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.6.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.6.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.6.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.6.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.6.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.6.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.6.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.6.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.7.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.7.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.7.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.7.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.7.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.7.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.7.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.7.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.7.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.7.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.7.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.7.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.7.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.7.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.7.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.7.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.7.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.7.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.7.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.7.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.7.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.7.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.7.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.8.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.8.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.8.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.8.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.8.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.8.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.8.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.8.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.8.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.8.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.8.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.8.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.8.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.8.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.8.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.8.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.8.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.8.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.8.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.8.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.8.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.8.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.8.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.9.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.9.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.9.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.9.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.9.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.9.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.9.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.9.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.9.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.9.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.9.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.9.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.9.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.9.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.9.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.9.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.9.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.9.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.9.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.9.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.9.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.9.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.9.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.10.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.10.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.10.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.10.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.10.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.10.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.10.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.10.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.10.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.10.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.10.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.10.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.10.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.10.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.10.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.10.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.10.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.10.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.10.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.10.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.10.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.10.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.10.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.11.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.11.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.11.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.11.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.11.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.11.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.11.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.11.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.11.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.11.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.11.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.11.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.11.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.11.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.11.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.11.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.11.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.11.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.11.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.11.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.11.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.11.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.11.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.12.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.12.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.12.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.12.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.12.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.12.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.12.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.12.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.12.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.12.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.12.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.12.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.12.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.12.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.12.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.12.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.12.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.12.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.12.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.12.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.12.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.12.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.12.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.13.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.13.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.13.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.13.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.13.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.13.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.13.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.13.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.13.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.13.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.13.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.13.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.13.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.13.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.13.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.13.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.13.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.13.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.13.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.13.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.13.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.13.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.13.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.14.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.14.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.14.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.14.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.14.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.14.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.14.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.14.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.14.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.14.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.14.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.14.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.14.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.14.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.14.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.14.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.14.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.14.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.14.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.14.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.14.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.14.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.14.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.15.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.15.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.15.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.15.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.15.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.15.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.15.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.15.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.15.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.15.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.15.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.15.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.15.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.15.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.15.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.15.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.15.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.15.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.15.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.15.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.15.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.15.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.15.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.16.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.16.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.16.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.16.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.16.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.16.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.16.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.16.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.16.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.16.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.16.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.16.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.16.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.16.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.16.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.16.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.16.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.16.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.16.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.16.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.16.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.16.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.16.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.17.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.17.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.17.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.17.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.17.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.17.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.17.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.17.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.17.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.17.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.17.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.17.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.17.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.17.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.17.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.17.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.17.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.17.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.17.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.17.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.17.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.17.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.17.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.18.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.18.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.18.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.18.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.18.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.18.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.18.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.18.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.18.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.18.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.18.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.18.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.18.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.18.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.18.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.18.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.18.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.18.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.18.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.18.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.18.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.18.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.18.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.19.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.19.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.19.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.19.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.19.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.19.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.19.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.19.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.19.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.19.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.19.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.19.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.19.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.19.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.19.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.19.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.19.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.19.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.19.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.19.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.19.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.19.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.19.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.20.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.20.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.20.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.20.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.20.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.20.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.20.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.20.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.20.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.20.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.20.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.20.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.20.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.20.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.20.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.20.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.20.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.20.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.20.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.20.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.20.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.20.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.20.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.21.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.21.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.21.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.21.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.21.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.21.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.21.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.21.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.21.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.21.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.21.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.21.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.21.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.21.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.21.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.21.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.21.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.21.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.21.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.21.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.21.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.21.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.21.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.22.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.22.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.22.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.22.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.22.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.22.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.22.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.22.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.22.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.22.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.22.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.22.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.22.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.22.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.22.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.22.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.22.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.22.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.22.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.22.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.22.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.22.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.22.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.23.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.23.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.23.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.23.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.23.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.23.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.23.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.23.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.23.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.23.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.23.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.23.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.23.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.23.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.23.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.23.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.23.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.23.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.23.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.23.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.23.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.23.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.23.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.24.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.24.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.24.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.24.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.24.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.24.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.24.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.24.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.24.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.24.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.24.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.24.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.24.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.24.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.24.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.24.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.24.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.24.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.24.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.24.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.24.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.24.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.24.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.25.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.25.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.25.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.25.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.25.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.25.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.25.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.25.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.25.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.25.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.25.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.25.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.25.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.25.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.25.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.25.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.25.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.25.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.25.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.25.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.25.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.25.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.25.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.26.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.26.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.26.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.26.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.26.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.26.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.26.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.26.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.26.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.26.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.26.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.26.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.26.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.26.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.26.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.26.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.26.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.26.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.26.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.26.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.26.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.26.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.26.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.layers.27.gated_cross_attn_layer_sound.attn_gate", "lang_encoder.model.layers.27.gated_cross_attn_layer_sound.ff_gate", "lang_encoder.model.layers.27.gated_cross_attn_layer_sound.attn.norm.weight", "lang_encoder.model.layers.27.gated_cross_attn_layer_sound.attn.norm.bias", "lang_encoder.model.layers.27.gated_cross_attn_layer_sound.attn.to_q.weight", "lang_encoder.model.layers.27.gated_cross_attn_layer_sound.attn.to_kv.weight", "lang_encoder.model.layers.27.gated_cross_attn_layer_sound.attn.to_out.weight", "lang_encoder.model.layers.27.gated_cross_attn_layer_sound.ff.0.weight", "lang_encoder.model.layers.27.gated_cross_attn_layer_sound.ff.0.bias", "lang_encoder.model.layers.27.gated_cross_attn_layer_sound.ff.1.weight", "lang_encoder.model.layers.27.gated_cross_attn_layer_sound.ff.3.weight", "lang_encoder.model.layers.27.decoder_layer.self_attn.q_proj.weight", "lang_encoder.model.layers.27.decoder_layer.self_attn.q_proj.bias", "lang_encoder.model.layers.27.decoder_layer.self_attn.k_proj.weight", "lang_encoder.model.layers.27.decoder_layer.self_attn.k_proj.bias", "lang_encoder.model.layers.27.decoder_layer.self_attn.v_proj.weight", "lang_encoder.model.layers.27.decoder_layer.self_attn.v_proj.bias", "lang_encoder.model.layers.27.decoder_layer.self_attn.o_proj.weight", "lang_encoder.model.layers.27.decoder_layer.mlp.gate_proj.weight", "lang_encoder.model.layers.27.decoder_layer.mlp.up_proj.weight", "lang_encoder.model.layers.27.decoder_layer.mlp.down_proj.weight", "lang_encoder.model.layers.27.decoder_layer.input_layernorm.weight", "lang_encoder.model.layers.27.decoder_layer.post_attention_layernorm.weight", "lang_encoder.model.norm.weight"], "model_chunk_1": ["lang_encoder.lm_head.weight", "lang_encoder.old_decoder_blocks.0.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.0.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.0.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.0.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.0.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.0.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.0.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.0.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.0.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.0.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.0.input_layernorm.weight", "lang_encoder.old_decoder_blocks.0.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.1.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.1.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.1.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.1.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.1.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.1.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.1.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.1.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.1.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.1.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.1.input_layernorm.weight", "lang_encoder.old_decoder_blocks.1.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.2.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.2.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.2.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.2.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.2.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.2.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.2.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.2.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.2.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.2.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.2.input_layernorm.weight", "lang_encoder.old_decoder_blocks.2.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.3.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.3.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.3.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.3.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.3.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.3.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.3.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.3.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.3.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.3.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.3.input_layernorm.weight", "lang_encoder.old_decoder_blocks.3.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.4.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.4.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.4.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.4.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.4.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.4.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.4.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.4.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.4.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.4.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.4.input_layernorm.weight", "lang_encoder.old_decoder_blocks.4.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.5.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.5.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.5.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.5.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.5.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.5.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.5.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.5.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.5.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.5.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.5.input_layernorm.weight", "lang_encoder.old_decoder_blocks.5.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.6.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.6.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.6.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.6.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.6.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.6.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.6.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.6.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.6.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.6.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.6.input_layernorm.weight", "lang_encoder.old_decoder_blocks.6.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.7.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.7.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.7.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.7.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.7.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.7.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.7.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.7.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.7.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.7.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.7.input_layernorm.weight", "lang_encoder.old_decoder_blocks.7.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.8.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.8.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.8.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.8.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.8.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.8.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.8.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.8.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.8.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.8.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.8.input_layernorm.weight", "lang_encoder.old_decoder_blocks.8.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.9.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.9.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.9.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.9.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.9.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.9.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.9.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.9.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.9.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.9.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.9.input_layernorm.weight", "lang_encoder.old_decoder_blocks.9.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.10.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.10.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.10.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.10.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.10.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.10.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.10.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.10.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.10.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.10.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.10.input_layernorm.weight", "lang_encoder.old_decoder_blocks.10.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.11.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.11.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.11.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.11.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.11.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.11.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.11.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.11.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.11.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.11.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.11.input_layernorm.weight", "lang_encoder.old_decoder_blocks.11.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.12.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.12.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.12.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.12.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.12.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.12.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.12.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.12.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.12.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.12.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.12.input_layernorm.weight", "lang_encoder.old_decoder_blocks.12.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.13.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.13.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.13.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.13.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.13.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.13.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.13.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.13.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.13.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.13.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.13.input_layernorm.weight", "lang_encoder.old_decoder_blocks.13.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.14.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.14.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.14.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.14.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.14.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.14.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.14.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.14.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.14.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.14.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.14.input_layernorm.weight", "lang_encoder.old_decoder_blocks.14.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.15.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.15.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.15.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.15.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.15.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.15.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.15.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.15.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.15.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.15.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.15.input_layernorm.weight", "lang_encoder.old_decoder_blocks.15.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.16.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.16.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.16.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.16.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.16.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.16.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.16.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.16.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.16.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.16.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.16.input_layernorm.weight", "lang_encoder.old_decoder_blocks.16.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.17.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.17.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.17.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.17.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.17.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.17.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.17.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.17.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.17.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.17.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.17.input_layernorm.weight", "lang_encoder.old_decoder_blocks.17.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.18.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.18.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.18.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.18.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.18.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.18.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.18.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.18.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.18.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.18.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.18.input_layernorm.weight", "lang_encoder.old_decoder_blocks.18.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.19.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.19.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.19.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.19.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.19.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.19.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.19.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.19.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.19.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.19.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.19.input_layernorm.weight", "lang_encoder.old_decoder_blocks.19.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.20.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.20.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.20.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.20.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.20.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.20.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.20.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.20.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.20.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.20.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.20.input_layernorm.weight", "lang_encoder.old_decoder_blocks.20.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.21.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.21.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.21.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.21.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.21.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.21.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.21.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.21.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.21.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.21.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.21.input_layernorm.weight", "lang_encoder.old_decoder_blocks.21.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.22.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.22.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.22.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.22.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.22.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.22.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.22.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.22.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.22.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.22.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.22.input_layernorm.weight", "lang_encoder.old_decoder_blocks.22.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.23.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.23.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.23.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.23.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.23.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.23.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.23.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.23.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.23.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.23.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.23.input_layernorm.weight", "lang_encoder.old_decoder_blocks.23.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.24.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.24.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.24.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.24.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.24.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.24.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.24.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.24.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.24.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.24.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.24.input_layernorm.weight", "lang_encoder.old_decoder_blocks.24.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.25.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.25.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.25.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.25.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.25.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.25.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.25.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.25.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.25.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.25.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.25.input_layernorm.weight", "lang_encoder.old_decoder_blocks.25.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.26.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.26.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.26.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.26.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.26.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.26.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.26.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.26.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.26.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.26.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.26.input_layernorm.weight", "lang_encoder.old_decoder_blocks.26.post_attention_layernorm.weight", "lang_encoder.old_decoder_blocks.27.self_attn.q_proj.weight", "lang_encoder.old_decoder_blocks.27.self_attn.q_proj.bias", "lang_encoder.old_decoder_blocks.27.self_attn.k_proj.weight", "lang_encoder.old_decoder_blocks.27.self_attn.k_proj.bias", "lang_encoder.old_decoder_blocks.27.self_attn.v_proj.weight", "lang_encoder.old_decoder_blocks.27.self_attn.v_proj.bias", "lang_encoder.old_decoder_blocks.27.self_attn.o_proj.weight", "lang_encoder.old_decoder_blocks.27.mlp.gate_proj.weight", "lang_encoder.old_decoder_blocks.27.mlp.up_proj.weight", "lang_encoder.old_decoder_blocks.27.mlp.down_proj.weight", "lang_encoder.old_decoder_blocks.27.input_layernorm.weight", "lang_encoder.old_decoder_blocks.27.post_attention_layernorm.weight", "lang_encoder.gated_cross_attn_layers_sound.0.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.0.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.0.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.0.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.0.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.0.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.0.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.0.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.0.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.0.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.0.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.1.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.1.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.1.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.1.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.1.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.1.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.1.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.1.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.1.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.1.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.1.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.2.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.2.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.2.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.2.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.2.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.2.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.2.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.2.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.2.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.2.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.2.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.3.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.3.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.3.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.3.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.3.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.3.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.3.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.3.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.3.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.3.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.3.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.4.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.4.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.4.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.4.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.4.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.4.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.4.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.4.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.4.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.4.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.4.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.5.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.5.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.5.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.5.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.5.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.5.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.5.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.5.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.5.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.5.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.5.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.6.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.6.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.6.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.6.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.6.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.6.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.6.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.6.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.6.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.6.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.6.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.7.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.7.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.7.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.7.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.7.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.7.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.7.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.7.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.7.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.7.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.7.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.8.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.8.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.8.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.8.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.8.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.8.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.8.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.8.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.8.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.8.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.8.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.9.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.9.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.9.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.9.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.9.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.9.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.9.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.9.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.9.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.9.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.9.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.10.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.10.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.10.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.10.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.10.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.10.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.10.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.10.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.10.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.10.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.10.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.11.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.11.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.11.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.11.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.11.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.11.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.11.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.11.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.11.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.11.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.11.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.12.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.12.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.12.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.12.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.12.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.12.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.12.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.12.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.12.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.12.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.12.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.13.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.13.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.13.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.13.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.13.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.13.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.13.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.13.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.13.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.13.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.13.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.14.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.14.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.14.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.14.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.14.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.14.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.14.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.14.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.14.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.14.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.14.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.15.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.15.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.15.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.15.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.15.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.15.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.15.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.15.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.15.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.15.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.15.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.16.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.16.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.16.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.16.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.16.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.16.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.16.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.16.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.16.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.16.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.16.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.17.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.17.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.17.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.17.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.17.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.17.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.17.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.17.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.17.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.17.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.17.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.18.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.18.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.18.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.18.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.18.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.18.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.18.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.18.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.18.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.18.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.18.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.19.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.19.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.19.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.19.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.19.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.19.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.19.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.19.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.19.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.19.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.19.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.20.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.20.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.20.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.20.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.20.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.20.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.20.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.20.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.20.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.20.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.20.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.21.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.21.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.21.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.21.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.21.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.21.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.21.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.21.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.21.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.21.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.21.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.22.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.22.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.22.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.22.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.22.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.22.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.22.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.22.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.22.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.22.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.22.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.23.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.23.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.23.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.23.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.23.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.23.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.23.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.23.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.23.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.23.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.23.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.24.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.24.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.24.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.24.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.24.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.24.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.24.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.24.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.24.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.24.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.24.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.25.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.25.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.25.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.25.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.25.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.25.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.25.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.25.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.25.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.25.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.25.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.26.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.26.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.26.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.26.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.26.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.26.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.26.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.26.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.26.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.26.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.26.ff.3.weight", "lang_encoder.gated_cross_attn_layers_sound.27.attn_gate", "lang_encoder.gated_cross_attn_layers_sound.27.ff_gate", "lang_encoder.gated_cross_attn_layers_sound.27.attn.norm.weight", "lang_encoder.gated_cross_attn_layers_sound.27.attn.norm.bias", "lang_encoder.gated_cross_attn_layers_sound.27.attn.to_q.weight", "lang_encoder.gated_cross_attn_layers_sound.27.attn.to_kv.weight", "lang_encoder.gated_cross_attn_layers_sound.27.attn.to_out.weight", "lang_encoder.gated_cross_attn_layers_sound.27.ff.0.weight", "lang_encoder.gated_cross_attn_layers_sound.27.ff.0.bias", "lang_encoder.gated_cross_attn_layers_sound.27.ff.1.weight", "lang_encoder.gated_cross_attn_layers_sound.27.ff.3.weight"]}