hexinran09/xr_dat_test · Hugging Face

DAT Metho test

Experiment set checkpoint-542

知识蒸馏的基本概念传统概念大型、复杂的模型（Teacher模型）将其知识传递给更小、更高效的模型（student），这一过程帮助减少模型部署时所需的资源，使得模型能够在资源受限的环境中运行，例如移动设备或边缘计算平台。大模型背景下在大型语言模型（LLMs）的背景下，知识蒸馏的目的不仅仅是简化模型结构，而且还包括提取和迁移模型的深层次知识和理解能力。这种知识不仅限于模型的直接输出，还包括其决策过程、推理模式和认知策略。通过设计精确的提示（prompts），可以从LLMs中提取特定领域的知识，从而使学生模型不仅能够模仿教师模型的答案，还能学习其推理过程。数据增强(DA)和知识蒸馏(KD)的关系知识蒸馏（KD）和数据增强（DA）在提升小型模型性能方面相辅相成。简单来说，KD是一种让小型模型（学生）从大型模型（教师）学习的过程，而DA则是扩充数据集的方法，通过生成新的、多样化的训练样本来提高模型的泛化能力。在这个过程中，DA帮助生成更多的训练数据，这些数据随后通过KD过程使得学生模型能更好地学习教师模型的行为和决策方式。通过结合这两种技术，可以制作出既小巧又强大的模型，有效提升其性能和应用范围。