課程介紹
本課程聚焦于 DeepSeek R1 模型蒸餾 Qwen2 1.5B 的實(shí)踐操作,旨在讓學(xué)員掌握模型蒸餾的全流程,包括環(huán)境部署、數(shù)據(jù)集準(zhǔn)備、蒸餾過(guò)程及調(diào)用測(cè)試,提升學(xué)員在大模型應(yīng)用與優(yōu)化領(lǐng)域的實(shí)踐能力。課程還包含DeepSeek V3 模型核心原理、整體架構(gòu)、分布式基礎(chǔ)概念、MLA嵌在注意力從自回歸掩碼看KV緩存機(jī)制,針對(duì)KV緩存的改進(jìn),DeepSeek MOE架構(gòu)與創(chuàng)新介紹。
培訓(xùn)對(duì)象
從事相關(guān)工作及對(duì)課程內(nèi)容感興趣的人員。
課程收益
能夠獨(dú)立搭建 DeepSeek R1 模型蒸餾 Qwen2 1.5B 的實(shí)驗(yàn)環(huán)境,包括創(chuàng)建虛擬環(huán)境、安裝相關(guān)依賴(lài)和工具;
熟悉多種可用于模型蒸餾的數(shù)據(jù)集,掌握數(shù)據(jù)集的清洗和準(zhǔn)備方法,能根據(jù)需求篩選和處理數(shù)據(jù);
理解并熟練執(zhí)行模型蒸餾過(guò)程,運(yùn)用 Llama - Factory 進(jìn)行全量指令微調(diào),優(yōu)化模型性能;
學(xué)會(huì)對(duì)蒸餾前后的模型進(jìn)行調(diào)用測(cè)試,準(zhǔn)確評(píng)估模型在實(shí)際問(wèn)題解決中的表現(xiàn),分析模型的優(yōu)勢(shì)與不足。
知識(shí)概要
-- DeepSeek-R1蒸餾Qwen1.5B實(shí)戰(zhàn);
-- DeepSeek-V3模型核心原理與架構(gòu)介紹;
-- DeepSeek v3 MLA 機(jī)制與混合專(zhuān)家模型介紹。
課程大綱
DeepSeek-R1蒸餾Qwen1.5B實(shí)戰(zhàn)
模型蒸餾環(huán)境部署
操作系統(tǒng)與配置說(shuō)明
創(chuàng)建虛擬環(huán)境
創(chuàng)建 Jupyter Kernel
安裝 wand
創(chuàng)建主目錄與下載原始模型
安裝 Llama - Factory
模型蒸餾數(shù)據(jù)集準(zhǔn)備
主流推理數(shù)據(jù)集介紹
數(shù)據(jù)清洗過(guò)程
數(shù)據(jù)集下載與準(zhǔn)備
模型蒸餾過(guò)程
上傳微調(diào)腳本
執(zhí)行微調(diào)
調(diào)用測(cè)試
測(cè)試問(wèn)題設(shè)置
普通模型調(diào)用測(cè)試
蒸餾模型調(diào)用測(cè)試
DeepSeek-V3模型核心原理與架構(gòu)介紹
DeepSeekv3 架構(gòu)圖解與基本參數(shù)配置
整體架構(gòu)
不同規(guī)模模型參數(shù)
關(guān)鍵參數(shù)配置
分布式并行化嵌入與映射
ParallelEmbedding 層
線(xiàn)性層相關(guān)實(shí)現(xiàn)
行并行與列并行
RMS Norm 層
Layer Normalization 介紹
LN 與 BN、RMSNorm 的差別
RMSNorm 實(shí)現(xiàn)
旋轉(zhuǎn)位置編碼 ROPE
原理與優(yōu)勢(shì)
具體流程
相關(guān)代碼實(shí)現(xiàn)
DeepSeek v3 的 KV 緩存機(jī)制
工作原理
類(lèi)定義與初始化
forward 方法
DeepSeek v3 MLA 機(jī)制與混合專(zhuān)家模型介紹
DeepSeek v3 的 MOE 混合專(zhuān)家模型
與常見(jiàn)前饋網(wǎng)絡(luò)對(duì)比
SwiGLU 激活函數(shù)
MoE 原理與優(yōu)勢(shì)
MoE 訓(xùn)練流程
專(zhuān)家選擇機(jī)制
瓶頸問(wèn)題與輔助損失
MoE 推理過(guò)程
相關(guān)類(lèi)定義
DeepSeek v3 的 KV 緩存機(jī)制
自回歸算法與 KV 緩存
注意力機(jī)制計(jì)算分析
KV 緩存工作流程
MLA 潛在注意力機(jī)制
相關(guān)類(lèi)定義與初始化
認(rèn)證過(guò)程
無(wú)認(rèn)證考試
開(kāi)班信息
暫無(wú)開(kāi)班信息