Tom Yeh教授，拿DeepSeek為例，用Excel表格講解其原理

sowang · 發表于 2025-2-6 20:47:39

科羅拉多大學的Tom Yeh教授，拿DeepSeek為例，用Excel表格講解其原理，小白也能聽懂。

視頻總時長1個多小時，Tom Yeh用“Excel表格+公式”的形式，示范矩陣乘法、Softmax，以及各種激活函數。

整個講解過程可謂是簡潔直觀，他不僅用顏色標注了Q、K、V矩陣怎么乘、怎么拼，還一步步演示了“從大維度壓縮到小維度再回來”的過程，讓人看一眼就明白怎么實現。

詳細來說，視頻內容主要包括——

1. 潛在注意力（Latent Attention）

- 這是對傳統多頭注意力（Multi-Head Attention）的一次“壓縮”優化。
- 傳統方式：每個詞向量先變成Query、Key、Value，然后計算點積、Softmax，拼接后投影回去。
- 潛注意力額外增加了一步“降維”或“壓縮”處理，大幅減少訓練參數量，同時保持注意力機制的靈活性。

2. 專家混合層（Mixture of Experts, MoE）

- DeepSeek采用MoE，將前饋層拆分為多個“專家”網絡，并行計算。
- 通過一個Router（路由器）決定每個Token激活哪些專家，類似“定制服務”。
- 優點：
- 模型容量極大，每個專家可以學習不同的特定功能。
- 計算時并非所有專家都對所有Token計算，因此不會導致計算量爆炸。

相信你只要跟著他的Excel思路走一遍，會對Transformer又有新的認識。

視頻時間戳如下：

00:00 簡介
02:00 路線圖
03:48 輸入
05:13 自注意力
26:40 多頭注意力
33:11 潛在注意力
42:26 一位專家
51:14 四位專家
56:25 路由
1:03:28 可視化反向傳播
1:05:14 RoPE
1:07:25 特殊挑戰

Tom Yeh教授，拿DeepSeek為例，用Excel表格講解其原理
https://weibo.com/tv/show/1034:5 ... om=old_pc_videoshow

		自動登錄	找回密碼
密碼			禁止注冊

Tom Yeh教授，拿DeepSeek為例，用Excel表格講解其原理

Tom Yeh教授，拿DeepSeek為例，用Excel表格講解其原理