中文搜索引擎指南網

 找回密碼
 禁止注冊

QQ登錄

只需一步,快速開始

搜索
查看: 2100|回復: 0
打印 上一主題 下一主題

Tom Yeh教授,拿DeepSeek為例,用Excel表格講解其原理

[復制鏈接]
跳轉到指定樓層
1#
發表于 2025-2-6 20:47:39 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
科羅拉多大學的Tom Yeh教授,拿DeepSeek為例,用Excel表格講解其原理,小白也能聽懂。

視頻總時長1個多小時,Tom Yeh用“Excel表格+公式”的形式,示范矩陣乘法、Softmax,以及各種激活函數。

整個講解過程可謂是簡潔直觀,他不僅用顏色標注了Q、K、V矩陣怎么乘、怎么拼,還一步步演示了“從大維度壓縮到小維度再回來”的過程,讓人看一眼就明白怎么實現。

詳細來說,視頻內容主要包括——

1. 潛在注意力(Latent Attention)

- 這是對傳統多頭注意力(Multi-Head Attention)的一次“壓縮”優化。
- 傳統方式:每個詞向量先變成Query、Key、Value,然后計算點積、Softmax,拼接后投影回去。
- 潛注意力額外增加了一步“降維”或“壓縮”處理,大幅減少訓練參數量,同時保持注意力機制的靈活性。

2. 專家混合層(Mixture of Experts, MoE)

- DeepSeek采用MoE,將前饋層拆分為多個“專家”網絡,并行計算。
- 通過一個Router(路由器)決定每個Token激活哪些專家,類似“定制服務”。
- 優點:
- 模型容量極大,每個專家可以學習不同的特定功能。
- 計算時并非所有專家都對所有Token計算,因此不會導致計算量爆炸。

相信你只要跟著他的Excel思路走一遍,會對Transformer又有新的認識。

視頻時間戳如下:

00:00 簡介
02:00 路線圖
03:48 輸入
05:13 自注意力
26:40 多頭注意力
33:11 潛在注意力
42:26 一位專家
51:14 四位專家
56:25 路由
1:03:28 可視化反向傳播
1:05:14 RoPE
1:07:25 特殊挑戰



Tom Yeh教授,拿DeepSeek為例,用Excel表格講解其原理
https://weibo.com/tv/show/1034:5 ... om=old_pc_videoshow
分享到:  QQ好友和群QQ好友和群 QQ空間QQ空間 騰訊微博騰訊微博 騰訊朋友騰訊朋友
收藏收藏

Archiver|手機版|小黑屋|教你搜 ( 魯ICP備16006309號

GMT+8, 2025-8-9 22:40 , Processed in 0.274952 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回復 返回頂部 返回列表