Overview
LoRA 的概念其實很簡單,用途也很單純,作者在文章的一開始做出了一個猜想,「模型的學習量是 Low-rank 的」,所以他將一個線性層拆解為一個凍結的 Weights 跟一個學習量 $\Delta W$,並將 $\Delta W$ 拆解為兩個 Low-rank 的矩陣:
$$
\Delta W = W + AB
$$
- $W$ : 凍結的 Base Model 的參數
- $A B$: 兩個 Low Rank 矩陣相乘
- $r$ :是選定的 rank,通常很小(如:4、8、16)
因此我們只需要訓練 A 、B 這兩個 Low Rank 的矩陣,而不是完整的模型。
