编辑
2023-08-17
深度学习
0

Retentive Net -> 论文还没仔细读,扒一扒源码先。

ArXiv -> https://arxiv.org/abs/2307.08621
code -> https://github.com/microsoft/torchscale/blob/main/torchscale/architecture/retnet.py

编辑
2023-08-03
深度学习
0

不像TensorFlow中可以直接引入EarlyStopping, Pytorch需要自己来写早停机制的,网上已经有现成的代码了,这里在博客里面记录一下,方便之后copy.

编辑
2023-07-02
深度学习
0

五月份差不多选定数据集开始瞎折腾,到七月一号的DDL交稿,两个月搓出来的一篇学术垃圾投出去了,虽然大概率中不了,但这两个月我基本上踩完了所有能踩的坑,这里来复盘记录一下…… “昭昭前事,惕惕后人”

编辑
2023-06-04
深度学习
0

常用的attention公式如下:

Attention(Q,K,V)=softmax(QKTdk)V\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V

参考知乎上的一个回答:https://www.zhihu.com/question/325839123 今天来记录一下Q,K,V这三个玩意具体都指的是啥。、

编辑
2023-05-24
深度学习
0

具体报错如下:

Output 0 of SplitBackward0 is a view and is being modified inplace. This view is the output of a function that returns multiple views. Such functions do not allow the output views to be modified inplace. You should replace the inplace operation by an out-of-place one.