Alex遇到的一个问题

网络结构如图的情况下:

image-20200316142228958

同一套代码,跑出了两个极端的base,目前发现是前向传播的矩阵输出都一样,导致的梯度消失问题,

日中log如下:

 

三个迭代中输入相差很大,输出相差无几,还没找到原因,在不同的卡上run的结果都是一样的,现在把代码留下来记录一下: