台湾李宏毅的深度学习课程小结

首先需要构建一个深度学习神经网络模型,

开启深度学习可归于以下三个步骤

Step1:神经网络模型是一个由简单函数所组成的复杂(复合)函数,通常我们设计一个神经网络模型(结构),用计算机从所给定的数据中训练得到一些参数,这些参数保证我们的模型能够在测试集中达到设计预期的效果,并具有泛化的能力

Step2:根据训练数据、具体任务定义一个代价函数,通过代价函数可以评估参数的有效性,模型中的函数什么样是更优的

Step3:根据前两步骤找出最佳函数,For example 梯度下降的方式

全连接层等概念

 

 

Recurrent结构(RNN)

使神经网络有了记忆,同一个结构(网络)别反复的应用,其优势在于输入一个较为复杂的序列使,无论输入多长,只要由相同结构构成,我们所使用的网络所需的参数都是一样的,不随序列长度变化而变化。    具体参考教科书<<Supervised Sequence Labelling with Recurrent Neural Networks>>

给定一个函数f(具体构成是一系列的矩阵运算)两个输入和两个输出,f被反复利用,而其输出结果也可被复用,以此类推。需要强调的是每一级的h,其输入条件是给定的,保持在设计模型时h^0和h^1的维数必须是一致的,才能在交付f函数执行时的结果得到可迭代的保证。

而RNN的精髓在于使用它,参数较少,虽然较难在训练集上拿到一个比较好的结果,但是一旦训练好了,就比较不容易过拟合,如此就较容易在测试集中得到较好的结果

RNN统一可以做Deep,如上,只需要保证输入到f的维数一致即可

更多详细的RNN

 

 

LSTM

LSTM在将信息传递到下一层级的时候有两条路径,一条路径比较快,另一条路径则比较快,慢的路径可以记住比较久的一些信息。

GRU

上边的每一个颜色的箭头表示一个矩阵,我们可以看到LSTM有四个不同颜色的箭头,而GRU只有3个不同颜色的箭头,也就是说LSTM的输入要乘上四个不同的向量矩阵,而GRU的每个输入只要成上三个不同的向量矩阵,所以说GRU相对于LSTM,运算量会比较小,进一步的GRU所用的参数就会较少,也就更加不容易过拟合。
———————
作者:w_ticker
来源:CSDN
原文:https://blog.csdn.net/jcjx0315/article/details/77160462
版权声明:本文为博主原创文章,转载请附上博文链接!

卷积神经网络CNN