前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >如何从NumPy直接创建RNN?

如何从NumPy直接创建RNN?

作者头像
派大星的数据屋
发布于 2022-04-03 03:33:53
发布于 2022-04-03 03:33:53
1.1K00
代码可运行
举报
运行总次数:0
代码可运行

使用成熟的Tensorflow、PyTorch框架去实现递归神经网络(RNN),已经极大降低了技术的使用门槛。

但是,对于初学者,这还是远远不够的。知其然,更需知其所以然。

要避免低级错误,打好理论基础,然后使用RNN去解决更多实际的问题的话。

那么,有一个有趣的问题可以思考一下:

不使用Tensorflow等框架,只有Numpy的话,你该如何构建RNN?

没有头绪也不用担心。这里便有一项教程:使用Numpy从头构建用于NLP领域的RNN。

可以带你行进一遍RNN的构建流程。

初始化参数

与传统的神经网络不同,RNN具有3个权重参数,即:

输入权重(input weights),内部状态权重(internal state weights)和输出权重(output weights)

首先用随机数值初始化上述三个参数。

之后,将词嵌入维度(word_embedding dimension)和输出维度(output dimension)分别初始化为100和80。

输出维度是词汇表中存在的唯一词向量的总数。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hidden_dim = 100       
output_dim = 80 # this is the total unique words in the vocabulary
input_weights = np.random.uniform(0, 1, (hidden_dim,hidden_dim))
internal_state_weights = np.random.uniform(0,1, (hidden_dim, hidden_dim))
output_weights = np.random.uniform(0,1, (output_dim,hidden_dim))

变量prev_memory指的是internal_state(这些是先前序列的内存)。

其他参数也给予了初始化数值。

input_weight梯度,internal_state_weight梯度和output_weight梯度分别命名为dU,dW和dV。

变量bptt_truncate表示网络在反向传播时必须回溯的时间戳数,这样做是为了克服梯度消失的问题。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
prev_memory =  np.zeros((hidden_dim,1))
learning_rate = 0.0001    
nepoch = 25               
T = 4   # length of sequence
bptt_truncate = 2 
dU = np.zeros(input_weights.shape)
dV = np.zeros(output_weights.shape)
dW = np.zeros(internal_state_weights.shape)

前向传播

输出和输入向量

例如有一句话为:I like to play.,则假设在词汇表中:

I被映射到索引2,like对应索引45,to对应索引10、**对应索引64而标点符号.** 对应索引1。

为了展示从输入到输出的情况,我们先随机初始化每个单词的词嵌入。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
input_string = [2,45,10,65]
embeddings = [] # this is the sentence embedding list that contains the embeddings for each word
for i in range(0,T):
    x = np.random.randn(hidden_dim,1)
    embeddings.append(x)

输入已经完成,接下来需要考虑输出。

在本项目中,RNN单元接受输入后,输出的是下一个最可能出现的单词。

用于训练RNN,在给定第t+1个词作为输出的时候将第t个词作为输入,例如:在RNN单元输出字为“like”的时候给定的输入字为“I”.

现在输入是嵌入向量的形式,而计算损失函数(Loss)所需的输出格式是独热编码(One-Hot)矢量。

这是对输入字符串中除第一个单词以外的每个单词进行的操作,因为该神经网络学习只学习的是一个示例句子,而初始输入是该句子的第一个单词。

RNN的黑箱计算

现在有了权重参数,也知道输入和输出,于是可以开始前向传播的计算。

训练神经网络需要以下计算:

其中:

U代表输入权重、W代表内部状态权重,V代表输出权重。

输入权重乘以input(x),内部状态权重乘以前一层的激活(prev_memory)。

层与层之间使用的激活函数用的是tanh。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def tanh_activation(Z):
     return (np.exp(Z)-np.exp(-Z))/(np.exp(Z)-np.exp(-Z)) # this is the tanh function can also be written as np.tanh(Z)
def softmax_activation(Z):
        e_x = np.exp(Z - np.max(Z))  # this is the code for softmax function 
        return e_x / e_x.sum(axis=0) 

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def Rnn_forward(input_embedding, input_weights, internal_state_weights, prev_memory,output_weights):
    forward_params = []
    W_frd = np.dot(internal_state_weights,prev_memory)
    U_frd = np.dot(input_weights,input_embedding)
    sum_s = W_frd + U_frd
    ht_activated = tanh_activation(sum_s)
    yt_unactivated = np.asarray(np.dot(output_weights,  tanh_activation(sum_s)))
    yt_activated = softmax_activation(yt_unactivated)
    forward_params.append([W_frd,U_frd,sum_s,yt_unactivated])
    return ht_activated,yt_activated,forward_params

计算损失函数

之后损失函数使用的是交叉熵损失函数,由下式给出:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def calculate_loss(output_mapper,predicted_output):
    total_loss = 0
    layer_loss = []
    for y,y_ in zip(output_mapper.values(),predicted_output): # this for loop calculation is for the first equation, where loss for each time-stamp is calculated
        loss = -sum(y[i]*np.log2(y_[i]) for i in range(len(y)))
        loss = loss/ float(len(y))
        layer_loss.append(loss) 
    for i in range(len(layer_loss)): #this the total loss calculated for all the time-stamps considered together. 
        total_loss  = total_loss + layer_loss[i]
    return total_loss/float(len(predicted_output))

最重要的是,我们需要在上面的代码中看到第5行。

正如所知,ground_truth output(y)的形式是[0,0,….,1,…0]和predicted_output(y^hat)是[0.34,0.03,……,0.45]的形式,我们需要损失是单个值来从它推断总损失。

为此,使用sum函数来获得特定时间戳下y和y^hat向量中每个值的误差之和。

total_loss是整个模型(包括所有时间戳)的损失。

反向传播

反向传播的链式法则:

如上图所示:

Cost代表误差,它表示的是y^hat到y的差值。

由于Cost是的函数输出,因此激活a所反映的变化由dCost/da表示。

实际上,这意味着从激活节点的角度来看这个变化(误差)值。

类似地,a相对于z的变化表示为da/dz,z相对于w的变化表示为dw/dz。

最终,我们关心的是权重的变化(误差)有多大。

而由于权重与Cost之间没有直接关系,因此期间各个相对的变化值可以直接相乘(如上式所示)。

RNN的反向传播

由于RNN中存在三个权重,因此我们需要三个梯度。input_weights(dLoss / dU),internal_state_weights(dLoss / dW)和output_weights(dLoss / dV)的梯度。

这三个梯度的链可以表示如下:

所述dLoss/dy_unactivated代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def delta_cross_entropy(predicted_output,original_t_output):
    li = []
    grad = predicted_output
    for i,l in enumerate(original_t_output): #check if the value in the index is 1 or not, if yes then take the same index value from the predicted_ouput list and subtract 1 from it. 
        if l == 1:
    #grad = np.asarray(np.concatenate( grad, axis=0 ))
            grad[i] -= 1
    return grad

计算两个梯度函数,一个是multiplication_backward,另一个是additional_backward。

在multiplication_backward的情况下,返回2个参数,一个是相对于权重的梯度(dLoss / dV),另一个是链梯度(chain gradient),该链梯度将成为计算另一个权重梯度的链的一部分。

在addition_backward的情况下,在计算导数时,加法函数(ht_unactivated)中各个组件的导数为1。例如:dh_unactivated / dU_frd=1(h_unactivated = U_frd + W_frd),且dU_frd / dU_frd的导数为1。

所以,计算梯度只需要这两个函数。multiplication_backward函数用于包含向量点积的方程,addition_backward用于包含两个向量相加的方程。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def multiplication_backward(weights,x,dz):
    gradient_weight = np.array(np.dot(np.asmatrix(dz),np.transpose(np.asmatrix(x))))
    chain_gradient = np.dot(np.transpose(weights),dz)
    return gradient_weight,chain_gradient

def add_backward(x1,x2,dz):    # this function is for calculating the derivative of ht_unactivated function
    dx1 = dz * np.ones_like(x1)
    dx2 = dz * np.ones_like(x2)
    return dx1,dx2

def tanh_activation_backward(x,top_diff):
    output = np.tanh(x)
    return (1.0 - np.square(output)) * top_diff

至此,已经分析并理解了RNN的反向传播,目前它是在单个时间戳上实现它的功能,之后可以将其用于计算所有时间戳上的梯度。

如下面的代码所示,forward_params_t是一个列表,其中包含特定时间步长的网络的前向参数。

变量ds是至关重要的部分,因为此行代码考虑了先前时间戳的隐藏状态,这将有助于提取在反向传播时所需的信息。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def single_backprop(X,input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,diff_s,prev_s):# inlide all the param values for all the data thats there
    W_frd = forward_params_t[0][0] 
    U_frd = forward_params_t[0][1]
    ht_unactivated = forward_params_t[0][2]
    yt_unactivated = forward_params_t[0][3]
    dV,dsv = multiplication_backward(output_weights,ht_activated,dLo)
    ds = np.add(dsv,diff_s) # used for truncation of memory 
    dadd = tanh_activation_backward(ht_unactivated, ds)
    dmulw,dmulu = add_backward(U_frd,W_frd,dadd)
    dW, dprev_s = multiplication_backward(internal_state_weights, prev_s ,dmulw)
    dU, dx = multiplication_backward(input_weights, X, dmulu) #input weights
    return (dprev_s, dU, dW, dV)

对于RNN,由于存在梯度消失的问题,所以采用的是截断的反向传播,而不是使用原始的。

在此技术中,当前单元将只查看k个时间戳,而不是只看一次时间戳,其中k表示要回溯的先前单元的数量。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def rnn_backprop(embeddings,memory,output_t,dU,dV,dW,bptt_truncate,input_weights,output_weights,internal_state_weights):
    T = 4
    # we start the backprop from the first timestamp. 
    for t in range(4):
        prev_s_t = np.zeros((hidden_dim,1)) #required as the first timestamp does not have a previous memory, 
        diff_s = np.zeros((hidden_dim,1)) # this is used for the truncating purpose of restoring a previous information from the before level
        predictions = memory["yt" + str(t)]
        ht_activated = memory["ht" + str(t)]
        forward_params_t = memory["params"+ str(t)] 
        dLo = delta_cross_entropy(predictions,output_t[t]) #the loss derivative for that particular timestamp
        dprev_s, dU_t, dW_t, dV_t = single_backprop(embeddings[t],input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,diff_s,prev_s_t)
        prev_s_t = ht_activated
        prev = t-1
        dLo = np.zeros((output_dim,1)) #here the loss deriative is turned to 0 as we do not require it for the turncated information.
        # the following code is for the trunated bptt and its for each time-stamp. 
        for i in range(t-1,max(-1,t-bptt_truncate),-1):
            forward_params_t = memory["params" + str(i)]
            ht_activated = memory["ht" + str(i)]
            prev_s_i = np.zeros((hidden_dim,1)) if i == 0 else memory["ht" + str(prev)]
            dprev_s, dU_i, dW_i, dV_i = single_backprop(embeddings[t] ,input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,dprev_s,prev_s_i)
            dU_t += dU_i #adding the previous gradients on lookback to the current time sequence 
            dW_t += dW_i
        dV += dV_t 
        dU += dU_t
        dW += dW_t
    return (dU, dW, dV)

权重更新

一旦使用反向传播计算了梯度,则更新权重势在必行,而这些是通过批量梯度下降法

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def gd_step(learning_rate, dU,dW,dV, input_weights, internal_state_weights,output_weights ):
    input_weights -= learning_rate* dU
    internal_state_weights -= learning_rate * dW
    output_weights -=learning_rate * dV
    return input_weights,internal_state_weights,output_weights

训练序列

完成了上述所有步骤,就可以开始训练神经网络了。

用于训练的学习率是静态的,还可以使用逐步衰减等更改学习率的动态方法。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def train(T, embeddings,output_t,output_mapper,input_weights,internal_state_weights,output_weights,dU,dW,dV,prev_memory,learning_rate=0.001, nepoch=100, evaluate_loss_after=2):
    losses = []
    for epoch in range(nepoch):
        if(epoch % evaluate_loss_after == 0):
                output_string,memory = full_forward_prop(T, embeddings ,input_weights,internal_state_weights,prev_memory,output_weights)
                loss = calculate_loss(output_mapper, output_string)
                losses.append(loss)
                time = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
                print("%s: Loss after  epoch=%d: %f" % (time,epoch, loss))
                sys.stdout.flush()
        dU,dW,dV = rnn_backprop(embeddings,memory,output_t,dU,dV,dW,bptt_truncate,input_weights,output_weights,internal_state_weights)
        input_weights,internal_state_weights,output_weights= sgd_step(learning_rate,dU,dW,dV,input_weights,internal_state_weights,output_weights)
    return losses

losses = train(T, embeddings,output_t,output_mapper,input_weights,internal_state_weights,output_weights,dU,dW,dV,prev_memory,learning_rate=0.0001, nepoch=10, evaluate_loss_after=2)

恭喜你!你现在已经实现从头建立递归神经网络了!

那么,是时候了,继续向LSTM和GRU等的高级架构前进吧。

原文链接:

https://medium.com/@rndholakia/implementing-recurrent-neural-network-using-numpy-c359a0a68a67

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python大数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
RNN入门与实践
作者:叶虎 编辑:黄俊嘉 引言 递归神经网络(Recurrent Neural Network, RNN)是神经网络家族的重要成员,而且也是深度学习领域中的得力干将,因为深度学习广泛应用的领域如语音识别,机器翻译等都有RNN的身影。与经典的神经网络不同,RNN主要解决的是样本数据为序列的建模问题,如语音序列,语言序列。因为对于序列数据来说,大部分情况下序列的每个元素并不是相互独立,其存在依赖关系,而RNN特别适合这类建模问题。本文会介绍RNN的原理及应用,并动手实现一个RNN预测模型。 RNN原理 RNN
机器学习算法工程师
2018/03/06
1.3K0
RNN入门与实践
数据科学家必读:从零开始用Python构建循环神经网络
人类不会每听到一个句子就对语言进行重新理解。看到一篇文章时,我们会根据之前对这些词的理解来了解背景。我们将其定义为记忆力。
IT阅读排行榜
2019/04/24
5900
数据科学家必读:从零开始用Python构建循环神经网络
【ML系列】手把手教你用Numpy构建神经网络!(附代码)
比如使用Keras,TensorFlow或PyTorch这样的高级框架,我们可以快速构建非常复杂的模型。但是,需要花时间去了解其内部结构并理解基本原理。今天,将尝试利用现有知识,并仅使用Numpy去构建一个完全可操作的神经网络。最后,我们还将测试我们的模型,并将其性能与Keras构建的NN进行比较。
量化投资与机器学习微信公众号
2018/10/25
1.2K0
【ML系列】手把手教你用Numpy构建神经网络!(附代码)
NumPyML 源码解析(二)
The activations module implements several common activation functions:
ApacheCN_飞龙
2024/02/17
1970
基于NumPy手写神经网络
Keras、TensorFlow、PyTorch等高层框架让我们可以快速搭建复杂模型。然而,花一点时间了解下底层概念是值得的。前不久我发过一篇文章,以简单的方式解释了神经网络是如何工作的。但这是一篇高度理论性的文章,主要以数学为主(数学是神经网络超能力的来源)。我打算以实践的方式继续这一主题,在这篇文章中,我们将尝试仅仅基于NumPy创建一个可以工作的神经网络。最后,我们将测试一下创建的模型——用它来解决简单的分类问题,并和基于Keras搭建的神经网络比较一下。
zenRRan
2019/11/19
1.2K0
资源 | 如何只用NumPy码一个神经网络
注:本文将包含大量用 Python 编写的代码片段。希望读起来不会太无聊。:)所有源代码都可以在作者的 GitHub 上找到。链接:https://github.com/SkalskiP/ILearnDeepLearning.py
机器之心
2018/12/05
4320
NLP——用RNN解决POS Tagging问题
这一节总体上是一个对我们这一门课的一次proj的总结,这一次proj是一次深度学习(deep learning)模型的完整模型搭建,也是一个对于深度学习初学者来说极为具有挑战性的一次proj,因为会遇到各种各样意想不到的问题。因此这一篇文章也是一次完整的,从读取数据到跑出模型的全过程。
学弱猹
2021/10/27
1.7K0
从0到1:实现循环神经网络Vanilla RNN(序列分析)
RNN是深度学习算法的核心构件,为了更好的理解算法,我们从动机、结构,到反向传播和学习策略,逐步分析,然后不借助深度学习框架,实现RNN模型,再应用于时序数据的分析预测,验证这个模型。
SIGAI学习与实践平台
2019/06/01
1.7K0
05.序列模型 W1.循环序列模型(作业:手写RNN+恐龙名字生成)
RNN 模型对序列问题(如NLP)非常有效,因为它有记忆,能记住一些信息,并传递至后面的时间步当中
Michael阿明
2021/02/19
1.3K0
机器学习|从0开发大模型之模型预训练
继续写《从0开发大模型》系列文章,本文主要介绍预训练过程。 预训练是目的是让模型学习知识,需要将预处理的数据(《机器学习|从0开发大模型之数据预处理》)中生成的 pretrain_data.bin 文件的上下文全部学习到,那预训练怎么做呢?
用户1904552
2025/02/27
1500
机器学习|从0开发大模型之模型预训练
计算机视觉处理三大任务:分类、定位和检测
该笔记是以斯坦福cs231n课程(深度学习计算机视觉课程)的python编程任务为主线,展开对该课程主要内容的理解和部分数学推导。这篇学习笔记是关于计算机视觉处理的,分为两篇文章撰写完成。此为第一篇,
用户1332428
2018/03/08
2.7K0
计算机视觉处理三大任务:分类、定位和检测
Image Captioning with RNNs
0.导语1.下载数据集2.Look at the data3.Vanilla RNN3.1 step forward3.2 step backward3.3 forward3.4 backward4.Word embedding4.1 forward4.2 backward5.RNN for image captioning6.问题7.作者的话
公众号guangcity
2019/09/20
5520
Image Captioning with RNNs
Python 元学习实用指南:1~5
元学习是当前人工智能领域最有前途和趋势的研究领域之一。 它被认为是获得广义人工智能(AGI)的垫脚石。 在本章中,我们将了解什么是元学习以及为什么元学习是当前人工智能中最令人振奋的研究。 我们将了解什么是少拍,单拍和零拍学习,以及如何在元学习中使用它。 我们还将学习不同类型的元学习技术。 然后,我们将探索学习通过梯度下降学习梯度下降的概念,其中我们了解如何使用元学习器来学习梯度下降优化。 继续进行,我们还将学习优化作为少样本学习的模型,我们将了解如何在少样本学习设置中将元学习器用作优化算法。
ApacheCN_飞龙
2023/04/24
9720
Python 元学习实用指南:1~5
人工智能创新挑战赛:助力精准气象和海洋预测Baseline3:TCNN+RNN模型、SA-ConvLSTM模型
本次任务我们将学习来自TOP选手“swg-lhl”的冠军建模方案,该方案中采用的模型是TCNN+RNN。
汀丶人工智能
2023/06/06
8070
人工智能创新挑战赛:助力精准气象和海洋预测Baseline3:TCNN+RNN模型、SA-ConvLSTM模型
卷积神经网络
0.说在前面1.卷积神经网络1.1 卷积层1.2 汇聚层1.3 全连接层2.卷积层实现2.1 前向传播2.2 反向传播3.汇聚层3.1 前向传播3.2 反向传播4.组合层5.三层卷积神经网络5.1 架构5.2 类构造方法5.3 计算损失5.3.1 前向传播5.3.2 反向传播6.Spatial batch normalization6.1 要求解读6.2 前向传播6.3 反向传播7.Group Normalization7.1 什么是Group Normalization?7.2 前向传播7.3 反向传播8.作者的话
公众号guangcity
2019/09/20
1.3K0
卷积神经网络
序列模型第一周作业1: Building your Recurrent Neural Network - Step by Step
Welcome to Course 5’s first assignment! In this assignment, you will implement your first Recurrent Neural Network in numpy.
Steve Wang
2019/05/28
2K0
序列模型第一周作业1: Building your Recurrent Neural Network - Step by Step
学习笔记CB012: LSTM 简单实现、完整实现、torch、小说训练word2vec lstm机器人
LSTM(Long Short Tem Memory)特殊递归神经网络,神经元保存历史记忆,解决自然语言处理统计方法只能考虑最近n个词语而忽略更久前词语的问题。用途:word representation(embedding)(词语向量)、sequence to sequence learning(输入句子预测句子)、机器翻译、语音识别等。
利炳根
2018/05/01
1.5K2
【深度学习】与【PyTorch实战】
深度学习是机器学习的一个分支,主要通过多层神经网络进行数据特征的自动提取和建模。本文将通过PyTorch这个深度学习框架,从理论到实战,详细介绍深度学习的基本概念、模型构建、训练和评估的过程。我会包含实例和代码,以帮助理解。
小李很执着
2024/06/15
1340
【深度学习】与【PyTorch实战】
神经网络编程 - 前向传播和后向传播(附完整代码)
【导读】本文的目的是深入分析深层神经网络,剖析神经网络的结构,并在此基础上解释重要概念,具体分为两部分:神经网络编程和应用。在神经网络编程部分,讲解了前向传播和反向传播的细节,包括初始化参数、激活函数
WZEARW
2018/04/16
1.5K0
神经网络编程 - 前向传播和后向传播(附完整代码)
Building_a_Recurrent_Neural_Network_Step_by_Step_v3b
Welcome to Course 5's first assignment! In this assignment, you will implement key components of a Recurrent Neural Network in numpy.
列夫托尔斯昊
2020/08/25
2.1K0
Building_a_Recurrent_Neural_Network_Step_by_Step_v3b
推荐阅读
相关推荐
RNN入门与实践
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验