《PaddlePaddle深度学习实战》知识点
188*****018 发布于2020-01-06 浏览:1311 回复:1
0
收藏

推荐书籍《PaddlePaddle深度学习实战》 出版社: 机械工业出版社  ,没有买这本书的朋友可以看一下摘抄下来的知识点

线性代数基础
标量 scalar 标量就是一个实数

向量 vector 向量就是N个实数组成的有序数组,称为N维向量,一般一个N维向量表示一个列向量. 数组中每个元素被称为一个分量,多个向量可以组成一个矩阵.

矩阵 matrix 是一个二维概念,用黑体大写字母表示,矩阵中每个元素使用aij表示

向量的运算主要是加减法和点乘(內积),都需要参与运算的两个向量长度相同,运算规则是对应位置的元素求和或者求差.

 

∑ 是一个求和符号,英语名称:Sigma,汉语名称:西格玛(大写Σ,小写σ):大写Σ用于数学上的总和符号,比如:∑Pi,其中i=1,2,...,T,即为求P1 + P2 + ... + PT的和。

其中i表示下界,n表示上界, k从i开始取数,一直取到n,全部加起来。

 

常见的矩阵运算主要有加,减,乘,转置.

矩阵乘法有两种:点乘(matrix product) 和元素乘(element-wise product)

向量点乘记作 C=AB  ,元素乘 C=A⊙B

点乘运算的前提条件就是矩阵A的列数必须和矩阵B的行数相等.点乘运算不具备交换律.

元素乘又称元素积,元素对应乘积.元素乘要求参与运算的两个矩阵的规模一样即都为M*N.

使用numpy库的广播机制,需要array的维度和另一个array的子维度一致,则在没有对齐的维度上分别执行对位运算.广播机制可以用于加减和元素乘(点乘不可用).

 

范数:机器学习中衡量一个向量大小,通俗来讲是向量的长度

 

导数直观理解是反应瞬时变化率的量.

 

梯度方向就是损失函数中损失减少最快的方向.

numpy模块操作 
数组 array   transpose( )函数实现矩阵转置

变量=np.array(np.arange(矩阵数量).reshape(矩阵行数,矩阵列数)   #创建矩阵

变量=np.abs() #绝对值; 变量=np.sin() #sin函数;  变量=n.exp() #e为底的指数函数

变量=np.power(x,y) #x的y次方;  变量=np.dot()点乘;  np.sum() #求和   

n[.mean() #平均值   np.std() #标准差

广播机制:对于array默认执行对位运算.涉及多个array对位运算需要array的维度一致,如果array的维度和另一个array的子维度一致,则在没有对齐的维度上分别进行运算.

深度学习概论
机器学习的传统算法包括:决策树学习,逻辑推导规划,聚类,分类,回归,贝叶斯网络和神经网络.

人工智能,机器学习,深度学习三者可以简答描述为嵌套关系:人工智能是最早出现的(1950年),范围也最广;随后出现的是机器学习;最内侧是深度学习,也是当今人工智能大爆炸的核心驱动.

机器学习是实现人工智能的方法;深度学习是实现机器学习的技术之一.

相比于传统的机器学习,深度学习不再需要人工的方式进行特征提取,而是自动从简单特征中提取,组合更复杂的特征.

人工智能的主要任务是建立智能信息处理理论,使计算机系统拥有近似人类的智能行为.

 

单层感知机无法解决非线性问题.直到反向传播法(BP算法)被提出,通过增加隐藏层,才真正解决了感知机的局限性.

神经网络中越远离输出层的参数越难以被训练,且层数越多问题越明显,称为”梯度爆炸”问题.

 

算法,算力,大数据驱动人工智能的发展.

图像识别是深度学习最先尝试的领域,但语音识别却最先取得了成功.

自然语言处理是深度学习除了语音和图像识别之外的另一个重要的应用领域.

 

深度学习分层网络包括:输入层,隐层,输出层.

常见的深度学习模型有:全连接网络结构FC,卷积神经网络CNN,循环神经网络RNN

全连接网络结构FC是最基础的神经网络/深度神经网络层,它认为每一层的输入都和上一层的输出有关.FC大多作为卷积神经网络的”防火墙”,当训练集和测试集有较大误差时,保证较大的模型有良好的迁移能力.

 

卷积神经网络CNN是一种专门用来处理具有类似网格结构的数据的神经网络(如图像,像素). 通常使用卷积层,池化层和全连接层去构建CNN结构.

 

循环神经网络RNN是专门用于处理序列数据的神经网络,如音频等.

 

回归模型可以理解为:存在一个点集,用一条曲线去拟合它分布的过程.如果拟合曲线是一条直线,则称为线性回归.如果是一条二次曲线,则称为二次回归.

所谓迭代过程就是从初始点沿着曲面朝着下降最快的方向一步一步移动.

学习率可以理解为每次圆点移动的步长,它决定了梯度下降的速率和稳定性.

线性回归的基本概念:假设函数,损失函数和优化算法

 

假设函数是指用数学的方法描述自变量和因变量之间的关系,他们之间可以是一个线性函数或非线性函数.

 

损失函数是指用数学的方法衡量假设函数预测结果和真实值之间的误差.

 

成本函数:损失函数(loss function)用于衡量模型在单个训练样本上的表现情况,而成本函数(cost function)用于针对全部训练样本的模型训练过程中。

 

优化算法决定了一个模型的精度和运算速度.

数据处理
拿到一组数据后第一个要处理的是数据类型不同的问题,如果数据有离散值和连续值,必须对离散值进行处理.

 

离散值就是孤立的点集,像区间,它在每一点上都是连续的,而像整数集,它的每一元素之间都有一点的距离。所谓在某一点上连续,就是对于该点,无论给定一个多么小的正数,总能在定义域内找到一点,它的函数值到该点的函数值距离小于给定的数。而离散就是指不连续。

如果样本有多个属性,那么各属性的取值范围差异会很大,就要用到归一化操作.

将原始数据处理为可用数据后,为了评估模型的好坏,要将数据分成两份:训练集和测试集.

训练集数据用于调整模型的参数,即进行训练的模型,模型在这份数据上的误差被称为训练误差.

测试集数据用于测试,模型在这份数据集上的误差称为测试误差.

超参数(hyper parameter)是在开始学习过程之前设置的参数.

Logistic回归模型

Logistic回归模型常被用于处理二分类问题,它是一种用于分析各个影响因素(X1,X2,Xn)与分类结果Y之间关系的有监督学习方法。影响因素可以是连续值,也可以是离散值。

Y=P{y=1|x},Y表示当特征向量x满足条件时,y=1的概率。

 

典型的深度学习计算过程包括3个:前向传播,后向传播和梯度下降过程。

前向传播两部分组成:1.线性传播 2.非线性传播,这两个过程是一个整体单元,缺一不可。

正向传播过程:节点在获得输入数据后需要经过有次序的两步计算(线性变换和激活)。

前向传播的本质:就是根据输入的样本向量x经过神经网络得出预测值的过程。

反向传播的本质:就是从最终输出的损失函数开始逆向回退,根据求导的链式法则最终求出所有参数的偏导数的过程。

 

权重W和偏置b与具体样本无关,不会随着样本的变化而变化。

 

RGB分别代表红,绿,蓝三个颜色通道,假设彩色图片是64*64像素,则图片由3*64*64矩阵表示,维度为3*64*64=12288维。

 

神经网络的基本结构配置包括初始化参数、计算成本、计算梯度、优化参数。

 

完整的神经网络包含输入层、隐藏层、输出层。计算神经网络层数时,输入层不计入在内。神经网络可以包含多个隐藏层。

常见激活函数介绍:激活函数必须是一个非线性映射
sigmoid激活函数:

tanh激活函数:

tanh激活函数范围在-1到1之间,随着X的增大或减少,函数趋于平缓,导函数趋近于0.

Relu激活函数:  ; 如果x<0,则f(x)=0;  如果x>0,则f(x)=x;深度学习反复求索的就是最优的参数(W.b).一旦找到了最优的参数,那么深度学习也就停止了。换言之,参数(w,b)确定了,模型也就确定了,学习过程也就结束了。

Softmax回归(Softmax Regression)
最简单的Softmax回归模型是先将输入层经过一个全连接层得到特征,然后直接通过 softmax 函数计算多个类别的概率并输出[9]。

输入层的数据XX传到输出层,在激活操作之前,会乘以相应的权重 WW ,并加上偏置变量 bb ,具体如下:

 

其中

 

 

 

矩阵转置transpose( 0,1,2) 参数代表图片H,W,Z的索引。Paddle转置后的索引为transpose(2,0,1)

 

深层神经网络  深度学习中网络深度越大其拟合能力越强。

参数:对机器学习来说参数就是指在算法运行中,机器通过不断迭代不断修正最终稳定的值,也就是算法最终学会的值,是开发者人为设定的,一旦设定好后算法在运行过程中就使用这个固定值。    对神经网络来说,参数就是线性变换中的权重和偏置,在算法开始的时候,算法会随机设置权重和偏置的值。通常都是很小的接近于0且不为0的数。

超参数的设置依赖经验,超参数有学习率、算法迭代次数、隐藏层层数、每层隐藏层中的单元数、每个单元使用的激活函数。冲量、批量的大小等.

卷积神经网络的两个主要特点:参数共享和局部连接。

输出数据体在空间上的尺寸计算公式:(W-F+2P)/S+1

Relu激活函数相对于sigmoid和tanh有:梯度不饱和(不会产生梯度弥散)、稀疏激活性(神经元进入负半区梯度为0,不会被训练)、计算速度快等特点。

卷积神经网络分类模型的最终目标是完成对输入数据的分类。

神经元的感受野即滤波器的尺寸是一个超参数。

 

个性化推荐系统的两种经典方法:基于内容过滤推荐、协同过滤推荐

协同过滤推荐方法基础用户对商品的评价或其他行为模式来为用户提供个性化的推荐,而不需要了解用户或者商品的大量信息。

 

CTR预估通常会经历三个阶段:特征工程阶段、模型训练阶段、线上服务阶段

CTR预估常用的5种特征预处理方式:独热编码、离散化、归一化、特征选择、特征交叉

CTR预估的常见模型:LR模型、GBDT模型、GBDT+LR模型、FM+DNN模型、MLR模型

CTR预估的评估标准logloss和AUC指标

收藏
点赞
0
个赞
共1条回复 最后由才能我浪费99回复于2020-01-13
#2才能我浪费99回复于2020-01-13

总结的不错

0
TOP
切换版块