1. 感知机的模型定义?属于机器学习中的哪一种模型?

    答:设输入空间$x \in R^n$, 输出空间$Y = {+1, -1}$ ,感知机为从输入空间到输出空间的如下函数:

    其中$sign$ 为符号函数,即:

    感知机是一种线性分类模型,属于判别模型。

  2. 感知机的几何解释

    答:对于特征空间$R^n$中的一个超平面$S$, $w$为超平面的法向量,$b$ 为超平面的截距。超平面将特征空间划分为两个部分,位于两部分的点分别被分为正负两类。因此超平面$S$被称为分离超平面。

    perceptron

  3. 数据集线性可分的概念?

    答:给定一个数据集,如果存在某个超平面$S$ 能够将数据集的正实例点和负实例点完全正确的划分到超平面的两侧,则称该数据集为线性可分数据集。

  4. 感知机学习的经验风险函数与其几何意义?

    答:感知机学习的经验风险函数如下: 其中$M$为误分类点的集合。几何意义为所有误分类点到超平面$S$的总距离。

  5. 感知机学习算法的原始形式是?采用什么原理来更新参数?

    答:输入:训练数据集$T = {(x_1, y_1),…,(x_N,y_N)}$, $x \in R^n$, $Y = [+1, -1]$, $i=1,2,…,N$, 学习率$0<\alpha<1$.

    输出:$w, b$, 感知机模型$f(x)=sign(w.x + b)$。

    流程:

    a. 选取初值$w_0, b_0$;

    b. 在训练集中选取数据$(x_i, y_i)$

    c. 如果$y_i (w.x_i + b) <= 0$

    d. 转b,直到训练集中没有误分类点。

  6. 描述一下感知机中的Novikoff 定理:

    答:设训练数据集 $T = {(x_1, y_1),…,(x_N,y_N)}$ 是线性可分的, $x \in R^n$, $Y =[+1, -1]$, $i=1,2,…,N$,则存在满足 $||w_{opt}||=1$的超平面 $w_{opt}.x + b_{opt} = 0$ 将训练数据集完全正确 分开,且存在 $\gamma> 0$ , 对所有 $i=1,2,…,N$ , 满足:

    令$R = {max}_{1<=i<=N} ||x_i||$, 则感知机算法在训练数据集上的误分类次数 $k$ 满足不等式:

  7. 感知机学习算法的对偶形式?

    答:输入:训练数据集$T = {(x_1, y_1),…,(x_N,y_N)}$, $x \in R^n$, $Y = [+1, -1]$, $i=1,2,…,N$, 学习率$0<l<1$.

    输出:$\alpha, b$, 感知机模型$f(x)=sign(\sum_{j=1}^N \alpha_jy_jx_j.x + b)$ 其中$\alpha = (\alpha_1, \alpha_2,…, \alpha_N)^T$。

    流程:

    a. $\alpha = 0, b = 0$

    b. 在训练集中选取数据$(x_i, y_i)$

    c. 如果$y_i (\sum_{j=1}^N \alpha_jy_jx_j.x_i + b) <= 0$

    d. 转b,直到训练集中没有误分类点。

  8. 对偶形式相对于原始形式有什么不同和优点?

    答:对偶形式中的点乘结果可以用Gram 矩阵的方式存储,因此可以加快计算速度。

    对偶形式一次更新只影响一个$\alpha_i$, 原始形式一次影响整个$\omega$ 的值。

  9. 感知机算法存在收敛的唯一解么?

    答:不唯一。其解因于不同的值或者不同的迭代顺序而不同。