1. 朴素贝叶斯的基本方法?

    答:我们假设数据集$T={(x_1, y_1), (x_2, y_2), … , (x_n, y_n)}$由$P(X, Y)$独立同分布产生。先验分布:

    条件概率分布:

    朴素贝叶斯法对条件分布概率做了条件独立性的假设:

    后验概率为:

由贝叶斯公式可得:

所以,最大化后验概率,可以表示为:

  1. 二项分布的最大似然估计?

    答:二项分布的概率分布公式如下:

    其中 $\theta$ 为$x=1$ 的概率,x 的取值为${0,1}$.

    我们需要估计在多次试验中参数$\theta$的取值:我们假设每次实验都是相互独立的,则:

    最大似然估计,就是通过优化$\theta$, 最大化当前观测成立的概率$P(x=X | \theta)$,即 最大化

    为了方便计算,我们对$L(\theta)$ 取对数,这并不影响我们的优化目标:

    我们对其求偏导:

    解得:

  2. 多项分布的最大似然与贝叶斯估计推导?

    答:我们假设标签$Y \in {c_1, c_2, …, c_k}$, 其中$k$为类别数目,与之对应的 概率分别为$\theta_1, \theta_2, …, \theta_k$.满足: 所以我们可以得到多项分布为:

    其中$I$ 为指示函数,即对$I(y=c_i)$ ,当$y=c_i$ 这个条件成立,$I(y=c_i) = 1$。

    最大似然估计为:

    我们对上述公式取对数,并结合约束条件,整理如下: