【论文笔记】词向量的生成与语言模型(开发中...)

这篇博客介绍了六种生成词向量的模型,分别是神经语言模型(NNLM)、对数双线性语言模型(LBLM)、C&W模型、CBOW模型、skip-gram模型、(Order模型)、GloVe模型。

神经语言模型(NNLM)

Yoshua Bengio及其同事首先提出了一种同时学习词向量和语言模型的神经网络语言模型(NNLM)。 对于语料库中的每个样本,给出前面的词,我们使最后一个词的概率的对数似然最大化。 例如,对于语料库中的序列$w_1,w_2,…,w_n$,我们需要最大化$P(w_n|w_1,w2,…,w{n-1})$的对数似然性,其中我们把要预测的单词 $(w_n)$作为目标词。这个模型使用前面的词向量的串联作为输入:
$$\begin{align} \begin{split} x=[e(w_1),...,e(w_{n-2}),e(w_{n-1})] \end{split} \end{align}$$

模型结构是一个带有一个隐藏层的前馈神经网络:
$$\begin{align} \begin{split} h &= tanh(d + Hx) \\ y &= b + Uh \end{split} \end{align}$$

其中$U$是变换矩阵,$b$和$d$是偏差向量。最后一步是应用softmax层来获得目标词的概率。