【论文笔记】评价词向量性能的八个任务

词向量的优劣可以从三个任务类型的八个任务进行综合评定。此篇博文简述了评价词向量性能的八个任务。

语义属性（Sementic Properties)

测试过程用的是WordSimilarity-353测试集，他包含353对英文词汇和人工对这些词对之间的语义相关度的评测值。词向量的效果比较的是两个词向量的余弦距离的Pearson相关性与人工打分的平均分数的相似程度。

测试过程用的是托福考试中的80个同义词选择题，每道选择题有四个选项，选择问题与选项中余弦距离最近的选项，并评估最终整体的准确性。

完成大约9000个语义类比问题，问题类似于“ man is to (woman) as king is to queen”。通过计算（queen-king+man）的最近词向量作为问题的答案，并评估整体的准确性。

完成大约10500个语法类比问题，问题类似于“ predict is to (predicting) as dance is to dancing”, 通过计算（dancing - dance + predict）的最近词向量作为问题的答案，并评估整体的准确性。

使用词向量的加权平均值作为文本的表示，然后应用逻辑回归来执行文本分类。每个单词的权重是其出现频率。使用的数据集是IMDB数据集。

在最近的NLP任务的神经网络方法中，词向量被用来初始化第一层。

使用卷积神经网络(CNN)在斯坦福情绪树库数据集上进行句子情感分类，重复实验五次，并展示这些实验的平均准确性。

们使用Ronan Collobert及其同事提出的神经网络对华尔街日报数据进行词性标注，并评估准确性。