Skip to content

Commit

Permalink
Merge pull request #75 from AIzealotwu/patch-2
Browse files Browse the repository at this point in the history
Update ch14.ipynb
  • Loading branch information
KMnO4-zx authored Jan 20, 2024
2 parents 3610bee + ea374a9 commit ac8d230
Showing 1 changed file with 22 additions and 22 deletions.
44 changes: 22 additions & 22 deletions notebooks/ch14/ch14.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -82,7 +82,7 @@
"\n",
"&emsp;&emsp;2.使用特殊的标记将多个单词标记为一个短语,例如 \"< NewYork >\"。这种方法可以将多个单词组合成一个符号,从而在训练过程中将其作为一个整体来处理。因此,此方法可适用于任何长度的短语。\n",
"\n",
"&emsp;&emsp;在实践中,使用哪种方法训练固定短语的词向量可以根据具体的应用场景和数据集来决定。如果数据集中包含大量的固定短语,那么使用第一种方法可能更加有效,因为它可以保留原始的单词信息并且不会损失信息;当短语长度差别很大时,使用第二种方法进行训练具有更强的不同长度短语间的通用性,可以更有效进行短语的表示,。"
"&emsp;&emsp;在实践中,使用哪种方法训练固定短语的词向量可以根据具体的应用场景和数据集来决定。如果数据集中包含大量的固定短语,那么使用第一种方法可能更加有效,因为它可以保留原始的单词信息并且不会损失信息;当短语长度差别很大时,使用第二种方法进行训练具有更强的不同长度短语间的通用性,可以更有效进行短语的表示\n"
]
},
{
Expand Down Expand Up @@ -111,7 +111,7 @@
"$$\n",
"&emsp;&emsp;上述公式表明余弦相似度就是两向量之间夹角的余弦值,所以两向量的内积越大,对应两向量的余弦相似度就越高。\n",
"\n",
"&emsp;&emsp;语义相近的一对词,在训练时上下文对应的词元也比较相似。这是因为跳元模型在训练时会尽可能地使中心词和上下文词的词向量在语义空间中更加接近。通俗来说,因为该对相似词表达的意思相近,故使用的语义也大致相同。所处的语境也相似。故在跳连模型中进行训练时,往往会被训练成相似的向量。"
"&emsp;&emsp;语义相近的一对词,在训练时上下文对应的词元也比较相似。这是因为跳元模型在训练时会尽可能地使中心词和上下文词的词向量在语义空间中更加接近。通俗来说,因为该对相似词表达的意思相近,故使用的语义也大致相同。所处的语境也相似。故在跳连模型中进行训练时,往往会被训练成相似的向量。"
]
},
{
Expand Down Expand Up @@ -231,26 +231,26 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"&emsp;&emsp;**通过负采样训练连续词袋模型步骤如下:**\n",
"\n",
"&emsp;&emsp;1.添加从预定义分布采样的负样本,以使得目标函数更有意义。\n",
"\n",
"&emsp;&emsp;2.根据给定上下文生成的的中心词,对上下文词向量进行平均计算条件概率。\n",
"\n",
"&emsp;&emsp;3.以连续词袋模型的似然函数进行梯度计算和参数权重的更新。\n",
"\n",
"\n",
"\n",
"&emsp;&emsp;**采用层序训练softmax训练连续词袋模型步骤如下:**\n",
"\n",
"&emsp;&emsp;1.建立词的二叉树向量表示。\n",
"\n",
"&emsp;&emsp;2.使用分层softmax近似条件概率。\n",
"\n",
"&emsp;&emsp;3.使用构造的词向量二叉树从根节点到叶结点构造损失函数。\n",
"\n",
"&emsp;&emsp;4.设定好权重和参数后进行权重更新。\n",
"\n",
"&emsp;&emsp;**通过负采样训练连续词袋模型步骤如下:**\n",
"\n",
"&emsp;&emsp;1.添加从预定义分布采样的负样本,以使得目标函数更有意义。\n",
"\n",
"&emsp;&emsp;2.根据给定上下文生成的的中心词,对上下文词向量进行平均计算条件概率。\n",
"\n",
"&emsp;&emsp;3.以连续词袋模型的似然函数进行梯度计算和参数权重的更新。\n",
"\n",
"\n",
"\n",
"&emsp;&emsp;**采用层序训练softmax训练连续词袋模型步骤如下:**\n",
"\n",
"&emsp;&emsp;1.建立词的二叉树向量表示。\n",
"\n",
"&emsp;&emsp;2.使用分层softmax近似条件概率。\n",
"\n",
"&emsp;&emsp;3.使用构造的词向量二叉树从根节点到叶结点构造损失函数。\n",
"\n",
"&emsp;&emsp;4.设定好权重和参数后进行权重更新。\n",
"\n",
]
},
{
Expand Down

0 comments on commit ac8d230

Please sign in to comment.