篇章分析-内容标签

标签: 这种种的单词和词组都是一种标签的形式

新闻稿，打出关于该报道的各种各样的标签，来表示其关键信息
论文中，我们也会表明一些文章的领域分类以及关键词等标签
微博用#代表一个话题，这是典型的社会化标签

标签用途

关键信息展示
- 用户可以大致了解文章的主要信息，从而决定要不要对信息进行进一步深入地浏览
频道划分
- 在很多的媒体网站，经常会有频道划分，使用了就是文章的分类标签
话题聚合
- 标签也可以用来做话题聚合（例如: #人民的名义# 集合所有关于这个话题的信息，让用户更深入的了解信息）

应用: 个性化推荐

标签可以用来建立用户的画像

比如对对于用户搜索过的Query，还有他浏览过的文章，都可以通过标签的技术。提取出主要的兴趣点，从而也就建立了用户的画像

标签可以对内容进行建模

通过标签技术，我们能够提取文章中的关键信息标签。这样来看标签就作为了用户和内容的一个共同表示。

推荐的时候，我们通过对用户画像的标签和内容模型的标签进行匹配，就能够对用户进行一个精准的个性化推荐

百度内容标签

标签体系: 面向推荐的标签图谱

标签图谱刻画了用户的兴趣点，以及兴趣点之间的关联关系。
节点表示了用户的兴趣点，而边表示了兴趣点之间的关联关系（边是带有权重的，表示关联强度）。
包括3种节点: 主题标签-绿色，话题标签-紫色，实体标签-蓝色。
有了关联关系，我们可以进行一定程度的探索和泛化。（例如: 无人驾驶和人工智能关联很强，如果有人看了无人驾驶，我们就给他推荐人工智能）

标签体系: 基于大数据分析的图谱构建

用户信息来源: 贴吧、微博
标签的相关性分析: 通过关联规则，发现2个标签总同时出现，我们觉得这是高相关的。

标签计算

主题分类

主题标签的计算，是一种很典型的文本分类问题: 传统的朴素贝叶斯、最大熵、SVM 等解决方案。
当前我们主要采用的是: 基于神经网络的方法（可以看右侧的示意图）
整个网络分成3层次:
- 第一层原始特征层: 抽取简单的原始特征，例如说文章出现的单词、词组等等
- 第二层表示层: 通过一些 embedding的算法、CNN、LSTM的方法
- 第三层排序层: 计算文章与主题之间的相似度，具体会计算每个主题与文章的相似度，并将相似度作为最终的一个主题分类的结果。这种计算的好处能够天然的支持多标记，也就是一篇文章可以同时计算出多个主题标签。

通用标签

通用标签主要是计算内容中的实体和话题，我们综合了两种策略。
第一种策略: 针对比较热门的高频标签
- 这种标签我们主要通过一些预测的方法得到，预测的方法: 基于相似度计算得到的---这种方法并不要求标签一定在文章中出现
- 例如: 美国大选这种标签，如果一篇文章出现了 希拉里 特朗普 辩论 等一些词，即使没有出现美国大选，我们通过语义相似度的方法也能把这个标签计算出来。
第二种策略: 面向中低频的标签
- 这种标签相关的信息，不是那么丰富，所以我们计算的时候更多依赖的是标签在文章中的信息
- 比如: 这个标签在文章中出现的频率或出现的位置；如果出现在标题，那么它可能就会比较重要。
通过融合这2种策略，形成我们通用标签的结果。

内容标签在Feed流中的应用

标签可以用来话题聚合: 比如表示人工智能的标签全部都会集合到同一个话题下面。这样用户可以对人工智能这个话题进行非常充分的浏览。
话题频道划分: 比如我们在手机百度上面就可以看到，Feed流上面有多个栏目，用户可以点击 体育 时尚等频道

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

3.2.篇章分析-内容标签.md

3.2.篇章分析-内容标签.md

篇章分析-内容标签

标签用途

应用: 个性化推荐

百度内容标签

标签体系: 面向推荐的标签图谱

标签体系: 基于大数据分析的图谱构建

标签计算

内容标签在Feed流中的应用

Files

3.2.篇章分析-内容标签.md

Latest commit

History

3.2.篇章分析-内容标签.md

File metadata and controls

篇章分析-内容标签

标签用途

应用: 个性化推荐

百度内容标签

标签体系: 面向推荐的标签图谱

标签体系: 基于大数据分析的图谱构建

标签计算

内容标签在Feed流中的应用