Skip to content

Latest commit

 

History

History
192 lines (116 loc) · 15.4 KB

31InformationCascades.md

File metadata and controls

192 lines (116 loc) · 15.4 KB

一、信息级联(Information Cascades)

(一)、背景

现代通信系统,从电子邮件到Facebook或Twitter,促进了沿着社交网络链接的信息瀑布式传播。由于与传播过程相关的事件经常会留下数字痕迹,这些平台让研究人员能够检测到潜在的级联。

在这一背景下,微博服务Twitter被特别研究。在Twitter上,通过爬行服务的追随者图,可以重建谁关注谁的网络。由于用户经常使用URL缩短器分享网页内容,我们还可以跟踪每个传播/分享过程。一项研究在两个月内跟踪了7400万个这样的事件,跟踪了每个URL通过转发从特定种子节点扩散到级联结束的过程。观测级联的大小分布符合幂律,其雪崩博览α≈1.75[19]。幂律表明,绝大多数已发布的url根本没有传播,这一结论由平均级联大小仅是⟨s⟩= 1.14的事实支持。然而,有一小部分url被转发了数千次。

Twitter上信息级联的例子。节点表示Twitter账户,顶部节点对应于第一次发布某个短URL的账户。这些链接对应着转发它的人。这些级联捕获了信息的异构性av- alanches:大多数url根本没有被转发,在图中显示为单个节点。

截屏2021-10-24 下午4 29 04

(二)、介绍

信息级联(information cascade),即群集(herding),是指在一些情况下他人的选择提供给自己信息可能比自己通过其他途径了解到的信息更有说服力时,自己会忽略自己的信息而加入这些人群中,并认为其很合情理。产生这种现象的先决条件是,人们可以在不同时刻依次做出决定,而后面的人可以观察到前面人的决策行为,并通过这些行为推断出他们所了解的一些信息。信息极联是信息传播形成的一种效果。

信息级联在群体中是十分常见的一种现象,简单地说就是信息级联形成后,个体很容易受前面个体的影响,做出与前面个体相同的选择而忽略自己的私有信息。

信息级联描述了当个体仅仅观察他们的近邻时的扩散过程。在信息级联和羊群行为中,个体网络是可观察到的;然而,在羊群中,个体的决定是基于全局信息(全局依赖);然而,在信息级联中,决策是基于近邻(局部依赖)的知识做出的。

在社交媒体中,个人通常会转发网络中其他人发布的内容。这些内容通常是通过邻居(朋友)接收的。当信息通过朋友传播时,就会发生信息级联。

形式上,信息级联被定义为在一组个体中被级联的一条信息或决策个体只是在观察他们的近邻(朋友)的决定。因此,级联用户可以获得的信息比群居用户要少,群居用户几乎可以获得所有决策信息。

(三)、基本原则

一般来说,个体模仿他人的行为并不是盲目的,它可能是根据有限的信息进行合理推论的结果——即人们并不是简单地迫于社会压力来迎合大多数,而是根据理性的判断作出决定,人们会认为先前发表意见的人又更有价值的信息。当然还有另一种现象——模仿可能是出于社会压力导致的顺从,与所谓的信息没有关系。有时候并不容易分辨出这两种现象。但本质上,这样的信息级联可以在一定程度上揭示一些社会环境中的模仿现象。

(四)、信息级联的典例——从众现象

从众现象的形成本质上是根植于信息级联的思想,人们基于对别人行为的推断而作出决定,可能是为了对自身有益,也可能是为了从心理上博取他人的认可和同感。例如,在半信半疑的你缺乏了解的情况下,当大家都说什么事务好的时候,你接收到了这样信息,很容易就会接收这样的说法,并将其继续传播,像是畅销的书籍、时尚和潮流一类的流行方式。

但这种方式并不总是朝着有利的方向发展。例如,小学的时候,班级里总会容易出现一个大家特别讨厌的人。一开始是一两个人的厌恶,在背地里说着那人的坏话,甚至捏造出恶心的言辞、行为,强加到别人头上。当有别人听到那些内容时,信以为真,便以讹传讹,不良信息跟着扩散开来。这样的言语甚至会传播到别的班,而结果是:嬉笑谩骂,嘲讽欺凌。从只是一两个人的厌恶变为了许多人的恶意,其中一些人的默许和另一些人的推波助澜让事情演变得越来越严重,甚至从言语上升到行为,演变成严重的校园暴力。

流言的传播也是相似的道理,尤其是在一些人试图博人眼球、哗众取宠时,流言传播的尤其迅速。而其中作为媒介的,大多数是被误导的普通人。在恶意的情况当中,还有一些是因为出于自身对于社会的关爱而转发的谣言,尤其是关于自身安全一类的话题,本是一番好意想要提醒身边的人,却失了基本的判断力变为了危言耸听。

二、信息级联举例

(一)、摸球实验

(1)、实验设置 想象这个实验在一个教室里进行,由一群学生参加。实验者在教室前面放置一个装有3个小球的小罐;然后向大家宣布罐中有2个红色球和1个蓝色球的可能性是50%(多数红色,majority-red),有2个蓝色球和1个红色球的可能性也是50%(多数蓝色,majority-blue)。 现在,每个学生依次排成队来到讲台上,背着大家拿出一个球察看颜色,再放回去。然后让这个同学猜测罐中是“多数红色”还是“多数蓝色”,并向剩余同学公布他的猜测(为了保证其猜测是经过合理分析的,假设猜中的同学可以获得奖金奖励)。公开宣布是这个实验设置的关键,还没轮到自己去抓球的人看不到前面学生抓到的球的颜色,但是可以听到那些学生宣布的猜测结果。 这个过程将在所有的学生中进行,如果前面两个猜测都是“蓝色”,那么后面每个人都会同样猜测“蓝色”(“红色”同理)。

这是因为一个信息级联持有的特征是——人们都没有幻觉每个人都拿到一个蓝色的球,但是一旦前两个猜测都是“蓝色”的话,后面所有人宣布的猜测也就没有什么参考价值了。 因此,每个人的最佳策略是依靠那些少量的有参考价值的信息来做决定的。

(2)、实验分析 在群集实验中运用贝氏规则

首先注意到每个学生的抉择本质上是取决于一个条件概率:当听到别人的猜测后,每个学生都试图估算出小罐是“多数蓝色“还是”多数红色“的条件概率 。 为了最大限度赢得猜中的机会(即假设每一个试验者都是绝对理性的),如果以下表达式成立,就应该猜多数蓝色:

Pr[majority−blue∣看到或听到的颜色]>1/2

即,猜测的结果(多数蓝色)发生的可能性是基于已有的信息(看到或听到的颜色)来得到的;否则,猜多数红色。如果两个条件概率都恰好是0.5,那么猜什么都无所谓了。 下面给出在实验开始之前已经存在的设置情况。 (1)首先,小罐是多数蓝色还是多数红色的先验概率都是1/2:

Pr[majority−blue]=Pr[majority−red]=1/2

(2)而且,基于两种小罐小球的组成情况:

Pr[blue∣majority−blue]=Pr[red∣majority−red]=1/2

第1个学生拿到1个篮球

他需要确定Pr[majority−blue∣blue]的发生概率,即需要根据其当前看到的颜色——blue,来判断小罐中是多数蓝色还是多数红色? 这里,我们使用“贝氏规则”来计算其发生概率,验证理性者做出选择的概率:

Pr[mojority−blue∣blue]= Pr[majority−blue]*Pr[blue∣majority−blue]/Pr[blue]

其中,分子部分为1/2*2/3=1/3,对于分母部分,分析拿到蓝球有2种情况: (1)小罐是多数红色;(2)小罐是多数蓝色:

Pr[blue]=Pr[majority−blue]Pr[blue∣majority−blue]+Pr[majority−red]Pr[blue∣majority−red]=1/22/3+1/2*1/3=1/2

即,可以看作从6个球中(3个红色,3个蓝色)任意取1个球取出来是蓝色或者是红色的概率都是相等的。 因此,就可以得到:

Pr[majority−blue∣blue]=2/3

因为这个条件概率大于1/2,因此,当第1个同学拿到蓝球时,他应该猜测是多数蓝色。

注意:除了能够提供猜测的最终抉择之外,贝氏规则还可以提供这个猜测准确的概率为2/3.

假设前面2个同学都猜测蓝色,而第3个同学拿到了一个红色球

前面2个同学都传递了真实的信息(即拿到什么颜色的球,就猜测为多数什么颜色),因此第3个同学实际上掌握了三次抓球的结果:蓝色、蓝色、红色。他希望根据以下表达式的值:

Pr[majority−blue∣blue,blue,red]

来进行猜测,利用贝氏规则,有:

Pr[majority−blue∣blue,blue,red]= Pr[majority−blue]∗Pr[blue,blue,red∣majority−blue]/Pr[blue,blue,red]

分子很容易得到,是

1/2*(2/32/31/3)= 2/27

对于分母Pr[blue,blue,red],我们同样考虑在2种小罐(多数蓝色和多数红色)种的发生概率:

Pr[blue,blue,red]=Pr[majority−blue]×Pr[blue,blue,red∣majority−blue]+Pr[majority−red]×Pr[blue,blue,red∣majority−red]=1/2∗2/3∗2/3∗1/3+1/2∗1/3∗1/3∗2/3=6/54=1/9

因此,可以得到结果为:

Pr[majority−blue∣blue,blue,red]=2/3

因此,第3个同学的猜测结果为:多数蓝色。 这就证实了第1节中的推断,如果前面连续2个同学都猜测同样的结果,则第3个同学应该忽略掉他自己看到的结果(抓到的红色球),赞同他已经听到的前面2个猜测(蓝色)。 最后,一旦这3次抓球活动已经发生,所有接下来的学生将拥有和第三个同学同样的信息,因此运行相同的计算过程,结果将形成一个后续全部选择蓝色 的信息级联。

(3)、实验结论 以上设置尽管非常简略,但仍然能够体现出一些关于“信息级联”的一般原则:

1、它表明这种级联非常容易发生(在我们的生活中),只需要满足适当的结构条件;

2、它还展示了决策行为的怪异模式,一个群体中每个学生都会做出完全一致的推测,而且是发生再所有的人都是在很理性地做决定。

3、它表明信息级联可能会导致非优化的结果:例如,假设罐中是多数红色,就有1/3的概率第一个学生抓到蓝色球,1/3的概率第2个学生抓到蓝色球;前两次都抓到蓝色球的概率是1/9。这个1/9的出错概率不会因更多的人参加而得到修正,因为在理性决策引导下,如果前面2个人猜蓝色,后面每个人都会跟着猜蓝色,无论这个群体有多大。

4、尽管级联可能形成最终的一致,但从根本上它也是很脆弱的。比如,假设进行到50号和51号学生都拿到了红色球,他们向全班展示手中的小球来“迷惑”大家,这种情况下,级联就会被打破,因为52号学生抉择时,就拥有四种真实的信息可以参考:1、2号公布的颜色,以及50、51号公布的颜色。

三、独立级联模型(ICM)

(一)、介绍

在本节中,讨论了独立级联模型(ICM) [Kempe等人,2003],它可以用来模拟信息级联。在这里,本节讨论Kempe等人[2003]详细介绍的一个。

该模型的基本假设如下:

. 网络用有向图表示。节点是参与者,边缘描述它们之间的通信通道。一个节点只能影响它所连接的节点。 . 决策是二进制的——节点可以是活动的,也可以是不活动的。一个活跃的 节点意味着节点决定采用行为、创新或决策。 . 一个节点一旦被激活,就可以激活它的相邻节点。 . 激活是一个渐进的过程,节点从非活动状态变为活动状态。主动,而不是被动。

在独立级联模型(ICM)发送方中,考虑作为发送方激活的节点和作为接收方激活的节点激活接收器。因此,ICM被表示为一个以发送者为中心的模型。

在这个模型中,在时刻t变得活跃的节点在下一个时刻t + 1中,有一次机会激活它的每个邻居。设v是t时刻的活动节点。然后,对于任何邻居w,有一个概率pv,w节点w在t1被激活。在时刻t被激活的节点v只有一个机会激活它的邻居w并且这个激活只能发生在t1。我们从一组活动节点开始,一直到无法进一步激活为止。

(二)、举例

网络是无向的;因此,我们假设pv,w = pw,v。由于它是无向的,对于任何两个通过边连接的顶点,其中一个激活另一个的机会是相等的。考虑步骤1中的网络。这些边的值表示pv w。ICM过程从一组激活的节点开始。在我们的例子中,它是节点v1。每个被激活的节点有一次机会激活它的邻居。被激活的节点为每个邻居生成一个随机数。如果随机数小于相应的pv,w的邻居,邻居被激活。生成的随机数在图7.4中以不等式的形式显示,左边是生成的随机数,右边是pv,w。如图所示,通过遵循五个步骤后的过程,将激活五个节点,ICM过程将收敛。 显然,ICM是一个信息扩散过程的特征它以发送者为中心,一旦一个节点被激活,它的目标就是激活它所有的邻居节点。ICM中的节点激活是一个概率过程。因此,不同的运行可能会得到不同的结果。

Algorithm 7.1 Independent Cascade Model (ICM) Require: Diffusion graph G(V, E ), set of initial activated nodes A0, acti- vation probabilities pv,w 1: return Final set of activated nodes A∞ 2: i = 0; 3: while Ai = {} do 4: 5: i = i + 1; 6: Ai = {}; 7: for all v ∈ Ai−1 do 8: for all w neighbor of v, w ∈/ ∪i A j do 9: rand generate a random number in [0,1]; 10: if rand < pv,w then 11: activate w; 12: Ai Ai w ; 13: end if 14: end for 15: end for 16: end while 17:   A∞ = ∪i A j ; 18: Return A∞;

Step

(独立级联模型(ICM)仿真) 边上的数字表示权重pv,w。当存在不等式时,检查激活条件。左边的数字为产生的随机数,右边的数字为权重pv,w。 在处理ICM模型时,一个有趣的问题是,给定一个网络,如何初始激活一小组节点,以使网络中最终激活的节点数量最大。

(三)、独立级联模型的干涉

想想一个在社交媒体上传播的虚假谣言。这是一个例子,我们对阻止社交媒体上的信息瀑布感兴趣。独立级联模型中的干预可以通过三种方法实现:

1.通过限制发送者节点的外链接数量和潜在地减少激活他人的机会。注意,当发送端节点没有通过有向边与其他节点连接时,发送端不会激活任何节点。 2.通过限制接收节点的内链数量,从而减少它们被他人激活的机会。 3.通过降低一个节点(pv,w)的激活概率,从而减少激活其他节点的机会。

————————————————

参考文献:

1、Albert-Laszlo Barabasi - Network Science

2、Zafarani R., Abbasi M.A., Liu H. - Social Media Mining_ An Introduction-CUP (2014)