页面树结构
转至元数据结尾
转至元数据起始

通过该案例,我们将会学习如何对微博数据进行分析。将要学习和掌握的技术有文本挖掘技术、社会网络分析技术、集成R算法的能力、基于矩阵的层次聚类算法等。在学习该案例前首先需要了解以下基本概念。
什么是社会网络?

  • 社会网络是指社会行动者及其间的关系的集合。也可以说,一个社会网络是由多个点(社会行动者)和各点之间的连线(行动者之间的关系)组成的集合。用点和线来表达网络,这个是社会网络的形式化界定。
  • 这里的行动者不但指具体的个人,还可指一个群体、公司或其他集体性的社会单位。每个行动者在网络中的位置被称为"结点(node)"。

行动者之间常见的关系:

  • 亲属关系:父母、子女、夫妻关系等。
  • 正式关系(权威关系):正式角色也是关系性的,如老板/职员、教师/学生、医生/病人关系等。
  • 个人之间的评价关系:喜欢、信任、尊重等。
  • 行为上的互动关系:行动者之间的自然交往,如谈话、参加会议、拜访、提建议等。
  • 隶属关系:如参加一项协会、属于某些俱乐部等。
  • 物质资本的传递:商业往来、物资交流。
  • 非物质资源的转换关系:行动者之间的交往、信息的交换等。
  • 空间关联:城市之间的关系,迁入和迁出。
  • 职位的升迁,地位的流动。

社会网络的形式化表达:
社群图:用于表示一个群体成员之间的关系,由点和线连成的图。根据不同的标准,社群图的种类也不同。

  • 有向图、无向图:根据关系的方向进行划分。
  • 二值图、符号图、赋值图:根据关系紧密的"程度"进行划分。
  • 完备图、非完备图:根据网络中各个成员之间联系的紧密度进行划分。如果一个图中的任何两点之间都相连,则称为完备图,否则为非完备图。完备图很少见,一般图都是非完备图。
  • 矩阵:矩阵中的行与列都代表"社会行动者",即图中的各点。行与列对应的要素代表的就是各个行动者之间的"关系"。

有向图和无向图:
无向关系:行动者之间的关系没有方向,如参加会议、交流等。无向图仅仅表明重要关系的存在与否。无向图对应的矩阵通常是对称的。

有向关系:行动者之间的关系是有方向的,如借款关系、权力关系等。有向图矩阵通常是不对称的,因为关系通常不是对称的。

二值图、符号图、赋值图:
二值图:如果一种关系的选择项仅有两个:是或不是,在画图的时候,仅仅利用箭头线就可以表示这种二择一的关系,根据这种资料得到的网络图叫做二值图。
符号图:如果我们关注的问题的问题为行动者之间的关系是好、无关系还是不好,我们可以用"+"表示关系好,"0"表示无关系,"-"表示关系不好。根据这种资料得到的网络图叫做符号图。在这类途中,我们可以再箭头上标注相应的符号来表示关系的好坏。
赋值图:如果关系的强度很重要并且可以用一定的数值来表达的话,可以据此构建一个赋值图,把一定的数值赋予每条线上。
邻接矩阵:在社会网络分析中,最常使用的一类矩阵是正方阵,在此方阵中,行和列都代表完全相同的社会行动者,并且行和列排列的顺序相同,矩阵的中的元素可以代表行动者之间的关系或者关系的强度,这样的矩阵称为邻接矩阵。
朋友关系:

亲近关系:

线路与途径:
各个点可以通过一条线直接相连,也可以通过一系列线间接相连。在一个图中的这一系列线就叫做一条"线路"。如果线路中的每个点和每条线都各不相同,则称该线路为"途径"。如1-2-3-1-2-7-1-7-8是一条线路,1-2-3-4-5-6-7-8是一条路径。

长度和距离:
一个途径的长度用构成该途径的线的条数来测量。如途径1-4-5-6的长度为3。
两点之间的距离指的是连接这两点的最短途径的长度,如点1和6之间有很多途径,其最短途径1-6的长度为1,故1与6之间的距离为1。

距离矩阵:

社会网络分析相关的概念
与"关联性"有关的概念 :
子图:一个图G的子图Gs的定义是, Gs中的点集(记作Ns )是G的点集(N)的一个子集,并且Gs中的线集( Ls )也是G的线集(L)的一个子集, Gs中的所有线也必须是在G中的所有点之间的线。
关联图和成分:对于一个图来说,如果其中的任何两点之间都存在一个途径(Path),则称这两点是相互可达的,称该图时关联图(connected graph)。也就是说,关联图中的任何两点之间都是可达的。如果一个图不是关联的,就称之为"不关联图"。一个"不关联图",可以分为两个或者多个子图,我们称之为关联子图。一个图中的各个关联子图都叫做"成分"(components),它是最大的关联子图。也就是说,"成分"内部的任何点之间都存在途径。但是,成分内部的一点与任何外在于该成分的点之间都不存在任何途径。一个关联图仅仅由一个单一成分构成。其他图主要由一个或多个独立的成分以及一系列孤立点构成。

上图中共包含4个成分:2个关联成分和2个孤立成分。
切割点:切割点是指如果去掉这个点,就会增加成分数目的点。没有切割点,子图就会分为两个或多个独立的子群,并且各个子群之间无关联。

与"距离"有关的概念
点的度数:与某点相邻的那些点称为该点的"邻点"(neighborhood),一个点ni的邻点的个数称为该点的"度数"(nodaldegree),记作d(ni),也叫关联度(degree of connection)。一个点的度数就是对其"邻点"多少的测量。实际上,一个点的度数也是与该点相连的线的条数。如果一个点的度数为0,称之为"孤立点"(isolate)。在一个有向图中,必须考察线的方向。因此,一点的"度数"包括两类,分别称为"点入度"(in-degree)和"点出度"(out-degree)。一个点的点入度指的是直接指向该点的点的总数;点出度指的是该点所直接指向的点的总数。

点5的度数为:4,点10的度数为:2,点8的点数为:1
测地线、距离和直径:在给定的两点之间可能存在长短不一的多条途径。两点之间的长度最短的途径叫做测地线。如果两点之间存在多条最短途径,则这两个点之间存在多条测地线。两点之间的测地线的长度叫做测地线距离,简称为"距离"(distance)。也就是说,两点之间的距离指的是连接这两点的最短途径的长度。一个图一般有多条测地线,其长度也不一样。我们把图中最长测地线的长度叫做图的直径。如果一个图是关联图,那么其直径可以测定。如果图不是关联的,那么有的点对之间的距离就没有界定,或者说距离无穷大。在这种情况下,图的直径也是无定义的。
密度:密度指的是一个图中各个点之间联络的紧密程度。固定规模的点之间的连线越多,该图的密度就越大。
密度的测量:在无向图中,密度用图中实际拥有的连线数l与最多可能存在的连线总数之比来表示,即密度=2l/n(n-1)。在有向图中,有向图所能包含的最大连线数恰恰等于它所包含的总对数,即n(n-1),密度=l/n(n-1)(n表示图的规模,即该图一共有n个点)。
农忙季节农户之间互帮互助的关系网络图:
村庄1村庄2
这两个村庄,哪个村庄更容易存活呢?当然村庄2。
平均距离:平均距离(Average Distance)代表了网络中所有成员到达其他成员的平均最短距离。 平均距离越大则说明该网络的节点间跨度越大,凝聚性较低。
与"中心性"有关的概念
"中心性"的研究意义:"权力"在社会学中是一个非常重要的概念。一个人之所以拥有权力,是因为他与他者存在关系,可以影响他人。在一个群体中,我们如何去界定某个人的权利大小?社会网络学者就从"关系"的角度出发,用"中心性"来定量研究权力。人或者组织在社会网络中具有怎样的权力,或者说居于怎样的中心地位,这一思想是社会网络分析者最早探讨的内容之一。
点度中心度:刻画的是行动者的局部中心指数,测量网络中行动者自身的交易能力,没有考虑到能否控制他人
中间中心度:研究一个行动者在多大程度上居于其他两个行动者之间,因而是一种"控制能力"指数
接近中心度:考虑的是行动者在多大程度上不受其他行动者的控制
与"凝聚子群"有关的概念
大体上说,凝聚子群是满足如下条件的行动者子集合,即在此集合中的行动者之间具有相对较强的、直接的、紧密的、经常的或者积极的联系。
研究意义:通过对社会网络的凝聚子群的分析,可揭示社会结构,量化结构。
派系:在一个图中,"派系"指的是至少包含三个点的最大完备子图。

  • 派系的成员至少包含三个点;
  • 派系是"完备"的,即其中任何两点之间都是直接相关,都是邻接的;
  • 派系是"最大"的,其含义是,我们不能向其中加入新的点,否则将改变"完备"这个性质。

对社会网络分析的基本概念有所了解后,下面我们开始学习这个案例。工作流如下:

  • 无标签