异质信息网络的表示学习及应用

定义

包含不同类型节点和边的异质信息网络可以更加完整自然地对现实世界的网络数据建模

元路径表示连接两个对象之间的关系的组合，它刻画了网络中包含的丰富的语义信息

异质信息网络被定义为一个有向图，它包含多种类型的对象或者关系，每个对象属于一个特定的对象类型，每条关系属于一个特定的关系类型。网络模式（Network schema）是定义在对象类型和关系类型上的一个有向图，是信息网络的元描述。

元路径

定义在网络模式上的链接两类对象的一条路径，形式化定义为表示对象类型之间的一种复合关系 R=R1R2……Rl，其中 代表关系之间的复合算子，Ai 表示对象类型，Ri 表示关系类型。

链接两类对象的不同元路径表示了不同的语义关系和不同的链接网络，这也造成了不同的分析结果和不同的特征表示。

挑战
节点和边的异质性带来的挑战。不同类型的节点和边代表不同的对象，因此，在异质网络的表征学习中需要考虑将不同类型的对象映射到不同的空间中。另外，如何有效地保存每个节点的异质邻居以及有效地处理异质的节点序列也是值得考虑的问题。
异质网络中丰富的信息带来的表示融合挑战。异质网络中的各类信息蕴含着丰富的语义，它从多个维度来刻画节点的意义，因此，如何有效地抽取和利用异质网络的多维度信息，并有效地融合这些信息以便全面地学习节点的表示是一个巨大的挑战。
根据不同的元路径可以从多个维度对节点的丰富信息建模。如何有效地自动筛选和融合不同元路径下的网络节点表示是一个值得关注的研究方向。目前节点的表征学习研究比较多，关系和元路径的表征学习还比较少。不同类型的节点有不同的特征表示空间，对这些表示空间之间的关系还缺乏深入探究
异质网络天然包含丰富的多模信息，如属性、文本和图像等。只有将更多模态的信息考虑进来，学习到的网络节点表示才能更加准确地对节点进行描述。而现有的主要工作都致力于对异质信息网络中的结构信息建模，没有充分挖掘网络中的其他模态信息。如何更好地融合这些多模态信息的表征学习将是一个研究难点
现实世界中的网络往往规模较大并且动态变化。我们需要考虑节点和边的异质性，快速高效地获取新增节点的表示，研究面向增量计算和在线计算的表征学习方法。
在社区发现、异常检测等特定任务上，通用表征学习的效果往往不尽如人意。如何与具体应用结合学习网络表示是重要发展方向

更加复杂的网络构建

当前研究大多假定异质信息网络是明确定义的，网络中的对象和关系是清晰的。然而，在实际应用中，从真实数据构造异质信息网络会遇到很多挑战。对于关系数据库之类的结构化数据，构造异质信息网络比较容易，然而即使是在这种网络中，对象和关系也可能具有噪声，比如会出现对象重名或关系不完整等问题；对于像文本、图像等非结构化数据，如何准确抽取出相应的对象和关系，进而建立更加完善和准确的异质信息网络也将面临更多挑战，在实践中会用到诸如信息抽取、自然语言处理、图像处理等各种技术。

在异质信息网络中，对象可通过不同的方式组织在一起。星型模式是广泛使用的异质信息网络类型，例如前面介绍的科技文献网络。之后，又出现了带环的星型模式和多中心网络等网络模式。
- 用户可能存在于多个异质网络，这时需要对齐不同网络中的用户，有效融合不同网络的信息。还有很多网络数据，例如知识图谱，包含有很多种类型的对象和关系，很难用简单的网络模式来描述。这种丰富模式（schema-rich）的异质网络中也出现了很多新的研究问题，例如多种类型对象关系的管理以及元路径的自动产生等。
异质信息网络中的对象和关系包含着丰富的语义信息，而元路径可以捕捉这种语义信息。异质信息网络上的很多数据挖掘任务是基于元路径进行研究的，但是元路径在某些应用场景中并不能捕捉到精细的语义信息。例如，“作者-论文-作者”路径表示了作者之间的合作关系，但却不能描述特定条件下（例如KDD领域）的合作关系。为了克服这个不足，很多研究者提出了受限元路径、带权元路径、元结构等概念扩展元路径的语义抽取能力。针对更加复杂的网络结构（如知识图谱），如何设计更加灵活精细的语义探索工具仍然需要进一步的研究。

\ **

表征学习方法

基于元路径的随机游走

Metapath2vec：做基于元路径的随机游走来抽取节点结构信息，进一步深化节点类型带来的差异提出了Metapath2Vec++
HIN2Vec：考虑了不同类型节点及节点间复杂多样的关系
HINE ：元路径随机游走来计算节点间的相似性

基于分解
可以将异质网络分解为比较简单的网络，分别对这些网络进行表征学习，然后再将这些信息融合起来
HEREC ：利用元路径抽取异质网络中的多个同质网络，并对这些同质网络进行表征学习，然后通过融合函数对不同的表示进行融合，并结合矩阵分解模型进行评分预
PTE ：从文本中构建的异质网络分解成3 个子网：word-word 网络、word-document 网络和word-label网络。对上述网络进行表征学习可以得到不同类型对象（如word、document 和label）的向量表示
EOE 复杂的学术异质网分解为单词共现网络和作者合作网络，对各个子网内节点对和子网间节点
对同时进行表征学习

深度学习
BL-MNE 采用自动编码机分别对异质网络在不同元路径下的信息进行编码，联合编码，不同网络之间通过转移矩阵进行融合
SHINE 利用自动编码机分别对社交网络、情感网络和画像网络中的异质信息进行压缩编码得到特
征表示，然后通过聚合函数对这些表示进行融合得到最终的节点表示。
HNE 针对文本和图像并存的异质网络，通过CNN 和MLP 分别对文本和图像数据进行特征抽取，然后通过转移矩阵将不同类型的数据投影到同一个空间。上述方法均采用深度模型来学习节点的向量表示。

研究点
提取元路径，挖掘隐含的丰富语义关系

应用（网络结构，语义探索）
相似性度量
满足如下性质：

相似度的定义方法都会满足这两点基本性质

matapath
基于元路径最基本的两个工作是：
（1）衡量HIN中基于对称元路径的相同类型节点间的相似度方法PathSim【1】（代码python2.7：http://download.csdn.net/download/u013527419/9475257）。
PathSim 利用对称元路径抽取两个节点之间的连通路径来度量二者的相似性，这样不仅利用到了相关的异质信息，而且体现了节点和边的丰富语义

这个式子说明，给定某一个对称元路径P，PathSim和两部分有关：
1. 符合P的路径模式下，对象x 到对象y的总路径数，很自然地，总路径数越多，相似度越高。
2. 符合P的路径模式下，对象x，y到各自的总路径数，这是一个归一项，刻画了对象x与对象y在P模式下自身的可达路径总数，这个值越大，说明x，y自身在图里面沿着P路径的链接越发散，在考虑相似度的时候，需要这一项来做归一约束。
（2）衡量HIN中基于任意元路径的相同/不同类型节点间的相似度方法HeteSim【2】（代码：https://download.csdn.net/download/u013527419/10353251）

HeteSim以pairwise random walk的方式来考虑这个问题。假设在路径P的两端有两个漫步者向路径中点相向运动，那么就将两端对象的相似度定义为二者在中点某个节点相遇的概率。 HeteSim就是以中点类型M为界，左右两边的可达概率矩阵的乘积

（3）其他基于meta path 的相似度度量方式：
common node，PCRW，BPCRW
KnowSim（based on given meta path and the reverse meta path）
AvgSim（similarity of documents in HIN）
RelSim（measure the similarity of relations in HIN）

《Graph Learning》| HIN-基于元路径的相似度

meta structure

鉴于meta path的表征能力有限。例如，在DBLP中, 如果我们想要度量发表的论文既在同一个会议上又含有相同的主题词(i.e.,the APVPA and APTPA paths)的两个作者的关系时，meta path 就不太好使，像是a1 和a2 基于meta path的三种相似度都是相同的。【1】提出了meta structure,表示一些更复杂的关系，meta path 是 meta structure 的特例。

元结构是定义在一个HIN上的有向无环图 directed acyclic graph DAG，它有一个源节点与一个目标节点

Yangqiu Song

Reynold C.K. Cheng ( 鄭振剛 )

[1]Huang, Z., Zheng, Y., Cheng, R., Sun, Y., Mamoulis, N., Li, X.: Meta structure: computing
relevance in large heterogeneous information networks. In: SIGKDD, pp. 1595–1604 (2016)
[2]Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks.

参考博客：https://blog.csdn.net/u013527419/article/details/73610233

语义相关性

基于网络功能模块的图特征学习: 利用图特征学习来解决语义相关度检索任务

ranking

异质信息网络中的排序面临着一些挑战。首先，异质信息网络中有不同类型的对象和关系，如果同等地处理所有对象会将不同类型的对象混合在一起；其次，异质信息网中不同类型的对象和关系带有不同的语义含义，这可能导致不同的排名结果。

节点分类

链路预测

文本处理

Linmei Hu, Tianchi Yang, Chuan Shi, Houye Ji, Xiaoli Li.Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification. EMNLP 2019

Deep Collaborative Filtering with Multi-Aspect Information in Heterogeneous Networks. TKDE 2019

## 韩家炜 from Unstructured Text to TextCube: Automated Construction andMultidimensional Exploration

将数据结构化。
两种结构化数据的形式，一种是异质网络（Heterogeneous Network），另一种是多维文本立方体（Multi-dimensionalText Cube）。

无结构文本变成有结构文本
从结构文本中挖掘知识

Structuring：将无结构的文本转化成有结构的、有类型的、关联的实体或关系
Networking：利用大量有结构的关系构建网络
Mining：在关系和网络上进行挖掘

网络

如果有一个 Network 将 Big Data 结构化后，其预测能力（或者别的能力）将是非常强的。

text cube

通过 NY Times 在 2016 年的新闻很容易就挖掘出了当时美国两党辩论过程中的主要议程（例如、等）Top 10 的关键信息。

Phrase Mining

从 Text 中挖掘出词组（Phrase），那么对挖掘文本结构将有很重要的意义。韩家炜团队的人员先后提出了三种方法，分别为无监督的 TopMine、弱监督的 SegPhrase和远程监督的AutoPhrase

Philip S. Yu 广度学习

首先是在同一个实体上有不同类型信息的学习。这种类型的广度学习包括前面谈到的 Multi-view Learning、Multi-source Learning、Multi-model Learning 等。

其次是在不同的但类型相似的实体上信息的学习。这包括 Transfer Learning。

另外是在有复杂网络类型关系的不同类型实体信息的学习。这包括基于融合的异质信息网络（HIN）

要做好「广度学习」，需要以下三步：

首先，定义并获取相关的有用数据源，也即找到对你的问题有用的数据；

其次，设计一种模型来将异质数据源信息融合起来；

最后，基于模型整体的需求从各种数据源中深度地去挖掘信息。

异构数据融合方法

度量学习
表征学习

案例：重名实体排歧

基于地理位置的专家发现

https://mp.weixin.qq.com/s/6cALUL7hQgSSH3HD1znRwg

面向异构社交网络的用户匹配

参考
2018，异质网络表征学习的研究进展

《异构信息网络挖掘：原理和方法》，作者( 美）孙艺洲（Yizhou Sun），（美）韩家炜（Jiawei Han）

数据挖掘领头人韩家炜教授：如何从无结构文本到有用的知识？

广度学习

石川论文

孙怡州

AI Talking | 图学习资源大礼包

Awesome paper list Research-LIne

定义

挑战

表征学习方法

基于元路径的随机游走

基于分解

深度学习

研究点

应用（网络结构，语义探索）

相似性度量

matapath