tiitle: 异质论文详解

问题

内积只能建模一阶关系,使用 metric learning(具体可参见论文 Collaborative Metric Learning\ ,它具有 triangle inequality 特性)来同时捕捉一阶关系和二阶关系(second-order proximity )

具体来说,A 和B相似,B和C相似,那么A和C也相似

relationship 的种类分布非常不均匀。 提出 loss-aware 自适应采样方法来进行模型优化

模型

采用双向负采样(Bidirectional Negative Sampling Strategy)

每个 epoch,我们会把每个种类的网络的 loss 记录下来,如下img,然后根据目标种类 r 的 loss 所占的比例,来确定对该种类 r 的 edge 采样出多少的比例。这样为根据 loss 来自适应的调整采样策略 (Loss-aware Adaptive Positive Sampling Strategy

总结

使用 metric learning 来解决 HIN 中的二阶关系,并借用 TransR 中的映射矩阵来解决 metric learning 存在的 ill-posed algebraic 问题,对于多种 relation 建立多个 relation space。

提出 loss-aware adaptive 采样方法,解决了 HIN 中存在的 relation skewed 的问题。

但是可能存在的问题是,该篇文章仅仅考虑基础的 relation,另外在 HIN 中还有常见的 composite relations 是使用 meta-paths 来表示的。

比如在 DBLP 这样的参考文献数据集上,存在 (A, author,P,paper,C,conference) 这些节点。而像 APA (co-author relation),以及 APC (authors write pa- pers published in conferences) 这样包含着丰富的信息的 composite relations,在这篇文章中没有考虑到

Relation Structure-Aware Heterogeneous Information Network Embedding

解决问题

异构网络中存在着很多的 relations,不同的 relations 有着不同的结构特性,如 AP 表现的是 peer-to-peer,而 PC 代表的是 one-centered-by-another 关系。如何区分不同的 relations

根据结构特性定义了两种 relations,Affiliation Relations (ARs) 代表 one-centered-by-another 的结构,而 Interaction Relations (IRs) 代表 peer-to-peer的关系。

对于 AR,这些点应当有共同的特性,所以直接用节点的欧几里得距离作为 proximity。对于 IR,将这种关系定义为节点之间的转移(translation)**。前者借鉴了 collaborative metric learning,后者借鉴了模型 TransE。

该指标由 u 和 v 种类的节点的平均度(degrees)来决定。如果 D(r) 越大,代表由 r 连接的两类节点的不平衡性越大,越倾向于 AR 类型,否则倾向 IR 类型。同时定义了另外一个稀疏度指标如下

该指标由 u 和 v 种类的节点的平均度(degrees)来决定。如果 D(r) 越大,代表由 r 连接的两类节点的不平衡性越大,越倾向于 AR 类型,否则倾向 IR 类型。

总结

HIN2Vec: Explore Meta-paths in Heterogeneous Information Networks for Representation Learning

总结

把节点和节点间的关系作为一种二分类问题考虑,给定两个节点 x,y,通过预测节点之间是否存在确定的关系 r,同时学习到了节点和关系的向量表示。

论文考虑到了节点和关系的语义是不同的,因此它们的表示空间也应该不通,所以论文对关系向量运用了一个正则函数。

HEER

该论文提出的模型,想要解决Type不兼容的问题。在研究异质网络中,常用的思路仍然是将所有的节点在同一个空间下表示,但是这时候就会出现一些节点因为存在多种关系,而关系与关系之间又并不兼容的特性。

如图,stanmusicalAng Lee是不同类型的节点,因为musical和Ang Lee的embedding距离很远,会导致stan无法同时和两个embedding同时很近,因此需要学习两个不同的度量空间,从而stan分别在两个度量空间中与对应的node距离很近。

该度量向量μ是对不同类型的关系来进行embedding,g_{uv}是表示u,v之间的边的embedding。通过定义该相似度函数,能够获得基于不同边类型r的相似度。

应用

分析具体场景所要考虑的关系→融合所有关系构建HIN→基于元路径或元结构计算相似度→先特征融合再进行分类器学习或者先学习分类器再进行集成。

Automatic Opioid User Detection From Twitter: Transductive Ensemble Built On Different Meta-graph Based Similarities Over Heterogeneous Information Network

架构

  • Data collector and preprocessor 第一阶段为数据收集和处理阶段,系统收集用户的profile和发表的tweet,并使用CoreNLP对文本进行相关的处理,如果文本涉及到一些毒品相关词如海洛因、吗啡或其衍生词等都会以topic的形式标记下来。

  • Feature extractor and HIN constructor 每个tweet都会以词袋模型的形式进行表示,另外用户、tweet、topic的相关关系都会被考虑进HIN的构建中。

Meta-graph based similarity builder 在这一阶段,通过基于meta-graph的相似度计算方法,来计算用户之间的相似度。

  • Transductive ensemble 基于不同语义关系下的相似度,作者为了减少对于标记数据的依赖,使用 transductive learning来学习分类器,最后采用ensemble的思想得到最终的识别
  • 6种关系

基于meta-graph的相似度计算,我们就能够量化在给定语意关系下的用户间的相关性。在另一方面,作者也通过推文的词袋表示来计算任意两个用户产生的内容之间的余弦相似度 。 到了指定语意路径下的用户相似度矩阵,将这个矩阵还原成图,就得到了一个节点类型全为 user,边权重为两用户相似度的同态图

总结

在得到的相似度矩阵上进行分类

HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network

架构

Unzipper and Decompiler:对APK文件进行解包以及反编译成smali code;

Feature Extractor:解析每个APK文件的smali code,提取APK、API间的各种关系;

HIN Constructor:结合上一步的各种关系,构建 HIN;

Multi-kernel Learner:通过各种 meta-path 计算apk之间的相似度矩阵,然后基于此训练multi-kernel SVM;

Malware Detector:给定一个新的APK,通过前面其API的相关特征送入SVM进行分类;

基于异构神经网络的恶意账号识别

蚂蚁金服在CIKM2018 上的文章

恶意账号特点

恶意账户具有强烈获取利益倾向和团伙性质,往往是通过批量、低成本注册的账户。

基于我们前面对设备聚集性和时间聚集性的分析,我们将上面的用于刻画联通子图的图神经网络方法进行扩展:

第一、我们构建异构图,包括账户类节点,以及多种类型的设备信息,如:电话、MAC、IMSI 以及其他 ID。

第二、我们为每个账户加入时间上的行为特征 X ∈ RN,P。其中每行 Xi 表示节点(账户或设备)在时间上的行为特征。我们希望构建的神经网络模型可以学习到通过设备聚集在一起的账户在行为特征上的模式,从而更准确的做出判别。

推荐系统

Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks

问题

有了HIN,能给我们更多的用户-商品关联矩阵,这是因为每一条meta-path或meta-graph,都可以刻画出在该种语意关系下的用户-商品相似度矩阵。那么问题就转化为:已知用户-商品之间在多种关系下的相似度矩阵,如何融合这些矩阵所提供的信息呢?如果我们有了融合的方法,就可以在目前推荐的一般框架下进行建模。

向量相加,FM分解

Leveraging Meta-path based Context for Top-N Recommendation with A Neural Co-Attention Model

问题

对用户、商品、元路径分别做了embedding。如果仅有用户与商品的embedding建模,那就是一个很基础的基于隐变量的矩阵分解模型,在HIN中,有了meta-path之后,我们要去思考两件事?

1、meta-path 如何量化表达?

2、meta-path、user、item 三者的特征表达如何进行整合?

  • 借用CNN+Pooling的组合,得到统一标准的meta-path embedding

    K个路径实例是怎么选取的呢?一种方法是基于元路径的随机游走策略,即沿着元路径在节点之间均匀游走,作者认为这样并不高效。我们可以借用矩阵分解的思路得到每一个节点的表达,然后在游走的时候计算当前节点与其所有邻居节点的相似度,按照相似度的大小进行概率跳转,这样抽样出来的路径实例更具有代表性

  • 利用attention机制进行整合

Fine-grained Event Categorization with Heterogeneous Graph Convolutional Networks

动机

细粒度的事件分类:不同实体描述

Abnormal Event Detection via Heterogeneous Information Network Embedding

不同领域的人突然合作了一篇文章

动态异质网络

图智能分析利器-Graph Embedding与动态图异常检测

动态网络

动态异构网络

坚持原创技术分享,您的支持将鼓励我继续创作!