网络挖掘初探索,根据看的资料整理的鸭
还在持续更新中……
总是会听到一些网络挖掘、知识图谱、复杂网络等等概念,想要捋清楚这些究竟是个啥,根据看的的各种资料汇总的一些基本概念。旨为搞清楚他们是啥,以及他们之间的关系。非专业小白,自己个瞎看看就好。
概念
什么是图?
图(图论)是一种常见的数据结构,用于表示对象及其之间的关系。其中,对象又称节点(node)或顶点(vertex),关系用边(edge)来描述。在数学上一般用 G=(V,E,A,X) 来表示,其中 V={v1,v2……,vn} 是节点集合,E=e_ij 表示边的集合,A 是大小为|V|×|V|的邻接矩阵,用于表示节点之间的连接关系,如果 e_ij∈E,则 A_ij=1,X 是大小为|V|×d 的特征矩阵,X 的第 i 行 X_i:表示第 i 个节点的属性特征,其中 d 是属性的维度。图是一个数学学科,现也被广泛应用于计算机科学,如研究数据结构、计算机框架、网络设计等。
什么是知识?
百度:知识是符合文明方向的,人类对物质世界以及精神世界探索的结果总和。通常我们认为的知识,是我们在实践中对于认识客观世界的成果,其中包括诸多,如事实、信息描述、实践技能、归纳总结的客观规律,发现论证的推导。知识也可以看成是构成人类智慧的最根本因素。但是这是全人类知识的概述,不同于个人理解的知识,不同于知识图谱中的知识,也就是本文中所阐述的“知识”是狭义上的知识。因为知识是狭义的,所以我们更需要去界定什么样的“知识”是我们所需要的,通常对于我们来说,我们需要构建知识图谱的知识,是需要根据业务来确定,我们需要它来支撑什么样的业务,根据业务性质来确定需要总结的知识。
什么是图谱?
对于图谱我们可以稍微咬文嚼字,graph 即图,而我们称之为图谱,那么何所谓图?,图是知识的表述形式,图包含两个部分:1、节点(node),节点即知识;2、边(edge),边即关系;即以图的形式来保存知识。那何所谓谱,我们知道家谱,菜谱,食谱,那谱的意思即按照事物的类别、系统制表,也就是说图谱,不但需要能够以图的方式,结构化地表述知识,还需要对知识进行类别分类,归纳总结。
什么是网络挖掘(图挖掘)?
其实与一般意义上的数据挖掘/数据分析殊途同归,都是通过挖掘/分析方法,获取数据中的包含的信息和知识。
不同的是,一般意义的数据挖掘是通过算法模型(比如常用的回归、分类、聚类模型)进行描述/预测,网络挖掘则给出了新的解决方式。
通过将数据/问题抽象为网络模型,来帮助我们更好地进行数据分析/数据挖掘。
什么是复杂网络?
复杂网络(Complex network)即呈现高度复杂性的网络,是复杂系统的抽象。钱学森给出的定义:具有自组织、自相似、吸引子(网络的内聚倾向)、小世界(相互关系的数目可以很小但却能够连接世界的事实)、无标度中部分或全部性质的网络称为复杂网络。
- 规则网络
- ER随机网络
- WS(超) 小世界网络
- 自相似网络
- 确定性网络
- 动态演化网络
- BA无标度网络
- JGN社区网络
什么是知识图谱?
知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系。是融合了认知计算、知识表示与推理、信息检索与抽取、自然语言处理、Web技术、机器学习与大数据挖掘等等方向的交叉学科。即,整理总结业务中的知识,并建立这些知识之间的关联关系,最后以图的方式将其保存出来,并对这些知识进行分类,归纳和总结。
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。
什么是社交网络?
社交网络(Social network)模型许多概念来自于图论,因为社交网络模型本质上是一个由节点(人)和边(社交关系)组成的图。目前主导社交网络的两个核心脉络就是关系图谱与兴趣图谱。
以上概念混乱的关系?
图(论):数学工具
复杂网络:源于图(基于图论的理论和方法开展),图+算法,侧重于工程。是一种特殊的图(具有高度复杂特征的图)。
社交网络:是用到复杂网络工具进行社会研究,也可以说是复杂网络的分支
知识图谱:现在最常听说的概念,知识图谱既是一种特殊的图,也是一种特殊的复杂网络。但知识图谱也是一种知识表示。复杂网络+知识表示。
两大主题:风险控制和精准营销。
网络挖掘:比较大的概念,类似数据挖掘。
相关技术
知识表示
知识抽取
从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。
-
面向非结构化数据的知识抽取
- 实体抽取
- 关系抽取
- 事件抽取
-
面向结构化数据的知识抽取
- 直接映射
- R2RML
- 相关工具
-
面向半结构化数据的知识抽取
- 面向百科类数据的知识抽取
- 面向WEB网页的知识抽取
知识挖掘
知识内容挖掘:实体链接
知识结构挖掘:规则挖掘
知识融合
概念层的融合
实体层的融合
知识存储
知识图谱是基于图的数据结构,它的存储方式主要有两种形式:RDF存储格式和图数据库(Graph Database)。
常见图数据库:
- NEO4J(图)
- 分布式图形数据库 JanusGraph
- Titan(图)
- OrientDB(图,文档)
- Cayley
- Jena (RDF)
- RDF4J
- RDF-3X gStore
知识计算
知识计算主要是指在结构化的知识存储库中发现隐含关系以及知识,包括但不限于如下:
知识表示:
知识推理: 据已有的知识图谱中的事实或者关系推断出新的事实与关系,一般是考察实体、关系和图谱结构三个方面的信息特征。
- 基于演绎的知识图谱推理本体推理
- 基于逻辑编程的推理
- 基于查询重写
- 基于产生式规则
- 基于规则学习的推理
- 时序法
产生式规则、基于谓词逻辑
图挖掘的相关技术:图遍历、最短路径查询、子图查询、路劲探寻
知识应用
开发工具
GraphX:基于spark
networkx:python
应用
反欺诈
异常分析(Anomaly Detection)
失联客户管理
搜索引擎
智能问答
大数据分析
语言翻译和语言理解及辅助设备互联(Iot领域)
病毒传播
画像