数据挖掘的方法很多,实用易懂的就这一种

发布时间:2025-05-02 点击:1
六人定律,相信大家一定都不会陌生。简单的说,你只需要通过6个人,就可以认识到世界上所有的人。足以说明,世界就像一张网,任何事物之间都能找到关系。
大数据时代,我们把这样的网络叫关系网络,那么,如何从关系网络中挖掘出有价值的信息?以下为你一一道来。
什么是关系网络
4、度和权重
点的“度”数,是指与该点相连的边的条数。对于有向图,“度”也可以细分为出度和入度。与节点相连的边越多,说明该点越重要,所以节点的“度”数反映了一个点的重要程度。
再说说点的权重,权重是表示点的重要程度的另一种方式。权重有很多种评价方式,可以用点的某项属性度量值为权重,例如:注册资本等。也可以用某种算法求出点的权重,例如:pagerank。
可以用度数或权重在”图”中直观表示节点的重要程度。下图是《悲惨世界》人物关系,用pagerank为直径表示不同人物的重要性,可以看到,valjean是其中的核心人物(主角)。
5、中介中心性
中介中心性在我们wonderdm中又称节点影响度。中介中心性指的是一个结点担任其它两个结点之间最短路径的桥梁的次数。一个结点充当“中介”的次数越高,它的中介中心度就越大。中介中心性是研究一个参与者在多大程度上居于其他两个参与者之间,因而是一种控制能力指数。
下图是《悲惨世界》人物关系,用中介中心性为直径表示人物节点。可以看到,fantine是其中的关键人物。
6、模块化
模块化(modularity)是关系网络分析中用于分析网络结构的一种方法。根据一个群组内部比群组外部具有更高密度的联结的原则,它将网络分成不同的群组,通常也叫群(groups)、族群(clusters)或者社群(communities)),通常用来侦测网络的社群结构。通俗的说,找出网络由哪些小圈子组成。
以微博转发数据形成的关系网络为例,将此网络模块化之后按模块进行分组配色,可以很鲜明的看到整个网络形成了若干个不同的圈子,可以对圈子内的个体详细了解后,定位该圈子的群组特征。
7、k-core
一个图的k-core是指反复去除“度”小于k的节点后,所余下的子图,所有的节点度数都为k。k-core算法是简化复杂网络并得到核心子网络的算法之一,其简单有效可以运用到很多领域。k-core可以帮助我们从复杂的关系网络中提取高度相关的子结构(如社区、团体、关联企业等)。例如可以在采购欺诈模型中,帮助我们分析买家或卖家之间行为异常的团伙或找出整个交易网络中处在核心位置的供应商或采购商。
如下图所示,使用k-core算法,我们在一个复杂的关系网络中,找到若干关联度比较高的客户群体。
小结
现在是万物互联的时代,可谓万物皆有关系,关系网络分析可以应用到几乎所有社会活动当中。利用关系网络分析手段,结合时空数据、地理关系等建立可视化表征,可以揭示对象间的关联和对象时空相关的模式及规律,亿信华辰的数据挖掘产品wonderdm提供了涵盖分类、回归、聚类、关联规则以及时间序列等五大类、十余个小类的核心数据挖掘算法,同时支持扩展数据挖掘算法,让用户能够快速找到与业务更为贴合的数据挖掘模型。可以广泛应用于金融、银行、保险、物流、交通、安防、互联网等各行各业。


如何编写一篇好文案
网站建设构架中的SEO优化原则
企业如何进行网站推广
7条经典管理学、营销学定律指导网站运营
网站建设公司建站时需要做的准备工作有哪些?
企业如何通过网站推广来获取客户?
盐城网站建设_盐城网站制作需要掌握哪些小技巧
关键词推广:如何提高网站内容相关性