安然事件(the Enron Incident),是指2001年发生在美国的安然(Enron)公司破产案。安然公司曾经是世界上最大的能源、商品和服务公司之一,名列《财富》杂志“美国500强”的第七名。然而,2001年12月2日,安然公司突然向纽约破产法院申请破产保护,该案成为美国历史上第二大企业破产案。
美国联邦调查局对此展开了美国历史上最大的白领犯罪调查,包括约3000箱文件和4TB数据。数据中包括了大约60万封安然公司高管之间交流的电子邮件。调查人员希望能从中发现这起复杂财务欺诈犯罪的有效线索,比如:安然公司内部谁是决策者、谁能访问大量公司内部信息、以及对邮件内容的非结构化分析。
安然电子邮件数据集是由CALO项目组收集和准备的。它包含大约150位用户的数据,大部分是安然公司的高级管理层。该数据集大约包含约50万条消息。这些数据最初由联邦能源监管委员会在调查期间公布并发布到网络上。该电子邮件数据集后来由麻省理工学院的Leslie Kaelbling购买,结果发现它存在一些完整性问题。SRI的一些研究者,特别是Melinda Gervasio,努力纠正这些存在的问题,正是由于他们的不懈努力,数据集才可用于有效的分析。这些公开的数据集不包括附件,并且某些敏感消息已被删除,“因为受相关员工的请求,作为编辑整理工作的一部分”。(来自网络)
电子邮件数据,属于“半结构化”数据。它有结构,但是内容又是非结构化的文本。本文仅限于对结构化部分进行分析。非结构化内容分析可以使用智器云的火图软件,以后再分享。
最简单的建模思路就是人-人模型,A给B发了一封电子邮件。因为电子邮件有它的特殊性,它有收件人、抄送人、密送人等区别。如果要把这些关系表现出来,则可以使用智器云火眼金睛专业版的自有建模功能,如下图所示:
为了尽可能把全部数据的关联关系看清楚,快速了解宏观态势、发现异常情况、发现规律和模式,我们将数据导入智器云火眼金睛。由于数据集较大,我们选取了大约7000个高管的5万条记录。导入数据加后台计算,总耗时约20秒。(笔记本配置:CPU i7 1.6GHZ, 16G内存,Win10专业版)
记录导入后,经过合并,有7009个对象,11381条链接。图形如下:
初步观察,我们发现:
·孤立点和自回路
有3对邮件和其他人都没有交集。在这起白领欺诈案里,可能属于无用信息;但在其它场景中,有可能就是一个需要多加关注的异常情况。比如这里面有个企业外部邮箱rjbaker@ttu.edu,值得关注。
有部分人自己给自己发邮件,也是属于比较常见的。智器云火眼金睛中有专门应对这种场景的特有功能,叫做自回路。
· 收发邮件最多的人
使用F11功能,找到收发邮件最多的人。这里把超过500的选中。(F11是火眼金睛的核心功能之一,建议大家多花点精力,把F11里面的功能了解清楚。)
很明显,这几个人属于安然公司的核心人员或高管,因为大部分的事情都要告知他们或者请他们安排下去。
· 社会网络分析(SNA)
社会网络分析(Social Network Analysis,SNA)是用于研究行动者及其之间的关系的一套规范和方法,是一种定量的群体交互行为研究方法。它以数据挖掘为基础,采用可视化的图以及社会网络结构的形式表示。运用这种研究方法 可以建立社会关系模型、发现社群内部行动者之间的各种社会关系。
经过火眼的计算可以得到如下结果:
(1)活跃程度
与上一节的总关联数排序相同。
( 2)重要程度
不完全与总关联数一致了。但可以看出,Sally Beck, Vince Kaminski依然很重要。
( 3)中心地位
也不完全与总关联数一致。可以看出,Sally Beck, Vince Kaminski的中心地位也很重要。
根据我们分析的角度,可以选取不同的排序来进行分析。
· 专题分析
随着调查的深入,主要操纵者锒铛入狱,安然帝国轰然崩盘。2002年,安然西海岸首席能源交易官Timothy Belden承认,当时安然通过欺诈操纵了加州电力市场,从中牟利超过10亿美元。他也承认,安然在其他电力市场亦有操纵行为,包括德州2001年售电侧开放前的试点项目。
我们通过F5功能搜索Belden,然后把他的第一层链接关系复制出来,如下图:
由图可见,几位高管都和Timothy Belden有直接联系。另外,有M.Belden属于外部公司的邮件地址,具有深入挖掘的潜力。
将关联关系图,在火眼中直接转为时序图,非常方便。
在时序图中,可以直接追踪,某一封邮件随时间的转发路径。
今年是安然事件20周年。用新的工具、新的思路、新的方法,把安然的电子邮件数据重新分析一遍,或许对当下的工作更有一些指导意义;尤其在企业内控、反舞弊、白领反欺诈等方面,更加有实际意义。作者:菩提
A5创业网 版权所有