Nice to meet you.

使用SPSS识别上市公司财务舞弊-基于决策树

字数统计: 1.7k阅读时长: 5 min
2019/07/03 Share

  决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。决策树是一种十分常用的分类方法。他是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。——百度百科
  SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,这标志着SPSS的战略方向正在做出重大调整。SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。——百度百科

案例

数据说明:

  财务舞弊是指有目的、有预谋、有针对性的财务造假和欺诈。若财务报表存在重大错误,而注册会计师没有识别并作出了不合理的审计意见,会导致会计报表的使用者容易做出错误的决策。
  案例数据来自国泰君安数据服务中心抽取的关于中国上市公司财务审核意见的数据和上市公司财务报表数据,其中100家公司的审计意见为:无法表达意见、保留意见和否定意见(出现了财务报表存在会计舞弊,标记为2);115家公司的审计意见为:无保留意见或带强调事项段无保留意见(未出现了财务报表存在会计舞弊,标记为1)。此225家数据作为训练样本,另外抽取19家存在会计舞弊的公司和30家不存在会计舞弊的公司共49家公司作为测试样本。

附录:

数据集:
1、财务舞弊识别_训练样本.xls
2、财务舞弊识别_检验样本.xls


使用SPSS Modeler识别上市公司财务舞弊

使用训练数据建立模型

  我们先使用训练样本数据训练出符合我们标准的模型。
  运行SPSS,将”财务舞弊识别_训练样本.xls”载入SPSS中,从”输出”选项中选择一个”表”模块,拖入并连接,鼠标右键表后单击运行:
pic2
即可看到训练样本的数据:
pic3
从题目和数据中可以知道”审计意见类型”是输出且只分为’1’和’2’,我们在训练数据后加一个”字段选项”中的”类型”,并且右键”类型”进行编辑,将”审计意见类型”的”测量”设置为”分类”、”角色”设置为”目标”,再点击左下角的确定:
pic4
从SPSS底下的一栏中,我们点击”建模”可以看到其中有很多种方法:
pic5
可以先随意选择一种决策树方法,以 C5.0 方法为例,把 C5.0 拖曳到图中,将类型连接到 C5.0 方法,右键再点击运行即可生成下图:
pic6
双击生成的”审计意见类型”模型,则可以看到下图所示”预测变量重要性”的直方图,横坐标为重要性程度,纵坐标为一些自变量:
pic7
左键单击”查看器”,则可以直接看到SPSS使用 C5.0 方法自动生成的决策树,如下图所示:
pic8
我们从底部的”输出”中选择一个”分析”,拖曳到图中:
pic9
右键后单击运行,即可生成如下图,从图中我们可以知道建立模型一共使用了215条记录,其中模型输出和训练数据标签匹配正确的有184条、占85.58%,匹配错误的有31条、占14.42%:
pic10
除了使用”分析”来分析模型之外,我们还可以使用底下”图形”中的”评估”来评估这个模型:
pic11
相似的,将”评估”拖曳到图中并如图所示建立连接,右键后单击运行,即可生成”[$C-审计意见类型]:增益 的评估”图,图中蓝线代表该模型训练数据量与模型正确匹配度的关系,蓝线与红线所围成图形面积越大说明这个决策树方法更好更合适。
pic12
我们暂且认为匹配正确超过80%的模型即为合格,则生成的这个模型符合要求,可以进行下一步,使用检验样本识别财务舞弊。

使用模型识别检验数样本中的财务舞弊

  这一步,我们使用前一步中生成好的模型来识别财务舞弊。
  相似的,我们将”财务舞弊识别检验样本.xls”载入SPSS中,并连接”表”和”类型”模块:
pic1
右键编辑”类型”,将”测量”设置为”分类”、“角色”设置为“目标”:
pic13
我们使用右键将“[财务舞弊识别
训练样本.xls”的“类型”到“审计意见类型”模型之间的连接断开,将“[财务舞弊识别_检验样本.xls”的“类型”连接到“审计意见类型”模型,再右键运行,通过“分析”和“评估”两个模块即可得到下图:
pic14
从图中可知,我们使用决策树生成的模型识别了检验样本中49条记录,识别正确了42条,该模型识别财务舞弊正确率为85.71%,我们可以认为该模型符合要求,可以识别出中国上市公司财务是否舞弊。


更多

在第一步中,我们可以使用 C5.0 方法,那当然了,我们也可以尝试使用其他方法并找到最佳的方法建立更好的模型,经过我的尝试,发现 CHAID(C) 方法匹配的正确率最高,到达了92.09%:
pic15
该方法生成的模型识别财务舞弊的正确率也最高,为89.8%:
pic16


顺便注明一下,数学建模系列主要是为了给自己数学建模经历做个笔记,以便之后学习和回顾!


CATALOG
  1. 1. 案例
    1. 1.1. 数据说明:
    2. 1.2. 附录:
  2. 2. 使用SPSS Modeler识别上市公司财务舞弊
    1. 2.1. 使用训练数据建立模型
    2. 2.2. 使用模型识别检验数样本中的财务舞弊
  3. 3. 更多