决策树分析法的介绍

2024-05-11

1. 决策树分析法的介绍

决策树分析法是指分析每个决策或事件（即自然状态）时，都引出两个或多个事件和不同的结果，并把这种决策或事件的分支画成图形，这种图形很像一棵树的枝干，故称决策树分析法。

决策树分析法的介绍

2. 决策树分析方法的基本步骤

决策树分析方法的基本步骤
1.绘制决策树图。从左到右的顺序画决策树，此过程本身就是对决策问题的再分析过程。
2.按从右到左的顺序计算各方案的期望值，并将结果写在相应方案节点上方。期望值的计算是从右到左沿着决策树的反方向进行计算的。
3.对比各方案的期望值的大小，将期望值小的方案(即劣等方案)剪掉，所剩的最后方案为最佳方案。
决策树(简称DT)利用概率论的原理，并且利用一种树形图作为分析工具。其基本原理是用决策点代表决策问题，用方案分枝代表可供选择的方案，用概率分枝代表方案可能出现的各种结果，经过对各种方案在各种结果条件下损益值的计算比较，为决策者提供决策依据。

优点：
1)　可以生成可以理解的规则；
2)　计算量相对来说不是很大；
3) 可以处理连续和种类字段；
4) 决策树可以清晰的显示哪些字段比较重要。

缺点：
1) 对连续性的字段比较难预测；
2) 对有时间顺序的数据，需要很多预处理的工作；
3) 当类别太多时，错误可能就会增加的比较快；
4) 一般的算法分类的时候，只是根据一个字段来分类。

3. 决策树的介绍

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。  决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。 分类树（决策树）是一种十分常用的分类方法。他是一种监管学习，所谓监管学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

决策树的介绍

4. 决策树分类的原理

决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。

如果不考虑效率等，那么样本所有特征的判断级联起来终会将某一个样本分到一个类终止块上。实际上，样本所有特征中有一些特征在分类时起到决定性作用，决策树的构造过程就是找到这些具有决定性作用的特征，根据其决定性程度来构造一个倒立的树--决定性作用最大的那个特征作为根节点，然后递归找到各分支下子数据集中次大的决定性特征，直至子数据集中所有数据都属于同一类。所以，构造决策树的过程本质上就是根据数据特征将数据集分类的递归过程，我们需要解决的第一个问题就是，当前数据集上哪个特征在划分数据分类时起决定性作用。

5. 事件树和决策树分析法的区别

首先教材认为事件树是故障风险发生后的分析，即故障如果没发生或者有不发生的可能都不能使用事件树，因此此时没有构成风险事件;而决策树不是，其决策时是专门针对不确定事件的发生;其次事件树发生的可能性仅仅有两种，要么成功要么失败;而决策树不是这样的，其是根据概率发生的可能性会有多种情况来应对分析。

联系：它们都开始于初因事项或是最初决策，同时由于可能发生的事项及可能做出的决策，需要对不同路径和结果进行建模。
区别：事件树发生的结果是互斥性后果，比如说发生火灾是一个结果，不发生火灾是另一个结果，事情只有这两种互斥性的后果。而决策树是从多种方案中选出最好的那种结果，决策树并不强调后果的互斥，它的关注点只在最高期望值的结果上。且事件树是定性与定量分析，而决策树仅仅是定量分析。

事件树和决策树分析法的区别

6. 决策树算法的介绍

决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树方法最早产生于上世纪60年代，到70年代末。由J Ross Quinlan提出了ID3算法，此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进，对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进，既适合于分类问题，又适合于回归问题。决策树算法构造决策树来发现数据中蕴涵的分类规则．如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步，决策树的生成：由训练样本集生成决策树的过程。一般情况下，训练样本数据集是根据实际需要有历史的、有一定综合程度的，用于数据分析处理的数据集。第二步，决策树的剪技：决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程，主要是用新的样本数据集（称为测试数据集）中的数据校验决策树生成过程中产生的初步规则，将那些影响预衡准确性的分枝剪除。

7. 如何利用决策树进行决策分析

画决策树的步骤如下：
A、先画一个方框作为出发点，又称决策节点；B、从出发点向右引出若干条直线，这些直线叫做方案枝；C、在每个方案枝的末端画一个圆圈，这个圆圈称为概率分叉点，或自然状态点；D、从自然状态点引出代表各自然状态的分枝，称为概率分枝；E、如果问题只需要一级决策，则概率分枝末端画三角形，表示终点 。     例题）假设有一项工程，施工管理人员需要决定下月是否开工。如果开工后天气好，则可为国家创收4万元，若开工后天气坏，将给国家造成损失1万元，不开工则损失1000元。根据过去的统计资料，下月天气好的概率是0.3,天气坏的概率是0.7。请做出决策。现采用决策树方法进行决策 【解】第一步：将题意表格化

第二步：画决策树图形，根据第一步所列的表格，再绘制决策树，如下图；

如何利用决策树进行决策分析

8. 决策树的实例

为了适应市场的需要，某地准备扩大电视机生产。市场预测表明：产品销路好的概率为0.7；销路差的概率为0.3。备选方案有三个：第一个方案是建设大工厂，需要投资600万元，可使用10年；如销路好，每年可赢利200万元；如销路不好，每年会亏损40万元。第二个方案是建设小工厂，需投资280万元；如销路好，每年可赢利80万元；如销路不好，每年也会赢利60万元。第三个方案也是先建设小工厂，但是如销路好，3年后扩建，扩建需投资400万元，可使用7年，扩建后每年会赢利190万元。　　各点期望：点②：0.7×200×10+0.3×（-40）×10-600（投资）=680（万元）点⑤：1.0×190×7-400=930（万元）点⑥：1.0×80×7=560（万元）比较决策点4的情况可以看到，由于点⑤（930万元）与点⑥（560万元）相比，点⑤的期望利润值较大，因此应采用扩建的方案，而舍弃不扩建的方案。把点⑤的930万元移到点4来，可计算出点③的期望利润值。点③：0.7×80×3+0.7×930+0.3×60×（3+7）-280 = 719（万元）最后比较决策点1的情况。由于点③（719万元）与点②（680万元）相比，点③的期望利润值较大，因此取点③而舍点②。这样，相比之下，建设大工厂的方案不是最优方案，合理的策略应采用前3年建小工厂，如销路好，后7年进行扩建的方案。