假如有一个集合为a[1,2,3,4,5],另⼀一个集合为b[1,2,3,2,2,4] 那么我们对应的应该如何获取两个数据集的信息熵呢,首先我们需要了了解信息熵的 定义,在数学上,信息熵作为数据集混乱程度的计算量化指标,我们获得最后的结果应该是通在数学当中,与信息熵有相同含义的数据有Gini系数: Gini(p) = ∑k pk(1 − pk)k=1 构造决策树的基本想法是随着树深度的增加,节点的熵迅速降低,降低速度越快越好, 1 信息熵记录拓拓展决策树⽣生的信息熵,信息增溢让信息熵迅速降低,越快越好,所以我 们选择⼀一个节点肯定是让信息熵下降最快的.