机器学习入门之python 综合分类器 随机森林分类 梯度提升决策树分类
小标 2018-10-15 来源 : 阅读 1648 评论 0

摘要:本文主要向大家介绍了机器学习入门之python 综合分类器 随机森林分类 梯度提升决策树分类,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之python 综合分类器 随机森林分类 梯度提升决策树分类,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

  1 import pandas as pd
  2 from sklearn.cross_validation import train_test_split
  3 from sklearn.feature_extraction import DictVectorizer
  4 from sklearn.tree import DecisionTreeClassifier
  5 from sklearn.metrics import classification_report
  6 from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
  7 
  8 ‘‘‘
  9 集成分类器:
 10 综合考量多个分类器的预测结果做出考量。
 11 这种综合考量大体上分两种:
 12     1 搭建多个独立的分类模型,然后通过投票的方式 比如 随机森林分类器
 13         随机森林在训练数据上同时搭建多棵决策树,这些决策树在构建的时候会放弃唯一算法,随机选取特征
 14     2 按照一定次序搭建多个分类模型,
 15         他们之间存在依赖关系,每一个后续模型的加入都需要现有模型的综合性能贡献,
 16         从多个较弱的分类器搭建出一个较为强大的分类器,比如梯度提升决策树
 17         提督森林决策树在建立的时候尽可能降低成体在拟合数据上的误差。
 18         
 19 下面将对比 单一决策树 随机森林 梯度提升决策树 的预测情况
 20 
 21 ‘‘‘
 22 
 23 ‘‘‘
 24 1 准备数据
 25 ‘‘‘
 26 # 读取泰坦尼克乘客数据,已经从互联网下载到本地
 27 titanic = pd.read_csv("./data/titanic/titanic.txt")
 28 # 观察数据发现有缺失现象
 29 # print(titanic.head())
 30 
 31 # 提取关键特征,sex, age, pclass都很有可能影响是否幸免
 32 x = titanic[[‘pclass‘, ‘age‘, ‘sex‘]]
 33 y = titanic[‘survived‘]
 34 # 查看当前选择的特征
 35 # print(x.info())
 36 ‘‘‘
 37 
 38 RangeIndex: 1313 entries, 0 to 1312
 39 Data columns (total 3 columns):
 40 pclass    1313 non-null object
 41 age       633 non-null float64
 42 sex       1313 non-null object
 43 dtypes: float64(1), object(2)
 44 memory usage: 30.9+ KB
 45 None
 46 ‘‘‘
 47 # age数据列 只有633个,对于空缺的 采用平均数或者中位数进行补充 希望对模型影响小
 48 x[‘age‘].fillna(x[‘age‘].mean(), inplace=True)
 49 
 50 ‘‘‘
 51 2 数据分割
 52 ‘‘‘
 53 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=33)
 54 # 使用特征转换器进行特征抽取
 55 vec = DictVectorizer()
 56 # 类别型的数据会抽离出来 数据型的会保持不变
 57 x_train = vec.fit_transform(x_train.to_dict(orient="record"))
 58 # print(vec.feature_names_)   # [‘age‘, ‘pclass=1st‘, ‘pclass=2nd‘, ‘pclass=3rd‘, ‘sex=female‘, ‘sex=male‘]
 59 x_test = vec.transform(x_test.to_dict(orient="record"))
 60 
 61 ‘‘‘
 62 3.1 单一决策树 训练模型 进行预测
 63 ‘‘‘
 64 # 初始化决策树分类器
 65 dtc = DecisionTreeClassifier()
 66 # 训练
 67 dtc.fit(x_train, y_train)
 68 # 预测 保存结果
 69 dtc_y_predict = dtc.predict(x_test)
 70 
 71 ‘‘‘
 72 3.2 使用随机森林 训练模型 进行预测
 73 ‘‘‘
 74 # 初始化随机森林分类器
 75 rfc = RandomForestClassifier()
 76 # 训练
 77 rfc.fit(x_train, y_train)
 78 # 预测
 79 rfc_y_predict = rfc.predict(x_test)
 80 
 81 ‘‘‘
 82 3.3 使用梯度提升决策树进行模型训练和预测
 83 ‘‘‘
 84 # 初始化分类器
 85 gbc = GradientBoostingClassifier()
 86 # 训练
 87 gbc.fit(x_train, y_train)
 88 # 预测
 89 gbc_y_predict = gbc.predict(x_test)
 90 
 91 
 92 ‘‘‘
 93 4 模型评估
 94 ‘‘‘
 95 print("单一决策树准确度:", dtc.score(x_test, y_test))
 96 print("其他指标:\n", classification_report(dtc_y_predict, y_test, target_names=[‘died‘, ‘survived‘]))
 97 
 98 print("随机森林准确度:", rfc.score(x_test, y_test))
 99 print("其他指标:\n", classification_report(rfc_y_predict, y_test, target_names=[‘died‘, ‘survived‘]))
100 
101 print("梯度提升决策树准确度:", gbc.score(x_test, y_test))
102 print("其他指标:\n", classification_report(gbc_y_predict, y_test, target_names=[‘died‘, ‘survived‘]))
103 
104 ‘‘‘
105 单一决策树准确度: 0.7811550151975684
106 其他指标:
107               precision    recall  f1-score   support
108 
109        died       0.91      0.78      0.84       236
110    survived       0.58      0.80      0.67        93
111 
112 avg / total       0.81      0.78      0.79       329
113 
114 随机森林准确度: 0.78419452887538
115 其他指标:
116               precision    recall  f1-score   support
117 
118        died       0.91      0.78      0.84       237
119    survived       0.58      0.80      0.68        92
120 
121 avg / total       0.82      0.78      0.79       329
122 
123 梯度提升决策树准确度: 0.790273556231003
124 其他指标:
125               precision    recall  f1-score   support
126 
127        died       0.92      0.78      0.84       239
128    survived       0.58      0.82      0.68        90
129 
130 avg / total       0.83      0.79      0.80       329
131 
132 ‘‘‘

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 1 不喜欢 | 0
看完这篇文章有何感觉?已经有1人表态,100%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程