实例:【基于机器学习的NBA球员信息数据分析与可视化】

作者:24直播网2024-05-28 08:01:28

  数据集共有342个NBA球员样本,包含38个特征,即342行×38列。对这些数据进行集成和预处理。利用python语言,设计合适的机器学习算法。找出球员在场时对球队比赛获胜的贡献大小,最能反映球员的综合实力的特征。算法过程及结果的设计合适的可视化图像,将所设计的算法的过程,以及最终结果展示出来。   查看关键字:   专业名词字段含义说明: Rk:排名PLAYER:姓名POSITION:位置AGE:年龄MP:平均每场比赛进行的时间FG:场均投球命中次数FGA:场均投射次数FG%:命中率3P:三分球命中次数3PA:三分球投射次数3P%:三分球命中率(命中次数/投射次数----3P/3PA=3P%)2P:二分球命中次数2PA:二分球投射次数2P%:二分球命中率eFG%:有效命中率FT:罚球命中次数FTA:罚球投射次数FT%:罚球命中率(FT/FTA=FT%)ORB:进攻篮板数DRB:防守篮板数TRB:篮板球总数   篮板率=球员篮板数×(球队所有球员上场时间÷5)÷球员上场时间÷(球队总篮板+对手总篮板)   AST:助攻   助攻率=球员助攻数÷(球员上场时间÷(球队所有球员上场时间÷5)×(球队总进球数-球员进球数)   STL:抢断   抢断率=球员抢断数×(球队所有球员上场时间÷5)÷球员上场时间÷对手进攻次数   BLK:盖帽   盖帽率=球员盖帽数×(球队所有球员上场时间÷5)÷球员上场时间÷对手两分球出手次数)   TOV:失误   失误率=球员失误数÷(球员两分球出手次数+0.44×球员罚球次数+球员失误数)   PF:犯规次数POINTS:得分TEAM:球队GP:比赛场数MPG:场均上场时间ORPM:进攻正负值DRPM:防守正负值RPM:正负值WINS_RPM:赢球正负值PIE:球员贡献度   加分项:得分、投篮命中数、罚篮命中数、篮板、助攻、抢断、盖帽   减分项:投篮出手、罚篮出手、个人犯规、失误   PACE:每48分钟内大概会进行多少个回合W:胜利次数SALARY_MILLIONS:薪水 3.1 查看数据集信息 3.2 数据清洗与转换   为了便于理解,对列名称重命名   由df.isnull().sum()结果可知,缺失值‘三分球命中率’有22项,‘罚球命中率’有5项,下面显示缺失值的所在行 3P%:三分球命中率——3P/3PA=3P%FT%:罚球命中率——FT/FTA=FT%   由上方数据显示,分析可得,3P%和FT%的数值空缺原因均是因为3P、3PA、FT和FTA数值为0导致,   为数据精准度,使用dropna()直接将所有含空缺值的数据行删除   3.3 数据去重   根据数据探测可知,数据集中有多为球员姓名重复,删除重复项并保留第一次出现的项   根据所查资料知,效率值最能反应球员对比赛做出的贡献 PER:效率值   效率值=[(得分+篮板球总数+助攻+抢断+盖帽)-(场均投射次数-场均投球命中次数)-(罚球投射次数-罚球命中次数)-失误)]/比赛场数   4.1 数据相关性   找出判断球员贡献度相关的数据,得到其中的数据相关性,并用相关系数矩阵显示,并使用热力图进行可视化   使用热力图呈现: 4.2 球员数据分析   位置名词解释: PG:控卫SG:分卫PF:大前SF:小前C:中锋   查看各个站位的球员薪水分布:   小结: 球员贡献度越高排名越高   查看排名和薪水的关系:   小结: 排名越低薪水越低 5.1 数据重定义   根据数据可视化结果分析可知,球员贡献度是最能反映球员的综合实力的特征。   由df.describe()得到的数据,人为划分球员: 球员贡献度 <= 7.2 标记为0,记作表现不合格球员贡献度 <= 9.31标记为1,记作表现合格球员贡献度 <= 15 标记为2,记作表现良好球员贡献度 <= 23 标记为3,记作表现优秀 5.2 划分数据集与验证集   5.3 定义模型   调用:   查看各个特征对球员贡献度的相关度,找出除了球员贡献度的其他影响因素

实例:【基于机器学习的NBA球员信息数据分析与可视化】

实例:【基于机器学习的NBA球员信息数据分析与可视化】

相关资讯

直播

更多

录像

更多

视频

更多