足球比赛大数据分析:如何利用团队合作与天气因素预测赛果
江海富有龙和魏雷
(江苏科学技术大学计算机科学技术学院)
1简介
随着大数据量的增加,它为所有行业,尤其是在体育领域带来无限的想象力和商业应用价值。作为体育领域的一项流行赛事,在国内足球氛围中,足球比赛变得越来越强大,足球场的各个子部门也在迅速发展。足球比赛的大数据就是其中之一[1]。目前,有大量喜欢足球的人可以预测下一场比赛的结果,通常个人可以预测支持他们支持的球队。但是,由于足球比赛结果的不确定性,甚至专家也很难预测下一场比赛的结果[2]。从足球比赛的挖掘大数据中,发现足球比赛的难度主要是因为足球比赛的结果包含许多有影响力的因素,例如团队合作,个人技能,天气,家庭法院的优势等,并且很难预测足球比赛的实际结果[3]。即使比赛没有任何损失或没有加时赛,运气也可能是影响足球比赛结果的一个因素,因此强大的球队不一定赢得弱势球队。正是由于影响足球比赛和复杂情况的各种因素,这使足球游戏的相关性分析具有更多的研究价值,并且使企业界更具兴趣和体育社区更多的精力来探索未接触的特征信息。
足球比赛预测有许多研究方法,但是对赛后影响因素的分析相对较少,并且在传统和简单的统计分析中更为普遍。价值影响因子不能从多个角度和方面进行比较[4]。 R [5]等。评估赛前因素及其与多变量分析结果(Win/loss)的关系的组合,并使用预测性机器学习模型(ML)预测澳大利亚足球联盟(AFL)的结果,以表明使用ML方法可以提供预测变量的水平,从而最大程度地利用获胜的机会,并可以预测AFL游戏的结果,从而为游戏提供新的解决方案分析。 Wu Jian等。 [6]使用(logit)建立一个关联模型,将玩家的基本能力和表现与游戏结果相关联,并提出,玩家的个人技能和结果之间的年龄和小组球员货币化存在差异。通过对玩家的客观和定量描述,我们可以及时有效地判断团队的问题,并进行有针对性的更改。在预测模型[7〜8]中,提出了一种新的动态多元模型,以分析和预测全国联盟足球比赛的结果。实际结果对于足球比赛的预测有很好的成绩。数据是在足球场中的每时每刻生成的,这些数据具有重要的有用价值。尽管已经在国内外尝试了大量研究,但从玩家本身或动态调整预测模型,对游戏的影响因素的深入探索尚未深入进行。
本文收集了大量足球比赛数据,包括西班牙联赛第一,德国联赛,意大利联赛第一,法国联赛第一和葡萄牙足球超级联赛五个赛季(2014-2019)的完整比赛数据。为了响应多样性,不确定性,歧义和其他影响足球比赛因素的问题,以及在计算经典灰色相关性时无法比较多个因素对不同观察序列特征空间的影响。提出了一个模糊和灰色相关分析模型,以提出基于模糊和灰色相关理论的模糊灰色相关分析模型。根据贡献规模对该方法获得的高贡献特征进行分类和分析,相对科学的足球匹配结果预测和估计模型(模型)用于预测和分析提取的特征[9-10]。在彻底测试了模型效应之后,对模型中每个指标的统计筛查进行了反复的迭代,并指出了不同影响因素的重要性。发现一种方法可以获得高度贡献的特征,并且在特征分析和提取后仍然可以获得高准确性的预测。此外,在特定特征分析中不断判断该价值,最后,在足球比赛中应重点关注的问题以目标方式提出。
2研究方法2.1模糊成员资格和灰度相关模型
鉴于足球匹配结果的现有问题,本文在分析游戏影响因素时使用模糊的数学理论和灰色理论。目前,在相关分析和评估领域,模糊的综合判断方法和灰色相关方法被广泛提及,由于它们的具体问题,存在某些局限性。因素之间歧义性的主要原因是,在因素之间存在不同差异的过程中,有中间过渡判断,其中包括它们所包含的连接。但是,相互包容的过程仍然存在客观差异。进一步的比较可以清楚地表明,在下一阶段,在上一阶段中彼此之间的关系中的信息可能不会紧密连接[11]。
成员资格函数是评估模糊理论中交易歧义的重要评估方法,也是相关分析方法的主要组成部分[12]。本文根据相似性原理使用相关系数模型和Deng的灰色相关分析模型。位移差用于区分不同列之间的重要性,并根据计算的相关度分析相关序列,以根据相关序列分析不同因素的相关度[13]。
2.1.1原始数据处理
由于变量的不同维度,数据标准化处理可以显着减少模型预测中的数据误差。对于传统的灰色相关分析方法,初始化或单个含义通常用于数据处理。本文引用了数据间隔无量纲转换类似于传统模糊聚类中的极端差异转换,即比较序列XI中的数据(i = 1,2,…,n)是通过min-max无限处理的。
2.1.2模糊成员资格和灰度相关的计算
为了确保该模型包括所有信息并可以减少数据的线性关系的影响,本文使用常用的相关方法来建立模糊相似性矩阵的数学模型,该模型用于测量两个变量,使用单调方程的依赖性,并使用单个式方程来评估两个统计变量的相似性,而不是敏感的敏感性和敏感性敏感的敏感性。它的表现是
其中,XI和Yi是影响因子I,Xˉ和Yˉ的值的水平,是变量X和Y的评估水平,而N是影响因素的总数。
当i = k时,参考序列yi的相关数ξij(k)可以通过以下公式确定:其中Δmin和Δmax分别是yi和xi的最大值和最小值的绝对值,分别是影响因素。 Δij(k)是kth点yi和xi之间的绝对差异。 ρ是判别系数,即最大值和最小值的权重,并且需要满足干扰和相关之间的一致性。计算最大值和最小值之间的绝对值差的平均值,并根据δ和Δmax的比率确定ρ的值间隔。计算公式如下:
由于相关数的计算方法将导致许多计算结果,以促进比较和分析,因此每个相关数将集中在值的效果上,即灰色相关度。由于足球比赛的许多影响因素,本文简化了原始的灰色相关公式以获取:
2.2足球比赛的模糊灰色相关分析方法
根据第2.1.2节中的模糊成员资格程度ρ和灰色相关程度ξ,计算了影响足球比赛的判断因素的全面评估指数,也就是说,本文中提到的模糊灰色相关程度RIJ如下:
为初始数据处理和合理补充丢失的数据构建了表征。在七种特征数据中,总共提取了43个功能。使用模糊的灰色相关分析用于重要性分析,并提取了一组具有强相关性的特征。最后,如算法1所示,它将其进行了决定进行实际的足球比赛预测。
算法1。模糊灰度相关分析算法描述了输入匹配数据X和实际匹配结果y;
灰色相关分析后输出功能数据集C C
xi =(xi1,xi2,…,xip),(i = 1,2,3,…,n)
1)s as xi
2)[f1 fs,g1 gs] =(xi),ee(xi)
3)[c1 cs〜cs] =(fi,gi)
4)p =(CI)
5)最大(p)
6)找到最好的p
7)调整等式。 (4)
8)结束
3实验数据收集
本实验中使用的数据集来自Scout网络数据(http://info/.htm)。六个主流欧洲联赛(西班牙联赛,德国联赛,意大利联赛,法国联赛和葡萄牙足球超级联赛)是通过爬行者计划从该网站中提取的。在五个季节(2014-2019)中构建了总共10,661个完整的匹配数据。数据集构建为实验的基本数据。详细信息显示在表1到2中。
表1球队最近的比赛情况
表2玩家最近的游戏状态数据
由于足球比赛包括通过了解文学和足球比赛的人为因素和自然因素以及与关系有关的现实因素。本文预处理了从最初的足球匹配数据中提取的数据,然后从点差距,家乡和最近以及最近的状态,圆形相关性,身体健身状态,赔率状态,两支球队对抗的历史状态以及相关性分析的下一步的犯罪和防御状态进行深入挖掘。详细的功能简介如图1所示。
图1。七类竞争特征数据
在完成游戏特征的提取后,发现缺少一些数据,例如“主队在过去五场比赛中承认进球”,因为可以将原始数据理解为今年游戏赛季的时间表,在过去五场比赛中没有数据。因此,为了公平地说,丢失的数据是由团队在家庭和客场比赛中得分的。
4实验结果和讨论
由于足球比赛结果本身的预测本身非常复杂,因此根据实际比赛结果总结了本文中的特征,因为每个游戏都可以尽可能恢复足球比赛的实际预测结果。清洁和处理初始数据后,获得了七个维度的特征序列,并且所获得的特征需要下一个模糊的灰色相关分析。首先,让足球比赛的实际结果特征合并为对照顺序Y,许多影响比赛结果的因素构成了比较序列X。对比较序列X进行标准化并计算以获得足球比赛影响因素的标准化矩阵。将标准化的影响因子矩阵带入公式(1)导致影响因子的模糊成员。将归一化系数矩阵带入公式(2)以获得Δmin= 0,Δmax= 1。通过减去平均值,可以计算出ρ的值范围为0.3202≤ρ≤0.4803,并发现灰色相关矩阵。
将灰色相关矩阵带入方程式(4)可以在足球比赛的结果上获得加权灰色相关度。 This paper uses the fuzzy gray to the fuzzy gray of the of the as shown in Table 3, and the the two is shown in 2. Among them, this on all : home , draw rate, home team's home , draw rate among the game, home team's last five games, away team's last five games, home team's last five games, home team's last five games, home team's away team's last five games, home team's away team's away team's away team's home and away team's away team's away team's away team's home and away team's away team's away team's is less than 3, is than 3 but less than 6, than 0.8, less than 3, than 0.9 less than 3, rest ratio, rest , loss-win rate, draw rate, home odds , odds , the ratio of the two teams in this game, home-to-home away team ratio, two teams' home-to-home away team ratio, two teams' most home-to-home away team draws, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home away team goals, home-to-home离家的团队目标,团队的目标,与家居的团队目标,与家居的团队目标,与家之间的团队目标,与家居的胜利,Libo Draw和Libo损失的第一个赔偿,分别由X1,X2,……X43代表。本文的其余部分将使用符号代替特征名称。
图2确定不同灰色相关值的线图
表3不同灰度计算方法的相关表
实验后,发现一些提取的特征,例如X1,X10,X17,X20,X23,X24,X28,X32,X32,X37,X37,X38,X38,X40,X41,X43与竞争结果具有很高的相关性。可以理解的是,球队的主场优势以及足球比赛中最近的家园和访问状况可以反映两支球队在一定程度上的影响。对于欧洲损失的初始补偿,还可以发现,尽管初始补偿是基于为体育比赛提供可量化和直观的数据体验的基础,但它仍然与足球比赛的结果有一定的联系,反映了对足球比赛赔率机构的强有力分析。因此,模糊的灰度相关分析方法可以更好地量化一个数据上的各种特征,促进并更好地分析影响因素,并促进下一步的实际结果预测。
本文使用了一个模型,该模型是一个基于决策树的算法,由微软研究所在2017年发布。它具有快速训练速度,低运行记忆,高准确性,支持并行学习的优势,并且可以处理大规模数据,尤其是在行业中,尤其是具有高利用率值的行业[15-16]。通过提取对影响因素有很高贡献的功能,将提取的特征变量带入决策算法中,以对提取的足球比赛影响因素进行实际的足球比赛预测。
该实验将数据分为训练集和验证集。数据以9:1的比率分配,调整决策模型参数,并同时跨验证预测结果。表4显示了提取之间具有最高相关性的所有特征的实验比较。
表4所有功能的比较表和高相关特征
根据表4,发现本文提出的方法使用Light-GBM决策算法来预测足球比赛的胜利,精度为73.01%。此方法仍然可以失去游戏预测的实际准确性,而不会将影响因素降低67.5%,并且大大提高了计算速度。对于足球比赛,包含许多影响因素的相关分析具有良好的效果,并且可以通过实际的游戏结果发现最有用的功能,并且对游戏预测具有良好的预测效果。
5结论
基于模糊的灰色相关分析,建立了足球比赛的多因素相关模型。进行了定量判断和对足球比赛中多个因素的分析,并将定量重点放在不同因素对竞争结果的影响程度上,从而确保了分析的准确性以及最大程度的影响因素的解释性。该方法从统计数据和数据挖掘的角度分析了竞争数据的探索,从竞争数据的特征到预测筛选竞争结果。它不仅从大规模的竞争数据中探讨了数据本身的价值,而且还为体育竞争数据分析提供了一种新的探索方法。评估影响其他体育事件结果的因素的研究具有一定的影响,并为分析和预测体育竞争结果提供了参考科学和有效的参考。