USING DATA MINING TO PREDICT SECONDARY SCHOOL STUDENT PERFORMANCE
Paulo Cortez and Alice Silva
Dep. Information Systems/Algoritmi Ramp;D Centre
University of Minho
4800-058 Guimartilde;aes, PORTUGAL
Email: pcortez@dsi.uminho.pt, alicegsilva@gmail.com
KEYWORDS
Business Intelligence in Education, Classification and
Regression, Decision Trees, Random Forest
ABSTRACT
Although the educational level of the Portuguese population has improved in the last decades, the statistics
keep Portugal at Europersquo;s tail end due to its high student failure rates. In particular, lack of success in the
core classes of Mathematics and the Portuguese language is extremely serious. On the other hand, the
fields of Business Intelligence (BI)/Data Mining (DM),
which aim at extracting high-level knowledge from raw
data, offer interesting automated tools that can aid the
education domain. The present work intends to approach student achievement in secondary education using BI/DM techniques. Recent real-world data (e.g.
student grades, demographic, social and school related
features) was collected by using school reports and questionnaires. The two core classes (i.e. Mathematics and
Portuguese) were modeled under binary/five-level classification and regression tasks. Also, four DM models (i.e. Decision Trees, Random Forest, Neural Networks and Support Vector Machines) and three input
selections (e.g. with and without previous grades) were
tested. The results show that a good predictive accuracy
can be achieved, provided that the first and/or second
school period grades are available. Although student
achievement is highly influenced by past evaluations, an
explanatory analysis has shown that there are also other
relevant features (e.g. number of absences, parentrsquo;s job
and education, alcohol consumption). As a direct outcome of this research, more efficient student prediction
tools can be be developed, improving the quality of education and enhancing school resource management.
INTRODUCTION
Education is a key factor for achieving a long-term economic progress. During the last decades, the Portuguese
educational level has improved. However, the statistics
keep the Portugal at Europersquo;s tail end due to its high
student failure and dropping out rates. For example, in
2006 the early school leaving rate in Portugal was 40%
for 18 to 24 year olds, while the European Union average
value was just 15% (Eurostat 2007). In particular, failure in the core classes of Mathematics and Portuguese
(the native language) is extremely serious, since they
provide fundamental knowledge for the success in the
remaining school subjects (e.g. physics or history).
On the other hand, the interest in Business Intelligence
(BI)/Data Mining (DM) (Turban et al. 2007), arose due
to the advances of Information Technology, leading to
an exponential growth of business and organizational
databases. All this data holds valuable information,
such as trends and patterns, which can be used to improve decision making and optimize success. Yet, human experts are limited and may overlook important
details. Hence, the alternative is to use automated tools
to analyze the raw data and extract interesting highlevel information for the decision-maker.
The education arena offers a fertile ground for BI applications, since there are multiple sources of data (e.g.
traditional databases, online web pages) and diverse interest groups (e.g. students, teachers, administrators or
alumni) (Ma et al. 2000). For instance, there are several interesting questions for this domain that could be
answered using BI/DM techniques (Luan 2002, MinaeiBidgoli et al. 2003): Who are the students taking most
credit hours? Who is likely to return for more classes?
What type of courses can be offered to attract more students? What are the main reasons for student transfers?
Is is possible to predict student performance? What are
the factors that affect student achievement? This paper
will focus in the last two questions. Modeling student
performance is an important tool for both educators and
students, since it can help a better understanding of this
phenomenon and ultimately improve it. For instance,
school professionals could perform corrective measures
for weak students (e.g. remedial classes).
In effect, several studies have addressed similar topics.
Ma et al. (2000) applied a DM approach based in Association Rules in order to select weak tertiary school
students of Singapore for remedial classes. The input
variables included demographic attributes (e.g. sex, region) and school performance over the past years and
the proposed solution outperformed the traditional allocation procedure. In 2003 (Minaei-Bidgoli et al. 2003),
online student grades from the Michigan State University were modeled using three classification approaches
(i.e. binary: pass/fail; 3-level: low, middle, high; and
9-level: from 1 - lowest grade to 9 - highest score). The
database included 227 samples with online features (e.g.
number of corrected answers or tries for homework) and
the best results were obtained by a classifier ensemble
(e.g. Decision Tree and Neural Network) with accuracy rates of 94% (binary), 72% (3-classes) and 62% (9-
classes). Kotsiantis et al. (2004) applied several DM algorithms to predict the performance of computer science
students from an university distance learning program.
For each student, several demographic (e.g. sex, age,
marital status) and performance attributes (e.g. mark
in a given assignment) were used as inputs of a binary
pass/fail classifier. The best solution was obtained by a
Naive Baye
剩余内容已隐藏,支付完成后下载完整资料
中文翻译
利用数据挖掘预测中学生的学习成绩
Paulo Cortez和Alice Silva DEP的保护。 信息系统/ Algoritmi研发中心米尼奥大学 4800-058 Guimar〜aes,葡萄牙
电子邮件:pcortez@dsi.uminho.pt,alicegsilva@gmail.com
关键词
教育,分类和商业智能,回归,决策树,随机森林
摘要:
尽管葡萄牙人口的教育水平在过去几十年有所改善,但统计数据仍然存在由于学生失败率很高,葡萄牙在欧洲的尾端。特别是,缺乏成功数学核心课程和葡萄牙语非常严肃。另一方商业智能(BI)/数据挖掘(DM)领域,旨在从原始中提取高级知识数据,提供有趣的自动化工具,可以帮助教育领域。目前的工作旨在使用BI / DM技术在中学教育中取得学生成绩。最近的真实世界数据(例如学生成绩,人口统计,社会和学校相关通过学校报告和问卷收集特征)。两个核心课程(即数学和数学)葡萄牙语)在二元/五级分类和回归任务下建模。此外,四个DM模型(即决策树,随机森林,神经网络和支持向量机)和三个输入选择(例如有和没有以前的成绩)是测试。结果表明,预测准确性良好只要是第一个和/或第二个,就可以实现学年期成绩可用。虽然是学生成就受过去评估的影响很大,解释性分析表明还有其他相关特征(例如缺勤人数,父母的工作和教育,饮酒)。作为本研究的直接结果,学生预测效率更高可以开发工具,提高教育质量和加强学校资源管理。
介绍
教育是实现长期经济进步的关键因素。在过去的几十年里,葡萄牙人教育水平有所提高。单是,统计数据由于其高位,使葡萄牙保持在欧洲的尾端学生失败并辍学率。例如,在2006年葡萄牙早期离校率为40%18至24岁的人,而欧盟的平均水平价值仅为15%(Eurostat 2007)。尤其是数学和葡萄牙语核心课程的失败(母语)非常严肃,因为他们
为成功提供基础知识剩余的学校科目(例如物理或历史)。另一方面,对商业智能的兴趣
(BI)/数据挖掘(DM)(Turban等人,2007年),应有对信息技术的进步,导致业务和组织的指数增长数据库。所有这些数据都包含有价值的信如趋势和模式,可用于改善决策和优化成功。然而,人类专家是有限的,可能会忽略重要细节。因此,替代方案是使用自动化工具分析原始数据并为决策者提取有趣的高级信息。教育领域为BI应用提供了肥沃的土壤,因为有多种数据来源(例如传统数据库,在线网页)和各种兴趣小组(例如学生,教师,管理员或校友)(Ma et al.2000)。例如,这个领域可能有几个有趣的问题使用BI / DM技术回答(Luan 2002,MinaeiBidgoli et al.2003):学生最多的是谁学分?谁有可能返回更多课程?
可以提供哪些类型的课程来吸引更多学生?学生转学的主要原因是什么?有可能预测学生的表现吗?是什么影响学生成绩的因素?这篇报告将重点关注最后两个问题。建模学生
绩效是教育者和教育者的重要工具学生,因为它可以帮助更好地理解这一点现象并最终改善它。例如,学校专业人员可以采取纠正措施弱势学生(例如补习班)。实际上,一些研究已经涉及类似的主题。Ma等人。 (2000)应用基于关联规则的DM方法来选择弱小学新加坡学生的补习班。输入变量包括过去几年的人口统计特征(例如性别,地区)和学校表现
拟议的解决方案优于传统的分配程序。 2003年(Minaei-Bidgoli等人,2003年),密歇根州立大学的在线学生成绩使用三种分类方法建模即二进制:通过/失败; 3级:低,中,高;和
9级:从1级 - 最低级到9级 - 最高分)。该数据库包括227个具有在线功能的样本纠正的答案或尝试家庭作业的数量)和最好的结果是通过分类器集合获得的例如决策树和神经网络),准确率为94%(二进制),72%(3级)和62%(9-类)。 Kotsiantis等。 (2004)应用了几种DM算法来预测计算机科学的性能来自大学远程学习计划的学生。每个学生,几个人口(例如性别,年龄,婚姻状况)和表现属性(例如标记在给定的赋值中)被用作二进制的输入通过/失败分类器。最好的解决方案是通过a获得的朴素贝叶斯方法,准确度为74%。它,它被发现过去的学校成绩要高得多影响比人口统计变量。最近,Pardos等人。 (2006)从在线辅导收集数据关于美国8年级数学测试的系统。作者采用了一种回归方法,其目标是
根据个人技能预测数学考试成绩。作者使用了贝叶斯网络,效果最好是15%的预测误差。在这项工作中,我们将分析最近的实际数据来自两所葡萄牙中学。使用了两种不同的来源:标记报告和问卷。由于前者包含稀缺信息(即仅有它的等级和缺席数量)与后者相辅相成,后者允许收集几个人口统计,社会和学校相关的属性(例如学生的年龄,饮酒,母亲的教育)。目的是预测学生成就,如果可能的话,确定关键变量这会影响教育成功/失败。两个核心
课程(即数学和葡萄牙语)将根据三个DM目标建模:
i)二元分类(通过/失败);
ii)五级分类(从我非常好或
优秀的V - 不足);和
iii)回归,数值输出范围在零(0%)和二十(100%)之间。
对于这些方法中的每一种,三种输入设置(例如,有和没有学期的成绩)和四DM算法(例如决策树,随机森林)将进行测试。此外,将进行解释性分析执行最佳模型,以便识别最相关的功能。材料和方法学生数据在葡萄牙,中学教育包括3年学前教育,9年基础教育和接下来是高等教育。大多数学生加入公共和免费教育系统。有几个课程(例如科学与技术,视觉艺术)分享核心科目,如葡萄牙语和数学。像其他几个国家一样(例如法国或委内瑞拉)0分等级是使用,其中0是最低等级,20是完美的得分了。在学年期间,学生将接受评估三个时期和最后一次评估(表1的G3)对应于最终成绩。本研究将考虑2005年期间收集的数据 - 2006学年,来自葡萄牙阿连特茹地区的两所公立学校。虽然有一种趋势增加信息技术投资来自政府,大多数葡萄牙人公立学校的信息系统非常差,主要依靠纸张(目前的情况)。
因此,数据库建立在两个来源:学校
报告,基于纸张并包括一些属性(即三个期间等级和数量
缺课);和问卷,用于补充以前的信息。我们设计了后者
与几个人口统计相关的封闭式问题(即预定义的选项)(例如母亲的教育,
家庭收入),社交/情感(例如酒精消费)(Pritchard和Wilson 2003)和学校有关
(例如,过去类失败的数量)变量
预计会影响学生的表现。调查问卷由学校专业人员审查并进行测试
一小部分15名学生,以获得反馈。该
最终版本在一张A4纸上包含37个问题
788名学生在课堂上回答了这个问题。后者,
由于缺乏身份证明,111个答案被丢弃
详细信息(与学校报告合并所必需的)。
最后,数据被整合到与数学(有395个例子)和葡萄牙语(649个记录)类有关的两个数据集中。
在预处理阶段,由于缺乏判别价值,一些特征被丢弃。例如,很少有受访者回答他们的家人
收入(可能是由于隐私问题),而差不多
100%的学生与父母住在一起并且有一个
个人电脑在家里。剩下的属性
如表1所示,其中最后四行表示
从学校报告中获取的变量。
数据挖掘模型
分类和回归是两个重要的DM
目标。两者都需要有监督的学习,其中一个模型
被调整为由kisin;{1,...,N}示例组成的数据集,每个示例将输入向量(xk 1,...,xk I)映射到
给定的目标yk。主要区别在于设定
输出表示的(即,对于分类是离散的,对于回归是连续的)。在分类中,
通常使用正确分类百分比(PCC)来评估模型,而在回归中评估模型
均方(RMSE)是一种流行的度量标准(Witten和
弗兰克2005)。高PCC(即接近100%)表明a
良好的分类器,而回归量应该低
全局误差(即RMSE接近零)。 1.二进制分类 - 如果G3ge;10则通过,否则失败;
2. 5级分类 - 基于Erasmus1
等级转换系统(表2);
3.回归 - G3值(0到20之间的数字输出)。
图1绘制了相应的直方图。
几种DM算法,每种算法都有自己的用途
和功能,已被提议用于分类
和回归任务。决策树(DT)是一个
分支结构,代表一组规则,以层次结构形式区分价值(Breiman et al。
1984年)。这种表示可以翻译成一组
IF-THEN规则,人类容易理解。随机森林(RF)(Breiman 2001)是一个
T unruned DT的集合。每棵树都基于自举训练样本的随机特征选择
并且通过平均T树的输出来建立RF预测。 RF更难以解释
与单一DT相比,虽然它仍然存在
可以提供解释性知识
它的输入变量相关性。非线性函数等
作为神经网络(NN)和支持向量机
(SVM),也被提议用于DM任务(Hastie
等。 2001),当存在高非线性时获得更好的结果。在这项工作中,NN模型是基于的
在流行的多层感知器中,有一个隐藏
具有H隐藏节点的层,而SVM将使用a
具有一个超参数(gamma;)的高斯核。这应该
需要注意的是,NN和SVM使用模型表示
这是人类难以理解的。此外,NN
和SVM受不相关输入的影响比
DT / RF算法,因为后者明确地执行内部特征选择。
计算环境
进行了本研究中报告的所有实验
使用RMiner(Cortez In press),一个开源的
适用于R环境的库,便于使用
DM技术(图2)。 R是免费的高级别
矩阵编程语言具有强大的套件
统计和数据分析工具(R Development
核心团队2006)。它可以在多个平台上运行(例如
Windows,MacOS或Linux)和新功能都可以
通过创建包添加。
RMiner库2提供了一组相干函数(例如挖掘,saveMining)用于分类和
回归任务(Cortez In press)。特别是,库使用rpart(DT),randomForest(RF),nnet
(NN)和kernlab(SVM)包。举个例子,
DT期间使用了以下RMiner / R代码
葡萄牙二元分类的预测实验:
结果
预测性能
在拟合模型之前,NN和SVM模型需要进行一些预处理。将名义3变量(例如Mjob)转换为1-C编码,并将所有属性标准化为零
平均值和一个标准差(Hastie等,2001)。
接下来,安装了DM模型。 DT节点拆分
调整了平方和的减少。
关于其余方法,RF(例如T = 500),NN(例如,NN)采用默认参数。
E = 100个BFGS算法的时期)和SVM(例如
顺序最小优化算法)。而且,
使用a优化NN和SVM超参数
内部网格搜索(即仅使用训练数据)在哪里
Hisin;{0,2,4,6,8}和gamma;isin;{2-9,2-7,2-5,2-3,2-1}。
因为我们怀疑G1和G2等级会
具有很高的影响力,有三种输入配置
测试每个DM模型:
bull;A - 表1中的所有变量,除了G3(
输出);
bull;B - 类似于A但没有G2(第二期)
年级);和
bull;C - 类似于B但没有G1(第一期)
年级)。
要获得预测性能,20次运行10次
折叠交叉验证(Hastie et al.2001)(总共200个
模拟)应用于每个配置。下
对于给定的运行,这种方案将数据随机分成10个相同大小的子集。顺序地,测试一个不同的子集(具有10%的数据)和
用于适应DM技术的剩余数据。在
在此过程结束时,评估的测试集包含
整个数据集,虽然相同DM的10个变体
model用于创建预测。
作为基线比较,一个天真的预测器(NV)会
也要测试。对于A设置,此模型是相同的
到第二阶段(G2或其二进制/ 5级
版本)。没有二年级时(B
设置),使用第一个阶段等级(或其二进制/ 5-)
等级变种)。如果没有评估(C设置)
然后是最常见的类(用于分类任务)或
返回平均输出值(回归)。
测试组结果以表3至5示出
平均和相应的t学生95%置信区间(Flexer 1996)。正如预期的那样,A设置实现了
最好的结果。预测性能下降
当第二个时期成绩未知时(B)和
当没有学生得分时,获得了最好的结果
使用(C)。仅使用最后一次评估
(前两个输入设置的NV方法)是最好的
数学分类目标(二元和五级)和葡萄牙语回归的选项
输入选择。这表明在这些情况下
非评估输入是没有用的。但是,其余实验的方案会发生变化。射频
是8例中的最佳选择,其次是DT
获得4个最佳结果。一般来说,非线性函数方法(NN和SVM)的表现优于
基于树的。这种行为可以用a来解释lt;
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[19677],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。