广东福彩网

大數據時代的教育數據挖掘:方法、工具與應用

作者:未知

  摘  要 在教育領域,通過數據挖掘技術可以從海量教育數據中挖掘出大量有價值的信息,為教與學的各類利益相關者提供參考和建議。從大數據時代的教育數據挖掘的一般過程、典型方法、常用工具和典型應用等幾個方面對教育數據挖掘領域展開論述,以期為教育管理人員和研究人員提供參考,促進教育教學走向個性化和智能化。
  關鍵詞 大數據;教育數據;數據挖掘;教育管理;智慧教育
  中圖分類號:G434    文獻標識碼:B
  文章編號:1671-489X(2019)23-0007-04
  1 引言
  隨著教育信息化的不斷推進與發展,先進的信息技術手段對教育教學的各個方面都產生深刻影響,正在不斷改變未來教育的發展方向。其中大數據技術對教育的影響尤為令人矚目。教育部2018年4月印發的《教育信息化2.0行動計劃》中即指出:“要全面提高利用大數據支撐保障教育管理、決策和公共服務的能力。”因此,在大數據背景下,利用數據挖掘技術對教育教學的全過程進行分析、管理和評價,既是技術發展的必然趨勢,也是信息化時代教育教學的必然要求。
  在教育信息化尚未普及的年代,由于缺乏有效的信息采集與存儲手段,大量的教育教學過程信息難以被有效記錄,因此,教育大數據挖掘也就缺乏相應的土壤。現在,隨著數字化學習、網絡學習空間、課堂直播技術等現代化信息技術手段的普及,學習者的學習過程、學習行為可以被非常方便地記錄下來,為教育數據挖掘提供了大量的數據來源,因此,開展大數據背景下的教育數據挖掘也就成為可能。鑒于此,本文以上述現狀為背景,對大數據下的教育數據挖掘技術進行研究和綜述,從方法、工具和應用三個方面詳細論述教育數據挖掘技術及其應用。
  2 教育數據挖掘的一般過程
  與傳統的數據挖掘不同,教育數據挖掘的主要應用領域為教育教學領域,其核心目的是挖掘教育教學中存在的規律、發現核心問題,為教育領域中的利益相關者提供建議與對策。根據教育教學的實際應用情況,本文提出教育數據挖掘的一般過程,如圖1所示。
  在對教育過程中產生的海量大數據進行挖掘時,首先需要進行數據采集。中學教育領域較為常見的數據類型包括成績數據、作業數據、討論數據、學習者的反思數據等。在完成數據采集后,第二步是對數據進行預處理,常見的預處理主要包括去重、去噪、文本類數據的預處理以及特征選擇等。完成預處理后,則應根據數據挖掘的目的,選擇合適的挖掘方法,常見的挖掘方法包括分類、聚類、文本挖掘、社交網絡分析等。得到挖掘結果后,應采用合適的方法對挖掘結果進行呈現,目前常用的是可視化的呈現方法包括柱狀圖、餅圖、折線圖、詞云圖、網絡結構圖等。最后應對數據挖掘的結果進行分析,向各類利益相關者如教育管理人員、教師、學生等提供相應的建議與對策,以促進教育教學的發展。
  3 面向大數據的教育數據挖掘典型方法
  在上述教育數據挖掘的一般過程中,挖掘方法的選擇是最為核心的步驟之一。下面對教育數據挖掘中幾類典型的挖掘方法進行介紹。
  基于分類的教育數據挖掘方法  分類是數據挖掘中最為常用的方法之一,它是指按照一定的分類體系自動地將對象劃分至某一類別中。若待分類的分類體系屬于類別數據,則該過程被稱為分類;若待分類的對象屬于數值數據,則該過程被稱為回歸。在教育領域,常用的分類算法主要包括決策樹算法、k近鄰算法、樸素貝葉斯算法、邏輯斯蒂回歸模型、神經網絡模型等;常用的回歸算法則主要使用一般線性回歸模型。
  在教育教學中,分類算法的應用非常廣泛,如對學習者的學習狀態進行分類,以實現學習狀態的預測:羅力成等人通過自動分類算法對在線學習平臺中學習者的學習成績進行預測[1];Kloft等人通過自動分類算法對MOOC課程學習中每周的輟學率進行自動預測[2];潘怡等人對E-lear-ning中的學習者所發表的文本進行情感分類,從而對學習者的情感狀態進行預測[3];Wise等人通過文本分類算法對MOOC評論進行自動分類,以挖掘海量評論中所蘊含的有價值的信息[4]等。分類算法也可以用于對學習者的學習行為進行分類,以實現學習者分類:Sunar等人通過對MOOC課程中學習者的學習行為進行自動分類,將MOOC學習者分為不同的類別,以便于教師給予個性化的學習提示[5]等。
  基于聚類的教育數據挖掘方法  聚類算法是數據挖掘中用于發現數據潛藏的模式的常用算法。與分類算法不同的是,應用聚類時,數據本身并沒有明確的分類標準,需要通過機器學習的方法從數據中自動分析數據的特征與相似情況,從而將數據聚合為多個不同的類別。常用的聚類算法包括DB-Scan、基于層次的聚類方法、Kmeans算法等。
  聚類算法常常被用于發現學習者在學習參與中的特定行為模式。如吳林靜等人對網絡學習空間中學習者的學習行為進行聚類,并總結了網絡學習空間中常見的四種行為模式,即勤奮型學習者、消極型學習者、中規中矩型學習者、三好學生型學習者[6];Rebecca等人通過聚類算法對MOOC中學習者的參與行為進行建模和聚類,以挖掘MOOC學習中典型的行為參與模式[7]。聚類也被用于對學習者進行分組,根據學習者的各類屬性對學習者進行聚類,實現學習者的同質或異質分組。此外,學習者的學習興趣[8]、學習者的形成性評價[9]也可以通過聚類算法進行挖掘。
  基于文本挖掘的教育數據挖掘方法  在教育教學過程中,學習過程的參與者包括教師和學生會產生大量的文本類學習過程數據,如教案、講義、作業、討論、反思、答疑、評論等。這些文本數據是學習過程的客觀反映,且蘊含了大量的知識,對于分析教學質量和學習者狀態有著重要的意義。因此,對這些文本數據進行挖掘有助于提升教學質量和改進教學過程。
  與傳統的結構化數據不同,教育教學過程中產生的文本數據屬于非結構化數據,其挖掘方法也與傳統的數據挖掘方法存在較大的差異。由于文本數據的特殊性質,文本數據的預處理與結構化數據相比更為復雜,相關常用的算法包括文本數據的分詞、分句、去停用詞、向量化等。完成文本預處理后,即可通過相關文本挖掘算法從文本語料中挖掘出有用的信息,如通過文本分類算法對MOOC評論進行分類以幫助管理者和教師對評論進行快速分類[10];通過LDA等主題挖掘算法對學習者討論區的主題演變進行追蹤和分析[11];通過情感計算對學習者學習過程中的情感狀態進行監測,并提供個性化學習資源[12]等。   4 教育大數據挖掘的常用工具及分類
  為了提升教育數據挖掘的效率,尤其是在大數據環境中,當數據量較大時,必須采用各類輔助挖掘工具,才能夠以更高的效率挖掘數據中有用的信息。通過對目前教育數據挖掘領域常用的工具進行梳理,本文將常用工具分為四類:預處理與特征工程類工具、算法挖掘類工具、文本挖掘工具和數據可視化工具。具體工具名稱及功能如表1所示。
  5 教育數據挖掘的典型應用
  Civitas Learning項目  Civitas Learning是一家致力于通過機器學習的方式從高等教育學生的學習過程數據中挖掘信息,以幫助學習者提升學習成績的新興公司。該系統對學習者的全過程學習數據進行記錄,包括學習者的系統記錄、學習者的參與行為和學習結果等。通過分析和挖掘這些數據,系統可以對學習者的出勤率、輟學率等進行評價,并探測和顯示導致中途輟學和學習成績失敗的警告性信號。此外,該系統還允許用戶發現導致無謂消耗的特定課程,并判定有效的學習資源和干預措施。該系統目前已被多所國外高校使用,擁有230萬用戶。根據報道,應用該系統后,南佛羅里達大學學生第一年的持續入學率達到91%以上;在得克薩斯州州立大學,在該系統中每天約有1000人進行注冊學習;在Del Mar學院,應用該系統后,其學校學生畢業率提升了34%。
  i-Ready自適應學習系統  與Civitas致力于高等教育不同,i-Ready系統致力于中小學學段學習者的學習診斷。i-Ready提供了跨平臺的不同版本,以實現數據驅動的課堂。在數據驅動下,該系統為學習者提供個性化的學習體驗,通過強大的評估功能、結合學習者的參與行為,挖掘學習者的個性化學習需求,并提供有針對性的學習資源,從而最終實現個性化的學習體驗。在該學習系統中,學習者根據自己的學習記錄數據制訂相應的學習計劃,而教師則從教學的主導者轉變為學習的領航員,為學生提供指導。
  為了驗證該系統的使用效果,美國弗吉尼亞州的法明頓小學于2012年使用該系統進行了實證研究。實驗在學習者使用i-Ready系統后進行標準化考試,考試結果發現,在每天使用i-Ready平臺35~45分鐘后,學習者的學習成績得到很大提高,其中閱讀成績提高88%,數學成績提高約75%。
  Course Signals系統  Course Signals是由普渡大學于2009年開始研發的一個面向學習者的課程預警項目。該項目通過跟蹤學生的學業進展并進行實時提醒,以幫助學生順利完成課程學習。該系統可以采集學習者的課程完成情況、在線互動數據、學習者考試成績數據、資源訪問歷史、學習者其他特征等。結合這些數據,系統可以對學習者的學習狀況進行評估,并對其后續發展情況進行預測,預測結果會以信號燈的方式進行呈現。如果預測結果顯示學習者存在課程失敗的可能性,則系統會顯示紅色信號燈,以提醒學習者需要多加努力,同時會提示相關教師給予學習者更多指導;如果學習者表現良好,則系統會顯示綠色信號燈。實證研究顯示,使用該課程預警項目的學生,在評估中獲得更多的B和C以及更少的D和F;在部分課程中,獲得A和B的學生數量增加了28%。
  中慶智課系統  中慶智課是由中慶公司研發的基于錄播和人工智能技術的智能化課堂教學分析評測系統。該系統主要圍繞課堂教學展開,通過人工智能技術、大數據技術、互聯網技術、音視頻處理技術等與教育教學深度融合,對課堂教學過程進行深度挖掘,可實現課堂教學基礎大數據的常態化、伴隨式采集和即時分析,可以應用于智慧校園環境下的教育管理、教師專業成長、學生個性化學習等智慧化應用的數據采集與分析服務。中慶智課系統目前已在中小學和高等教育學段多所學校進行實證應用,幫助教育從傳統的人工觀察走向智慧教育新階段。圖2為中慶智課系統使用示意圖。
  6 結語
  隨著信息技術和人工智能技術的不斷發展,教育領域所產生和積累的數據也越來越多,這些數據蘊含著大量有價值的信息,為教育數據挖掘提供了可能和良好的應用前景。本文從教育數據挖掘的一般過程、教育數據挖掘的典型方法、常用工具以及目前國內外的相關典型應用等幾個方面,對大數據時代的教育數據挖掘進行介紹和分析,以期為教育管理人員和教育研究人員提供參考。在后續研究中將進一步開展教育數據挖掘的相關實證研究,以促進教育走向個性化和智能化。
  參考文獻
  [1]羅立成,楊絮,張海,等.基于在線學習數據的學習者成績預測研究海外實例[J].中國信息技術教育,2017(20):
  87-88.
  [2]Kloft M, Stiehler F, ZHENG Z, et al. Predicting MOOC dropout over weeks using machine learning methods
  [M]//Proceedings of the EMNLP 2014 Workshop on Ana-
  lysis of Large Scale Social Interaction in MOOCs.2014:
  60-65.
  [3]潘怡,葉輝,鄒軍華.E-learning評論文本的情感分類研究[J].開放教育研究,2014,20(2):88-94.
  [4]Wise A F, CUI Y, WAN Q, et al. Mining for gold: Identifying content-related MOOC discussion threads across domains through linguistic modeling[J].The Internet and Higher Education,2017(32):11-28.
  [5]Sunar A S, White S, Abdullah N A, et al. How Lear-
  ners’ Interactions Sustain Engagement: A MOOC Case Study[J].IEEE Transactions on Learning Technologies,
  2016,10(1):475-487.
  [6]吳林靜,勞傳媛,劉清堂,等.網絡學習空間中的在線學習行為分析模型及應用研究[J].現代教育技術,2018,
  28(6):46-53.
  [7]Ferguson R, Clow D. Examining engagement: analy-sing learner subpopulations in massive open online courses (MOOCs)[M]//Proceedings of the Fifth Inter-national Conference on Learning Analytics and Know-ledge,2015:51-58.
  [8]王法玉,姜妍.基于自組織神經網絡和模糊聚類的校園無線網用戶學習興趣度行為分析[J].計算機應用研究,
  2018,35(1):186-189.
  [9]文孟飛,劉偉榮,葉征.基于自動聚類和集成學習的網絡教學形成性評價方法[J].中國電化教育,2018(3):74-82.
  [10]吳林靜,劉清堂,毛剛,等.大數據視角下的慕課評論語義分析模型及應用研究[J].電化教育研究,2017(11):
  43-48.
  [11]劉三女牙,彭晛,劉智,等.面向MOOC課程評論的學習者話題挖掘研究[J].電化教育研究,2017(10):30-36.
  [12]黃昌勤,俞建慧,王希哲.學習云空間中基于情感分析的學習推薦研究[J].中國電化教育,2018(10):7-14,39.
  作者:何普亮,華中師范大學第一附屬中學信息中心,助理工程師,研究方向為教育技術與教育裝備;張戰勝,華中師范大學第一附屬中學信息中心,工程師,研究方向為教育信息化(430223)。
轉載注明來源:http://588tuan.com/9/view-15203595.htm

服務推薦

? 吉林体彩网-Home 吉林福彩网-广东福彩网 湖北体彩网-推荐 湖北福彩网-官网 江西体彩网-欢迎您 江西福彩网-安全购彩 安徽体彩网-Welcome 安徽福彩网-Home 天津体彩网-广东福彩网 天津福彩网-推荐