|
调研报告
|
|
|
|
|
|
| 人工智能大语言模型在本科电化学课程论文评分中的可靠性评估* |
| 杨春鹏** |
| 天津大学化工学院 天津 300350 |
|
| Reliability Assessment of Large Language Models in Scoring Academic Essays: Case Study of an Undergraduate Electrochemistry Course |
| YANG Chun-Peng** |
| School of Chemical Engineering and Technology,Tianjin University,Tianjin 300350,China |
|
|
摘要:人工智能(AI)的迅速发展为化学教育带来了前所未有的机遇,同时也引发了诸多问题。本研究客观地评估了GPT-4在本科生电化学课程中对学生英文学术写作的评分能力。研究采用多维度评分量表,从语法、引用规范、逻辑结构、科学准确性和批判性思维等5个方面,将GPT-4的评分结果与人类教师的评分进行对比分析。结果显示,GPT在语法评分方面与人工评分具有一定一致性,但在内容相关维度上的表现较差,表现为总分弱相关和多个维度间的低相关性;此外,GPT的评分在学生排名方面出现明显误判,可能对学术能力强但语言表达不够流畅的学生造成不利影响。上述结果表明,将GPT作为学生学术写作唯一评分者存在较大风险。为兼顾效率与公平性,建议构建一种“人机协同”的评分模式:利用GPT处理客观语言维度,同时保留人工评估对科学推理与内容深度的判断,从而维护学术诚信与评价的公正性。
|
|
| 关键词: 大语言模型,
自动作文评分,
GPT,
电化学,
小论文写作
|
|
收稿日期: 2025-07-24
|
| 基金资助:* 天津大学研究生创新人才培养项目(YCX2025081);天津大学化工学院本科教改项目“综合改革项目研究”(ZH2305) |
|
通讯作者:
** E-mail: cpyang@tju.edu.cn
|
| 引用本文: |
|
杨春鹏. 人工智能大语言模型在本科电化学课程论文评分中的可靠性评估*[J]. 化学教育(中英文), 2025, 46(24): 115-120
|
|
| [1] |
凌达莲,冯诗颖,陈思楠,等.现代信息科技,2025,9(12):50-57,62
|
| [2] |
高炳鸿,薛松.化学教育(中英文),2025,46(8):103-109
|
| [3] |
邓淞,伍晓春.化学教育(中英文),2024,45(18):14-21
|
| [4] |
陈潇潇,葛诗利.解放军外国语学院学报,2008(5):78-83
|
| [5] |
袁莉,曹梦莹,约翰·加德纳,等.开放教育研究,2021,27(5):4-14
|
| [6] |
Uto M.Behaviormetrika,2021,48:459-484
|
| [7] |
Wang P,Li L,Chen L,et al.arXiv,2023:arXiv.2305.17926
|
| [8] |
刘霞.AI“参与”同行评审喜忧参半.科技日报,2025-03-31(04)
|
| [9] |
刘雪梅,董敏,雷芳,等.人工智能辅助同行评审伦理风险防控进展.人工智能与出版融合 赋能出版高质量发展——人工智能与出版伦理研讨会,济南,2024
|
| [10] |
孙裕彤,任艳青,袁军鹏.中国科技期刊研究,2025,36(2):144-152
|
| [11] |
叶继元,郭卫兵.中国社会科学评价,2024(1):37-48,158
|
| [12] |
杨丹,薛松.化学教育(中英文),2025,46(7):50-52
|
|
|
|