他山之石

位置：首页 > 他山之石 > 正文

贾涵迪等 | 生成式人工智能环境下教学评价策略研究

作者：时间：2026-03-19 点击数：

【摘要】

生成式人工智能正推动教学评价从传统模式向人机协同生态转型。生成式人工智能环境下教学评价需转向能力培养，聚焦批判性思维、AI指令精炼等“21世纪技能”；再通过革新作业形式、建立AI使用标注反思机制、强化无AI检测及引入互评，破解作业同质化；还要依据未用AI、AI辅助、要求用AI三种情境，构建含传统指标与AI协作效能、伦理规范等新指标的多维度过程性评价体系，并强化AI伦理与学术诚信引导。

关键词：生成式人工智能；教学评价；过程性评价；评价指标

生成式人工智能（GenAI）的崛起不仅将学生的学习方式从依赖个体知识储备转向依托智能工具拓展认知边界，更对教学评价提出了根本性挑战：当AI可快速完成文本创作、数据计算等传统学习任务时，以知识掌握度为核心的评价体系已难以衡量学生的真实能力；当作业同质化、AI成果与学生能力混淆等问题凸显时，评价的公平性与有效性面临严峻考验；当AI隐含的价值取向可能影响学生认知时，评价对伦理素养与学术诚信的引导功能更需强化。

GenAI的发展要求人们重新审视教学评价的核心目标、创新评价实践路径。构建适配智能时代的评价体系，成为破解当前教育困境的关键。本文正是基于这一现实需求，从“目标转向”“任务设计”“指标构建”“元评价实施”四个维度，系统探索GenAI环境下教学评价的优化策略，旨在推动教学评价与GenAI技术深度融合，既精准衡量学生成长，又为智能时代教育改革提供可落地的实践路径。

一

目标转向：批判性思维与创新能力培养的转向

在生成式人工智能重塑教育生态的背景下，教学评价的核心目标需从知识掌握程度衡量转向核心能力培养，尤其聚焦批判性思维与创新能力的深度培育。随着生成式人工智能的加入，学习过程被简化，学生不需要过多的知识储备就可以完成学习任务，在新的知识生产境况下，最重要的已经不再是知识本身，而是借助知识学习获得在世界中生存与行动的能力。谭维智指出教育效果的评价将不再关注于知识掌握的程度，［1］数字教育委员会与培生集团于2025年联合发布的《评价新纪元：AI在评价设计中的全球回顾》也指出：“评价的本质是引导学生发展关键技能并衡量其掌握程度。”所以在生成式人工智能深度融入教育场景的当下，教师肩负着全新且极具挑战性的使命——引导学生塑造契合时代需求的关键能力。具体包括：学习与创新技能，批判性思维，问题解决能力，信息、媒体与技术素养，交流合作能力等。［2］这一转向并非对传统教育目标的否定，而是顺应智能时代人才需求的必然调整。

从知识接收到AI指令凝练：培养精准需求表达能力

在传统教学中，学生多处于被动接收知识的角色，而生成式人工智能的普及要求学生转变为主动引导AI的主体，指令凝练能力成为人机协同的关键纽带。谭维智认为教育的本质追求就是帮助学习者有效地提取知识中的智能，而目前生成式人工智能能够高效处理大量程序性和记忆性任务，知识作为智能的载体便只是智能的冗余。［1］传统作业往往侧重于学生对既有知识的机械记忆与按部就班的操作流程，在人工智能时代，它们已无法充分激发学生的潜能，因此学习的意义不再只是学习知识而是学会学习，［3］教育者的任务也将聚焦于如何教会学生通过人机交互的知识进行生产与再生产。这种能力不仅是对需求的简单表述，更是对任务目标的深度拆解、对信息需求的精准定位，以及对AI输出方向的有效把控。

在需求拆解与目标转化阶段，学生需将模糊的学习任务转化为可被AI理解的具体指令，这一过程要求学生先厘清自身学习目标，再通过结构化指令将目标传递给AI，避免因指令模糊导致AI生成内容偏离需求。在指令迭代与优化调整时，AI初次生成的内容可能存在维度缺失、深度不足等问题，学生需基于输出结果反思指令设计的缺陷、进行迭代优化，通过逐步补充约束条件和细化分析要求，引导AI生成更贴合学习需求的内容。此外，还要注意工具适配与指令匹配，不同AI工具的功能侧重存在差异，如有些智能体擅长文本创作而有些则擅长图像生成，学生在使用前需先了解工具特性再设计适配的指令，而非简单输入指令要求直接获取答案，确保指令与工具功能、学习目标高度匹配。

从结果认同到AI内容批判：培养深度思辨和分析能力

GenAI作为技术人造物，其训练数据与算法架构天然携带开发者群体的价值取向，本质上是“特定人类意志的具象化”。［4］在这个信息爆炸的时代，AI虽能快速生成看似完备的内容，但其中可能夹杂着错误信息、逻辑漏洞或偏见。教师要让学生明白不能沦为AI的被动使用者，而应让AI成为助力自身成长的得力助手。未受过学校教育、不识字的个体依然是人，教育的目的不是使“人”成为“人”，而是培养他们成为“掌握技术的人”，［5］因此培养学生对AI生成内容的评价与分析能力至关重要。教学评价需引导学生跳出被动认同AI结果的误区，培养对AI内容的批判能力，让学生成为AI输出结果的检验者与优化者，而非仅仅只是接收者。

首先，核查生成内容的真实性。学生需掌握基础的事实核查方法，通过比对权威文献、交叉验证数据来源判断AI生成内容中的事实准确性，充分发挥人类独有的自主思考能力，以批判性眼光审视AI输出的每一句话、每一个观点。

其次，识别价值取向与偏见。AI的训练数据可能隐含特定群体的价值取向，导致生成内容带有隐性偏见。教师需引导学生关注这些潜在问题，通过识别偏见培养多元文化意识与客观中立的价值判断能力。

最后，内容优化与创新延伸。批判性审视的最终目标是优化AI生成的内容并实现创新延伸。让学生在发现AI不足的基础上，结合自主思考补充新观点、拓展新维度。或针对AI的常规结论提出反向假设，推动思考向更深更广处拓展。

从单一解题到人机协同创新：培育高阶问题的解决能力

传统教学评价多聚焦单一问题的标准答案，而智能时代的问题往往具有复杂性、开放性特征，需要依托人机协同实现创新解决。教学评价的目标需转向培养学生整合AI优势与自主创新的高阶能力，善用AI强大的检索和信息处理优势，弥补人类在信息搜集广度与速度上的短板。让AI成为解决问题的工具而非替代者，这样学习者才可以突破模型的局限性，提升自身思考创新能力和信息高效运用能力，对生成式人工智能输出结果进行批判性反思，最终实现“1+1>2”的协同效果。

第一，任务分工与优势互补。首先需要让学生明确人机各自的核心优势——AI擅长信息检索、数据计算、重复性任务处理，而人类擅长创新思维、情感感知等复杂决策。在解决问题时合理划分任务边界，通过分工实现优势互补。对人机共同产出的成果进行重构与升华，才能形成具有独特价值的解决方案。

第二，过程调控与风险规避。人机协同过程中可能出现AI偏差，例如数据过时、方案脱离实际等，学生要具备过程调控能力，及时修正数据的范围；且AI提出的技术解决方案可能会忽略伦理风险，学生还需加入伦理审查环节以确保方案在技术可行的同时符合社会规范，使成果从标准化文本转化为个性化、可落地的行动方案，最终实现从利用AI到超越AI的创新突破。

二

任务设计：对抗AI同质化的作业设计创新

在生成式人工智能技术深度渗透教育场景的当下，其对教学评价的冲击集中体现在文本类作业领域。调查数据显示，部分文本类作业可被AI工具快速生成，且部分生成内容在结构完整性、语言流畅度上甚至超越普通学生的自主创作，这不仅导致学生作业呈现出明显的“同质化”倾向——如论点相似、论证逻辑趋同、案例引用重复等，更使得教师难以通过传统作业形式精准判断学生真实的知识掌握程度与思维发展水平。若不及时创新作业设计，教学评价将陷入“无法甄别真伪、难以衡量能力”的困境，因此，探索对抗AI同质化的作业设计策略成为保障教学评价有效性的关键举措。

首先，为实现教学评价中对学生个性化思维与实践能力的衡量，革新作业呈现形式是突破人工智能同质化的核心路径之一。传统文本类作业因载体的单一性为人工智能生成提供了便利条件，而转向“非文本+交互式”呈现形式可有效规避人工智能直接代劳的可能。依赖学生个性化表达与现场应变能力且过程性表现的作业形式难以被人工智能复制，这类作业能让教师通过观察学生实际操作、语言表达、逻辑梳理过程，更全面地评估其学习成果。优化评价载体能为教学评价提供更全面、真实的能力证据，确保教学评价能有效衡量学生在知识应用、思维建构与实践操作层面的真实水平。例如，在文学类课程中，可要求学生将经典名著的主题思想转化为情景剧表演，通过角色塑造、台词设计、舞台调度等环节，展现对作品人物关系、时代背景、深层内涵的理解；在理工科课程中，可设计“项目答辩+实物展示”的作业形式，并通过现场演示装置原理、答辩设计思路、分析实验数据等流程，呈现知识应用与实践创新能力。

其次，建立“AI参与标注+反思复盘”的作业提交机制，作为平衡人工智能工具使用与真实能力评价的重要手段。GenAI时代的教学评价需新增对人机协作能力的评估维度，既要考查学生对AI工具合理运用的能力，也要保障其核心思维不被AI替代，避免评价结果偏向对工具的依赖度而非学生的真实能力。学生在使用人工智能辅助完成作业时需提交“双文档”，一份为最终作业成果，另一份则需明确标注AI参与的具体环节且详细说明使用的AI工具类型、操作流程、关键指令和设计思路。在此基础上还需增设反思复盘的模块，要求学生分析AI在作业完成中的优势与局限，并阐述如何通过自主思考弥补其不足，以最终形成“工具使用—问题发现—自主优化”的完整学习闭环。这一机制既能帮助教师清晰界定人工智能与学生的贡献边界以避免“AI成果被误判为学生能力”，又能培养学生的元认知能力与批判性思维来引导其理性看待人工智能工具，通过明确AI参与轨迹与学生自主思考过程，帮助教学评价清晰界定人机贡献边界，同时评估学生对AI的认知、对AI成果的优化能力，确保教学评价能全面覆盖工具使用素养与核心思维能力提升的双重目标。

再次，强化“无AI干预”的课堂检测与评估环节是精准衡量学生真实学习水平的核心保障。核心知识的内化与基础技能的建构，仍需要通过学生的独立认知加工过程来实现，这是保障后续高阶学习目标达成的关键，也是教学评价中不可缺失的核心维度。若允许人工智能技术介入此类检测场景，将导致学生知识体系出现结构性“断层”，破坏学习进程的连贯性与系统性，进而影响后续高阶学习目标的达成。因此，需在教学流程中构建常态化“无AI检测”场景：如随堂限时测验，要求学生在无电子设备、无网络连接的封闭环境中完成基础知识点的识记默写、计算题的逻辑推导及简答题的深度分析，以检验知识掌握的扎实程度；或者布置课堂小组任务，通过给定真实情境问题，要求学生在限定时间内依托小组协作完成任务分工、方案研讨与成果生成并进行现场展示。教师通过观察学生的研讨互动过程、任务分配合理性及方案构建逻辑，综合评估其知识迁移应用能力与协作交流能力。强化“无AI干预”的课堂检测，本质上是为教学评价搭建一个独立能力验证的场景，确保评价结果能客观真实地反映学生在无工具辅助下的知识掌握扎实度、逻辑推导能力与知识迁移水平，有效规避学生因过度依赖人工智能而产生的“能力假象”。

最后，引入学生互评机制，是拓展评价维度、提升评价效度的重要补充策略。在人工智能生成同质化作业现象日益普遍的背景下，教师的评价精力存在客观局限，难以对每份作业的AI生成痕迹与自主创作成分进行精准甄别。而学生作为学习活动的主体，对作业完成的难度、知识应用要求及人工智能生成内容的典型特征具有更直观的感知，其评价视角可为教师提供重要的参考依据。可采用“匿名互评+评分标准指引”的模式：教师预先制定明确、可操作的互评指标体系，学生以匿名形式对同伴作业进行量化评分和撰写评语，重点指出作业中的认知亮点、待改进维度及AI参与痕迹。随后，教师结合学生互评结果与自身专业评估，形成综合性评价结论。引入学生互评机制是对教学评价主体的补充，同时通过互评过程深化对课程知识的理解与运用，提升批判性思维能力与元认知评价能力，实现“评价即学习”的教学评价延伸目标，在缓解教师评价负荷的同时提升评价整体质量。相互监督机制还可以降低学生借助人工智能而产生学术不端行为的概率，营造诚信、严谨的学术学习氛围。

三

指标构建：多维度过程性评价指标体系的建构

生成式人工智能的介入，不仅要求有新的评价标准，也对评价工具的适应性和灵活性提出了挑战。如果评价工具未能考虑到学生使用生成式人工智能的因素，对使用和没有使用生成式人工智能工具的学生都采用同一评价标准，就可能会导致评价的公平性问题和伦理问题，因此在评估学生作业时，需要区分学生是否借助AI完成。评价使用AI后的作业时，作业的结果不应再主导成绩高低，评价重点要放在学生的能力上。不同的软件生成的结果不同，同一软件不同版本（如付费版和免费版）的生成结果也不同，一旦成绩评定转化为经济实力的比拼就有悖评价的初衷了。

在GenAI融入教学场景的背景下，为适配多样化作业完成情境，应构建过程性作业评价指标体系，从作业完成路径的差异出发，细化各情境下评价维度，保障评价公平性与有效性，突出学习过程价值，助力学生适应智能时代学习需求。评价指标体系一般包括评价指标、各指标赋值权重以及评价等级三个组成部分，［6］由于评价内容存在差异，指标体系的构建也会有所不同。以下是关于评价指标的建议。

未使用AI完成作业时

当作业“未使用AI完成”时，采用以传统评价指标为主的评价模式，重点考查学生独立学习与传统知识技能运用能力，具体包含三项核心指标。①独立思考深度。从逻辑完整性与论证严谨性维度衡量，关注学生脱离AI辅助时自主构建知识逻辑、推导论证观点的水平，判断其思维过程是否条理清晰、依据合理；②原创性。聚焦观点独特性和内容原创比例，考查学生对知识的内化吸收与自主输出能力，甄别其能否独立挖掘新颖视角、整合知识以形成专属学习成果；③传统方法运用。强调基础技能熟练度与流程规范性，锚定学科基本能力培养要求，检验学生对传统学习工具、方法的掌握程度，确保学科基础能力扎实。

使用AI辅助完成作业时

若作业是“使用AI辅助完成”，采用传统指标与新评价指标结合的思路，既坚守学科核心要求，又考查学生智能工具协作能力。①传统指标保留。以核心观点价值和知识应用准确性为关键锚点，确保学生即便借助AI，仍需扎实掌握学科核心知识，如论文核心论点是否契合专业逻辑、解题结果是否符合学科原理，避免因过度依赖AI导致知识掌握空心化。②AI使用合理性。包含AI工具选择适配性和AI使用边界合规性。前者判定所选AI工具与作业任务需求的适配程度，考查学生对AI功能边界与应用场景的认知；后者要求学生明确AI的辅助定位，核心逻辑推导需自主完成。③AI内容整合能力。涵盖AI输出内容筛选和人机内容融合度两点。前者关注学生对AI生成内容的错误修正与冗余信息剔除的操作，体现信息甄别素养；后者衡量AI结果与个人观点衔接自然度，考查知识协同加工与融合创新能力。

要求结合AI完成作业时

对于“要求结合AI完成”的作业，采用以新评价指标为主、传统指标为辅的方式，重点考查智能时代必备素养。①AI协作效能。包括AI工具运用熟练度和AI结果优化能力。前者用来评价功能调用准确性及效率，反映AI实操水平；后者强调基于AI输出的二次创作及深度加工，体现智能成果增值与创新能力。②AI伦理规范。包含知识产权合规以及数据隐私保护。前者聚焦AI生成内容标注完整性，要求清晰标注AI参与部分，维护学术诚信；后者关注敏感信息处理规范性，如对作业中用户数据、企业机密的脱敏处理，培养数据安全意识。③传统指标辅助。以任务目标达成度为补充，验证学生借助AI工具时是否实现学科任务设定目标，确保AI使用服务于学习目标，保障作业的学科价值。

上述评价指标需纳入教学评价的整体指标框架，与教学目标达成度、教师AI教学引导能力等其他教学评价指标协同，共同构成生成式人工智能环境下的完整教学评价体系：作业评价指标反映学生微观学习能力，其他指标反映教学宏观质量，二者结合实现教学评价的全面性与精准性。

四

元评价实施：教学评价的质量保障

元评价作为教学评价体系的“质量校准器”，旨在通过对评价过程、指标与结果的系统性审视，确保GenAI环境下教学评价的可靠性、准确性。在人机协同的评价场景中，数据真实性与指标适配性是元评价的核心关切，而AI伦理与学术诚信的德育引导，是保障评价数据准确、规避工具滥用风险的关键前提。

可靠性与真实性

评价数据的真实性是元评价的首要考查维度，其核心在于甄别学生作业、检测结果等数据中人机贡献的边界，避免AI生成内容被误判为学生真实能力，而德育引导则是从源头保障数据真实的关键抓手。因此，在围绕作业与学习成果展开评价的过程中，强化AI伦理与学术诚信的德育引导，成为保证智能时代教学评价体系有效性的核心内容之一，其重要性不亚于对学生知识与能力的评估。

一方面，要持续强化对学生的思想道德教育，助力学生构建正确的价值观体系。需向学生深度阐释学术诚信的多重维度与深远意义，将鼓励原创、崇尚诚信的理念全方位、全过程地融入教育教学的各个环节，使学生从认知层面深刻理解学术诚信是学术研究与学习活动的核心准则，这是维系知识生产与传播秩序的关键要素。AI伦理与学术诚信不仅是作业评价的重要准则，更是教学评价中德育目标的核心内容——教学评价需通过课堂教学中的伦理案例分析、作业评价中的诚信核查、课后互评中的道德引导等多环节，构建全方位的德育评价体系，使学生在整个学习过程中树立正确的AI使用观与学术诚信观，实现教学评价的能力评估与价值引导双重使命。

另一方面，打造开放且包容的学习评价环境至关重要。在推进道德教育的过程中，必须以清晰、明确的方式向学生界定行为的边界，让学生精准把握行为的准则，即明晰应当践行的行为规范与必须坚决摒弃的行为禁忌。在运用AI工具时，要引导学生借助其优势去拓展知识的边界、激发创新思维的火花。对于直接应用AI生成内容而不予说明的这类违背学术诚信的行为，要予以严厉禁止；在互评环节，要倡导学生秉持客观、公正的态度评价他人作业，促使评价真正发挥促进学习的作用，而非流于形式、敷衍了事。通过构建这样良好的环境，为学生提供自由探索与成长的空间，从而保障评价活动能够真实、有效地开展，实现评价的教育性与发展性目标，同时通过信用约束强化学生对数据真实性的重视，为元评价提供长期稳定的可靠数据来源。

适配性与准确性

评价指标的适配性直接决定评价结果的准确性，元评价需重点审视未用AI、AI辅助、要求用AI三类场景下指标的合理性，尤其要关注AI伦理与学术诚信相关指标是否有效嵌入，避免因指标缺失导致评价偏差。

第一，场景化校验指标。针对不同AI使用场景，元评价需检验指标是否覆盖该场景下的核心能力与伦理要求。例如，对要求用AI完成的作业，需核查是否包含知识产权合规、数据隐私保护等伦理指标，避免因指标缺失导致学生忽视AI使用中的道德风险；对未用AI完成作业的检测，需确认独立思考深度、传统方法运用等指标是否足够区分学生真实能力，防止因指标单一导致评价片面。

第二，优化伦理指标的可操作性。元评价需将抽象的AI伦理要求转化为可量化、可观察的具体指标，提升评价准确性。通过指标细化，避免因伦理要求过于抽象而导致评价者主观判断出现偏差，确保伦理维度的评价结果可比较、可验证。

第三，动态调整指标权重。元评价需根据教学目标与学生能力发展阶段，校验指标权重的合理性。例如，在AI使用初期，学生对工具的熟悉度较低，AI工具运用熟练度的权重可适当降低，重点关注伦理规范，引导学生先建立正确的AI使用观；随着学生AI素养提升，可逐步提高AI结果优化能力、人机协同创新等指标的权重，确保指标权重与能力培养目标同步适配，避免因权重失衡导致评价导向偏差。

教学评价指标若要在这全新的教育生态中精准且有效地落地生根，亟须在诸多关键环节进行深度创新与全方位完善。首先是任务设计环节，教育工作者们需构思出既能充分激发学生自主探索潜能，又能巧妙规避人工智能可轻易代劳的机械性课题，学生的真实能力才能得以展现。同时评价标准的重塑更是迫在眉睫。当下，如何切实有效地评估学生作业的原创性以及生成式人工智能在其中的辅助程度，已然成为横在教育者面前的一座高山，因而，构建一个统一量化的标准势在必行。这个标准不仅能考量作业文本的语言风格、逻辑架构是否前后一致，更能深入探究知识运用的独特性、创新性，以及解决问题思路的个性化程度。当统一量化标准得以确立，任务设计趋于精妙，才能精准度量学生成长轨迹，让教学评价回归公正、高效。

下一条：李志义等 | 评估整改：走好审核评估的“最后一公里”