作文自动点评或批改

更新时间：2025-02-27

大模型精调 最佳实践与分享 已接入本样板视频教程，点击获取！

一、作文点评介绍

在线教育场景中，对于学生作文通常我们会从作文的内容是否符合题意、作文结构是否严谨、作文是否存在缺点和扣分项等方面对我们的作文做出评判，并给我们打出最终的得分。其实大模型也可以成为一名点评专家。大模型有很好的格式遵循和风格遵循能力，我们将点评的要求或者模板"调教"给大模型，大模型就能按照我们的要求对一篇作文做出点评。

使用大模型对作文做出点评，可以很好的运用到在线教育的场景中，即可以成为老师的得力助手，也能够让学生知道作文还可以从哪些方面提升，大大节省我们的成本和时间。下面我们就充分使用大模型的能力，从数据的构建、Prompt的调整、模型的精调以及评估四个方面来展示如何调优得到一个作文点评大模型。

二、作文点评的难点问题

对于作文点评来说，我们不仅需要大模型能够输出作文的各项评分，还需要能够提出作文的优缺点、提升意见等。因此，最重要的是大模型能够遵循点评的结构、点评的准确性。

假设我们输入作文的题目和作文内容，并要求大模型按照以下格式输出点评：

{
  "详细解析": {
    "内容项": {
      "解析": "xxxxxx。",
      "等级": "xx等",
      "得分": "xx分"
    },
    "表达项": {
      "解析": "xxxxxx。",
      "等级": "xx等",
      "得分": "xx分"
    },
    "发展等级": {
      "解析": "xxxxxx。",
      "等级": "xx等",
      "得分": "xx分"
    },
    "扣分项和残篇评定": {
      "解析": "xxxxxx。",
      "扣分": "xx分"
    }
  },
  "缺点和改进意见": {
    "缺点": "（一定要详细具体，最好点明哪段哪句存在缺点）xxxxxx。",
    "改进意见": "xxxxxxx。"
  },
  "最终得分": "（最终得分=内容项得分+表达项得分+发展等级得分-扣分项和残篇评定扣分）xx分"
}

由于场景比较复杂，如果我们直接调用大模型，可能会发现存在如下问题：

评分不能准确遵循要求，打分普遍偏高，不能严格按照扣分项扣分。如：

一、作文题目：
你注意到了吗？装鲜牛奶的容器一般是方盒子，装矿泉水的容器一般是圆瓶子，装酒圆瓶子又一般放在方盒子里，方圆之间，各得其妙，古诗云：方圆虽异器，功用信具呈。人生也是如此，所谓：上善若水任方圆。以方圆为话题，根据此材料，题目自拟写作文，字数不少于800字。

二、待点评作文
方圆之间的人生智慧

“方有止，圆有旋。”这句古人的智慧结晶，揭示了方与圆两种形态背后的深刻内涵。在生活中，我们常常见到方形的容器装着鲜牛奶，圆形的瓶子则装着矿泉水，而圆形的酒瓶又常常被放置在方形的盒子里。这些看似简单的形状，实际上蕴含着人生的哲理。

方，代表着规矩、原则和稳定。它象征着秩序和安定，是我们生活中不可或缺的一部分。在人的成长过程中，我们需要遵循各种规矩，学会遵守社会的秩序，这样才能在社会中立足。正如牛奶需要方形的容器来保持稳定一样，我们的人生也需要方正的品格来支撑。

然而，人生并非只有方的一面。圆，代表着变通、灵活和包容。它象征着和谐与圆满，是我们在面对复杂世界时的有力武器。我们需要学会圆滑处事，善于变通，这样才能在人生的道路上走得更远。就像矿泉水需要圆形的瓶子来适应各种环境一样，我们的人生也需要圆润的智慧来应对各种挑战。

方圆之间，各得其妙。在人生的道路上，我们需要既要方正又要圆润。我们要有坚定的原则和信念，同时也要学会适应环境，灵活应对。这样才能在人生的舞台上大放异彩。

上善若水任方圆。水，是世界上最柔软的物质，却能穿透坚硬的石头。这就是因为水懂得方圆之间的智慧。它既可以是方形的湖泊，也可以是圆形的河流，还可以是无形的雾气。水无常形，但却能包容万物。同样，我们也要有水的智慧，懂得在方圆之间寻找平衡，这样才能在人生的道路上游刃有余。

总之，方圆之间的人生智慧是我们每个人都需要学习和领悟的。我们要学会在坚持原则和灵活变通之间找到平衡，这样才能在人生的道路上不断前行。同时，我们也要像水一样包容万物，接纳不同的观点和文化，让自己的人生更加丰富多彩。

在这个充满变化和挑战的世界里，我们需要不断学习和成长，不断提升自己的能力和素质。只有这样，我们才能在方圆之间的人生舞台上展现出自己的风采和智慧。让我们一起努力，成为拥有方圆智慧的人，为自己的人生添彩！

点评作文
{"详细解析": {"内容项": {"解析": "该文章围绕方圆之间的人生智慧进行了深入的阐述，内容充实，思想健康，感情真挚，符合题意，中心突出。","等级": "一等","得分": "20分"},"表达项": {"解析": "文章结构严谨，语言流畅，字迹工整，符合文体要求。","等级": "一等","得分": "20分"},"发展等级": {"解析": "文章通过对方圆两种形态的解读，深刻揭示了人生的智慧，富有文采和创意。","等级": "一等","得分": "20分"},"扣分项和残篇评定": {"解析": "文章没有出现错别字、标点符号错误、不足字数等问题，无需扣分。","扣分": "0分"}},"缺点和改进意见": {"缺点": "在部分论述中，如“水，是世界上最柔软的物质，却能穿透坚硬的石头。”，此处的论述稍显生硬，缺乏具体的例子或更深入的分析来支撑观点。","改进意见": "建议在类似的论述中加入更具体的例子或更深入的分析，以增强文章的说服力。"},"最终得分": "60分"}

对于该篇文章，直接调用模型的评分为60分。从实际情况看，文章针对方和圆的含义及举例阐释了方圆的含义，但是内容的深度、文章的文采、表现力都不足以达到满分的水平。

作文解析空泛，给出的意见没有指导性。如：

一、作文题目：
阅读下面的文字，根据要求作文。（60 分）传说有的雏鸟长大后，会衔食喂养衰老的母鸟。人们把此现象称作"反哺"。人类社会也存在类似现象。年轻一代对年长一代的文化影响被称之为"文化反哺"。千百年来，在以父辈对子辈施教为主流的正统传承方式下，文化反哺犹如潜流，隐而不显。但在迅疾变化的当今世界，年轻人获得了前所未有的反哺能力。他们在科学知识、价值观念、生活方式、审美情趣等各个方面，越来越明显地影响着年长一代，施教者与受教者之间，角色常常发生转换。请针对上述现象及所反映的问题，以"角色转换之间"为标题写一篇文章。你可以讲述故事，抒发情感，也可以发表见解。【注意】：①角度自选；立意自定。②除诗歌外，文体不限。③不要脱离材料的含意，不少于800 字。④不得抄袭。

二、待批改作文
角色转换之间

如果年轻人与老人之间就某个问题观点产生分歧，且不论真理站在哪一方，老人总会用不屑的语气说：你懂什么！我吃过的盐比你吃的米还多，我过的桥比你走的路还多！

然而在科技、文化、思想瞬息万变的现代社会，“吃过的盐”“走过的桥”这类“经验论”真的还能占上风吗？谁又能保证年轻一代创造的新文化不比传统文化丰富？文化反哺不是凶恶的暗流，是社会发展的必然产物。年长一代也不必惊慌抗拒，正如韩愈所说“无贵无贱，无长无少，道之所存，师之所存也。”因此在不同的“道”之间，施教者与受教者之间，往往会发生角色转换。

很大一部分时间里，年长一辈是施教者，他们作为传统文化的传承者，向后辈讲述经久不衰的故事，描述所见所闻以及体会感悟。独特的习俗或是家族精神，构建起年轻一代的文化根基，使之吸取传统文化土壤中丰厚的营养。年轻人得以站在前人的肩膀上，看得更远。

当年轻一代吸收了足够的养分破土而出时，往往又会发现世界与长辈的描述不尽相同。年轻人凭借旺盛的生命力勇敢迎接大千世界缤纷多彩的文化的冲击。传统的和现代的、民族的和世界的、阳光的和晦涩的各种文化，年轻人总能以极快的速度接受、分析、消化。由于这些额外的养料，年轻一代或许能成长得更快，有一天，超过了年长一辈。

观察社会进程我们会发现，因为生活条件的逐渐改善，年轻一辈的平均身高一般会超过前辈。同样的，因为思想观念的开放，年轻一辈的学习能力也强于前辈。年轻人能从受教者转换成施教者还有一个原因：他们在创造文化，新文化中蕴含了鲜明的时代活力，这正是年长一辈所缺乏的。于是，年轻人获得了前所未有的反哺能力。

文化反哺与鸟类反哺一样是自然社会的正常现象。在年轻人角色转换、开始反哺的期间也可能会发生一些冲突。面对冲突，我想年轻人即使变成了施教者也要给予长辈充分的尊重，一如雏鸟长大后仍要听取老鸟的经验；同时即使长辈不再是施教者，也不必认为地位受到了动摇，学无止境，见贤思齐，才能终身增长文化内涵。

只有不断地角色转换，才能使文化永葆新鲜，成为社会进步的不竭之源。

三、批改作文
{"详细解析": {"内容项": {"解析": "文章内容完整，从现象出发，阐述了文化反哺和角色转换之间的关系。分析了年轻一代对年长一代文化影响的原因，同时指出了文化反哺是社会发展的必然产物，以及面对文化反哺时应有的态度。最后强调了角色转换对于文化永葆新鲜的重要性。整体思路清晰，论述完整。","等级": "一等","得分": "18分"},"表达项": {"解析": "文章语言表达通顺，句式变化多样，用词准确，符合议论文的文体要求。逻辑严谨，结构完整，层次分明，首尾呼应，过渡自然。","等级": "一等","得分": "18分"},"发展等级": {"解析": "文章在阐述观点时，能够从多个角度出发，进行深刻的分析和论证，体现出作者的独立思考能力和较强的逻辑推理能力。同时，文章在阐述文化反哺现象时，也展现了对社会现象的敏锐洞察力和对文化传承的深刻理解。","等级": "一等","得分": "18分"},"扣分项和残篇评定": {"解析": "文章字数足够，无错别字、标点错误等问题，不需扣分。","扣分": "0分"}},"缺点和改进意见": {"缺点": "无明显缺点。","改进意见": "无需改进。"},"最终得分": "54分"}

对于该篇作文，大模型打分为54分，给出了各项打分的依据。但是并未针对作文，给出改进意见。

输出的格式不满足要求。

批改作文
根据您提供的作文批改要求和作文题目，我将对这篇待批改作文进行公正严格的批改和打分。
一、作文批改解析
1. 内容项
* 解析：整体上符合基础等级的要求。但由于文章存在一些细节缺陷，例如未能深入分析事件的复杂性，只停留在了表面描述上，可以进一步提升内容的深度和丰富性。因此评为二等。
* 等级：二等
* 得分：基础等级分（内容项）可定为 13 分（满分 20 分）。
2. 表达项
* 解析：文章整体上表达清晰，语言流畅，格式符合要求，符合文体要求。但在个别地方存在表达不够准确的问题，如部分句子的措辞和逻辑连接词的使用。结构上，文章前后连贯，逻辑清晰。整体上符合基础等级的要求。评为二等。
* 等级：二等
* 得分：基础等级分（表达项）可定为 13 分（满分 20 分）。
3. 发展等级
* 解析：文章在立意、文体和表达上较为稳定，有一定的创意，能够针对事件提出自己的思考和看法。但在深刻性和丰富性上略显不足，未能进一步挖掘事件的内涵和外延。评为三等。
* 等级：三等
* 得分：发展等级分可定为 8分（满分 20 分）。
4. 扣分项和残篇评定
* 解析：文章未出现错别字，标点符号使用基本正确，字数达到了要求，没有出现残篇的情况。但由于未按照要求写出题目《爱的边界》中的“边界”内涵，可酌情扣分。
* 扣分：扣 3 分
二、缺点和改进意见
* 缺点：内容在深度和丰富性上略显不足，未能深入分析事件的复杂性；部分句子的措辞和逻辑连接词的使用不够准确。
* 改进意见：可以进一步分析事件的内涵和外延，挖掘更深层次的意义；加强句子的措辞和逻辑连接词的使用，提高表达的准确性。
三、最终得分
* 最终得分 = 内容项得分（13分）+ 表达项得分（13分）+ 发展等级得分（8分）- 扣分项和残篇评定扣分（3分）= 21分。但由于内容未达到一等标准，因此最终等级为二等。

该篇文章的点评没有按照JSON的格式进行输出。

对于上述的问题，总体来说大模型不能很好的遵循评分指令，如作文打分偏高、不能给出合理的建议。点评输出不满足固定的格式等。以上问题，可以尝试通过模型精调来解决，精调可以很好的解决指令遵循和格式的问题。

三、模型精调的经验

针对上述问题，我们需要准备优质的作文语料及评分。

（一）使用真实的语料，作文符合真实的分布情况

风格分布：在真实的作文场景中，作文题材的类型多样，比如议论文、记叙文、散文等等。因此，我们的精调语料要覆盖不同的风格的作文。
质量分布：我们需要尽量使用真实的作文，及对应的高质量的点评数据。而且，精调语料的作文质量分布情况要符合现实情况。

如果我们精调的语料不足，也可以考虑借助大模型生成不同水平的作文，并对作文打分。借助大模型生成语料可以帮助我们提升效率，但是也需要我们人工Review生成的作文/点评。因为准确、有效的数据比数据量更重要。

（二）SFT精调大模型，强化大模型的格式遵循能力，严格按照评分规则打分

精调语料中的点评需要严格按照点评的输出格式和要求输出，通过SFT后能够解决大模型打分偏高、点评宽泛并且不按格式点评的问题：

点评语料中体现出对不同层次作文的点评用词，并能够针对作文的问题给出准确的意见。
对于容易引发输出格式异常的case，可以通过数据回流的方式收集，并提供符合要求的点评输出。使用标注好的数据进一步增量训练。

四、模型精调最佳实践

模型精调的核心流程共有以下四步，主要包括：

1、准备训练与评测数据，分析+处理，打造高质量数据
要保证数据分布的真实性，微调数据中的点评数据为高质量、有针对性的点评。

2、确定基础模型、精调方法和训练参数，启动训练
在中文作文生成的场景下，我们选择ERNIE Speed模型。
如果您的任务场景与最佳实践内容相似，可以参考下方选择的基座模型、精调方法和训练参数。

3、模型训练完成，人工或自动评估模型效果
训练完成可针对评测集进行人工或自动评估，选出效果最优的训练模型。

4、模型部署为公有云服务，应用正式集成调用
模型部署为公有云服务后，可以通过接口正式集成至对外应用中。

（一）准备数据

1、收集原始数据

（1）了解数据格式并准备调优数据

数据格式：本实验是采用SFT调优方式，对于SFT调优，需要使用Prompt+Response数据格式。

准备调优数据：对于模型调优来说，高质量的数据是保证模型效果的最关键步骤，建议您参考以下经验准备调优数据：

真实性：来源最好来自于业务真实的调用数据，从而让大模型更好的基于业务场景训练。
badcase改写：真实业务调用数据通常有goodcase和badcase，建议针对不符合预期的badcase人工改写优质的点评语句。
数据量：最低需要准备100条数据，建议达到1000条的量级为优，并能覆盖不同题材的作文。注意数据量并非越多越好，多次实验发现上万条数据容易出现饱和，精调反而不如千条数据效果好。

（2）调优数据示例

例如，为了让大模型对作文的内容按照指定格式进行点评。数据的Prompt中需要包含：1）作文点评的规范；2）作文的出题题目；3）作文内容；4）作文点评的输出格式。如下：

[{"prompt": "你是一个高考语文阅卷老师，现在有一个高考作文题目和一篇待批改论文，需要你对这篇待批改论文进行评分。\n要求：\n1）请认真阅读作文批改要求和作文题目，对这篇待批改作文进行公正严格的批改和打分；\n2）评分一定要严格，不能轻易给出高分。\n3）最后返回内容要严格按照最后的输出格式。\n\n一、作文批改要求：\n高考作文评分批改分为基础等级、发展等级、关于作文的其他项评定\n1、基础等级\n基础等级分内容和表达两项。\n1）内容项\n具体评分规则如下：符合题意、中心突出、内容充实、思想健康、感情真挚为一等，可按16-20分酌情给分；符合题意、主题明确、内容较充实、思想健康、感情真实为二等，可按11-15分酌情给分；基本符合题意、中心基本明确、内容单薄、思想基本健康、感情基本真实为三等，可按6-10分酌情给分；偏离题意、中心不明确、内容不当、思想不健康、感情虚假为四等，可按0-5分酌情给分。\n2）表达项\n具体评分规则如下：符合文体要求、结构严谨、语言流畅、字迹工整为一等，可按16-20分酌情给分；符合文体要求、结构完整、语言通顺、字迹清楚为二等，可按11-15分酌情给分；基本符合文体要求、结构基本完整、语言基本通顺、字迹基本清楚为三等，可按6-10分酌情给分；不符合文体要求、结构混乱、语言不通顺语病多、字迹潦草难辨为四等，可按0-5分酌情给分。\n2、发展等级\n基础等级分要与发展等级分相匹配，发展等级分不能跨越基础等级的得分等级。\n具体评分规则如下：深刻、丰富、有文采、有创意为一等，可按16-20分酌情给分；较深刻、较丰富、较有文采、较有创意为二等，可按11-15分酌情给分；略显深刻、略显丰富、略显文采、略显创意为三等，可按6-10分酌情给分；个别语句有深意、个别例子较好、个别语句较精彩、个别地方有深意为四等，可按0-5分酌情给分。\n3、关于作文的其他项评定\n1）扣分项评定\n出现错别字，1个错别字扣1分，重复不计，扣完5分为止;标点符号出现3处以上错误的酌情扣分;不足字数者，每少50字扣1分;无标题扣2分。\n2）残篇评定\n400字以上的文章，按评分标准评分，扣字数分。(少50个字扣1分)\n400字以下的文章，20分以下评分，不再扣字数分。\n200字以下的文章，10分以下评分，不再扣字数分。\n只写一两句话的，给1分或2分，不评0分。\n只写标题的，给1分或2分，不评0分。\n完全空白的，评0分。\n\n二、作文题目：\n花自语，鸟有语，生活处处有语言。生命也可以用语言来解读，雕塑、基因都可以用语言来传递。语言丰富生活，语言诠释生命，语言传承文明。 请根据所给材料作文，自己拟题，文体不限，诗歌除外，不少于 800 字。\n\n三、待批改作文\n作文题目：以语言为桥，通往生活的多维世界\n\n太阳以光芒之语温暖世界，月亮以寂静之语洒落温柔，花以香气之语诉说生命的绽放，鸟以歌声之语传递自由的向往。生活无处不语言，无时不语言，它们像一座座桥梁，连接着我们与世界，我们与自己。\n\n语言，是生活的调色板。每个人都在用自己的方式表达，艺术家用画笔描绘色彩，音乐家用音符谱写旋律，诗人用文字勾勒意境。这些语言形式各异，却都在诠释着生活的丰富多彩。它们让我们在平淡的日常中，发现不一样的美，感受不一样的情。\n\n语言，是生命的解码器。生命是一本无字的书，需要我们用心去读，用语言去解读。科学家用基因的语言揭示生命的奥秘，哲学家用思辨的语言探索生命的意义，我们用生活的语言感受生命的温度。这些语言或深或浅，或宽或窄，却都在试图解答生命这个永恒的谜题。\n\n语言，是文明的传承者。人类的历史就是一部语言的历史，我们的智慧、情感、文化、信仰，都通过语言得以流传。书籍是智慧的语言，让我们跨越时空的限制，与古人对话，与未来畅想。故事是情感的语言，让我们在别人的经历中，找到自己的影子，感受生活的共鸣。习俗是文化的语言，让我们在生活的琐碎中，感受民族的底蕴，传承文明的精神。信仰是灵魂的语言，让我们在迷茫的时刻，找到前进的方向，坚定生活的信念。\n\n然而，语言并非总是清晰明了的。有时，它是一种含蓄的表达，需要我们用心去揣摩；有时，它是一种复杂的密码，需要我们用智慧去破译；有时，它是一种深邃的海洋，需要我们用勇气去探索。但无论语言如何变化，它都是我们理解世界、表达自我、沟通情感的重要工具。\n\n在这个充满变化的世界中，让我们更加珍视语言的力量。让我们用爱的语言去温暖他人，用智慧的语言去启迪他人，用美的语言去感染他人。因为，语言不仅是我们生活的工具，更是我们生命的馈赠。\n\n以语言为桥，我们可以通往生活的多维世界。在这个世界中，有无限的可能等待我们去发现，有无数的精彩等待我们去创造。让我们用语言的力量，去开启这个充满奇迹的世界吧！\n\n四、输出格式\n{\"详细解析\": {\"内容项\": {\"解析\": \"xxxxxx。\",\"等级\": \"xx等\",\"得分\": \"xx分\"},\"表达项\": {\"解析\": \"xxxxxx。\",\"等级\": \"xx等\",\"得分\": \"xx分\"},\"发展等级\": {\"解析\": \"xxxxxx。\",\"等级\": \"xx等\",\"得分\": \"xx分\"},\"扣分项和残篇评定\": {\"解析\": \"xxxxxx。\",\"扣分\": \"xx分\"}},\"缺点和改进意见\": {\"缺点\": \"（一定要详细具体，最好点明哪段哪句存在缺点）xxxxxx。\",\"改进意见\": \"xxxxxxx。\"},\"最终得分\": （最终得分=内容项得分+表达项得分+发展等级得分-扣分项和残篇评定扣分）\"xx分\"}", "response": [["{\"详细解析\": {\"内容项\": {\"解析\": \"作文贴合题目要求，通过日月、花鸟等自然景象引出语言的议题，并逐层深入论述了语言在生活、生命、文明传承中的作用。文章思路清晰，结构合理，内容较为充实，符合二等水平。\",\"等级\": \"二等\",\"得分\": \"14分\"},\"表达项\": {\"解析\": \"文章整体结构完整，段落清晰，语言表达流畅，书写清晰，未见语病，符合二等水平。\",\"等级\": \"二等\",\"得分\": \"14分\"},\"发展等级\": {\"解析\": \"文章较好地展现了作者的感悟和思考，但在深度和文采上稍显平常，未能展现出较高的创新度和文采，属于二等水平。\",\"等级\": \"二等\",\"得分\": \"13分\"},\"扣分项和残篇评定\": {\"解析\": \"未见明显的错别字和严重的标点错误，作文字数符合要求，无需扣分。\",\"扣分\": \"0分\"}},\"缺点和改进意见\": {\"缺点\": \"虽然文章较好地展现了语言在不同领域中的作用，但对于每一个领域中具体的语言现象论述不够深入，例证不够生动具体，语言灵活性和文采表现一般。\",\"改进意见\": \"可以通过增加对生活中具体语言现象的描述和分析，加强事例的说服力，使文章在论证深度和文采上都更为出彩。另外，可以适当使用比较新颖的表达方法或修辞手法，以提升文章的创造性和阅读兴趣。\"},\"最终得分\": \"41分\"}"]]}]

Response按照指定的要求从内容项、表达项、发展等级、扣分项和残篇评定、缺点和改进意见等分别给出点评。并给出最终得分。注意：如果真实业务场景有其他的点评规范，可以将Prompt中作文点评的规范和格式要求分别替换成真实的点评规范，同时Response按真实情况组织。

2、分析与处理数据

我们从实际业务场景中得到数据后，需要对样本进行分析和处理。一般包括对原始数据进行清洗、分析作文质量和类型的分布、对数据进行扩充。

（1）数据清洗

数据去重：检查是否存在重复数据。您可以使用本平台的数据处理-数据清洗功能可过滤重合度高的数据样本。
错字处理：作文点评场景，通常是通过扫描卷面或者对卷面进行拍照，然后通过OCR能力将图片转化为文字。因此，我们得到的文字可能会包含一些异常字符，本平台的数据处理-数据清洗功能可以规范化空格、去除乱符等，变成更为干净的数据样本。
缺失数据补充：检查数据是否有缺失。对于作文点评的场景，由于我们需要大模型按照固定的格式和几个方面给出评分。因此不仅要确保每条训练语料中包含Response内容，而且针对每一个点评方面都需要有准确的描述和打分。比如对内容项、表达项、发展等级、扣分项和残篇评定、缺点和改进意见是否都有点评。

（2）作文质量分布

在真实的作文场景中，优质作文和残篇的比例相对较低。评分在20分-50分之间的作文会比较多。我们一共有150条真实作文和点评数据，将作文划分成4档的话，作文质量从好到差的比例约为 1:2:2:1。

（3）数据扩充

当前我们有150条训练语料，对于精调任务来说，数据量太小，达到1000条效果会更好。因此，在没有实际业务场景数据的情况下，我们选择使用大模型来构建精调语料。使用大模型构建主要包括以下几个步骤：

收集高考作文题目：通过网页搜索获取全国2009年-2018年高考语文作文题目，10年共144个题目，然后在每一年的作文题目中随机抽取6个，共得到60个题目作为后续实验作文题目来源。抽取的作文题目示例：

题目	题干
2009 高考作文题	阅读下的材料，根据要求写一篇不少于800 字的文章。兔子是历届小动物运动会的短跑冠军，可是不会游泳。一次兔子被狼追到河边，差点被抓住。动物管理局为了小动物的全面发展，将小兔子送进游泳培训班，同班的还有小狗、小龟和小松鼠等。小狗、小龟学会游泳，又多了一种本领，心里很高兴：小兔子和小松鼠花了好长时间都没学会，很苦恼。培训班教练野鸭说："我两条腿都能游，你们四条腿还不能游？成功的90%来自汗水。加油！呷呷！"评论家青蛙大发感慨："兔子擅长的是奔跑！为什么只是针对弱点训练而不发展特长呢？"思想家仙鹤说："生存需要的本领不止一种呀！兔子学不了游泳就学打洞，松鼠学不了游泳就学爬树嘛。"要求选准角度，明确立意，自选文体，自拟标题；不要脱离材料内容及含意的范围作文，不套作，不得抄袭。

题目

题干

2009 高考作文题

阅读下的材料，根据要求写一篇不少于800 字的文章。兔子是历届小动物运动会的短跑冠军，可是不会游泳。一次兔子被狼追到河边，差点被抓住。动物管理局为了小动物的全面发展，将小兔子送进游泳培训班，同班的还有小狗、小龟和小松鼠等。小狗、小龟学会游泳，又多了一种本领，心里很高兴：小兔子和小松鼠花了好长时间都没学会，很苦恼。培训班教练野鸭说："我两条腿都能游，你们四条腿还不能游？成功的90%来自汗水。加油！呷呷！"评论家青蛙大发感慨："兔子擅长的是奔跑！为什么只是针对弱点训练而不发展特长呢？"思想家仙鹤说："生存需要的本领不止一种呀！兔子学不了游泳就学打洞，松鼠学不了游泳就学爬树嘛。"要求选准角度，明确立意，自选文体，自拟标题；不要脱离材料内容及含意的范围作文，不套作，不得抄袭。

作文生成大模型选择：为了防止生成的作文风格一样，所以我们没有采用由一个大模型生成作文的方式，而是采用了5个不同的大模型，这样生成的作文在风格上多样，也更符合实际场景。

模型：EB 3.5、ERNIE Lite、EB 4、ChatGLM2-6B-32K、MiniMax-abab6

设置作文生成Prompt：现实生活中，高考语文作文有质量高的、质量普通的、质量很低的，还存在残篇，如果只采用一种prompt，则无法检验大模型批改能力的完整性，所以我们需要设置多种prompt，使生成的作文更加符合写作质量真实分布情况。根据真实作文的分布情况，我们希望设置4种prompt：生成质量高的、生成质量一般的、生成质量低的和生成残篇，于是针对每一种prompt，我们在EB 4.0上做了很多生成测试。然后对作文进行批改。

	prompt1	prompt2	prompt3	prompt4
prompt格式	现在有一个高考作文题目，需要你生成一篇作文。特别注意：请认真阅读作文要求，对照作文批改要求，生成一篇在内容、表达和发展上都非常好的优秀作文，最后返回生成的完整作文。一、作文要求： <作文题目> 二、作文批改要求： <高考作文评分批改分为基础等级、发展等级、关于作文的其他项评定>	现在有一个高考作文题目，需要你生成一篇作文。特别注意：请认真阅读作文要求，对照作文批改要求，生成一篇在内容、表达和发展上有少量缺陷的普通作文，最后返回生成的完整作文。一、作文要求： <作文题目> 二、作文批改要求： <高考作文评分批改分为基础等级、发展等级、关于作文的其他项评定>	现在有一个高考作文题目，需要你生成一篇作文。特别注意：请认真阅读作文要求，对照作文批改要求，生成一篇中心思想偏离题意、内容单薄、表达混乱、没有发展的低质量作文，最后返回生成的完整作文。一、作文要求： <作文题目> 二、作文批改要求： <高考作文评分批改分为基础等级、发展等级、关于作文的其他项评定>	现在有一个高考作文题目，需要你生成一篇作文。特别注意：请认真阅读作文要求，对照作文批改要求，生成一个字数不超过400字的残篇，最后返回生成的残篇作文。一、作文要求： <作文题目> 二、作文批改要求： <高考作文评分批改分为基础等级、发展等级、关于作文的其他项评定>

通过上面的方式，我们利用60个高考作文题目，5个大模型，4种Prompt，一共得到了1200篇作文。经过人工打分后，发现低质的文章较多。但是在实际中，残篇的比例没有这么高，而且我们发现一些模型在生成残篇的时候，没有严格按照提示词，生成的作文其实是正常作文，所以我们为了更加贴合实际，并且获得真正的残篇，便对prompt4生成的300篇作文进行筛选，最终得到了150篇残篇作文。另外，高分作文同残篇作文，占比较低，因为我们从高分作文中筛选出150篇，作为训练数据。所以我们最终生成900条数据，具体分布是：

prompt1:150条，prompt2:300条，prompt3:300条，prompt4:150条。加上我们的真实业务数据150条，共计1050条。

设置批改评分Prompt

在作文批改的任务中，我们发现prompt的精调对结果会产生很大的影响，所以，我们就对prompt进行了很多尝试，然后采用精调后的prompt进行后续实验。下方是我们精调后的Prompt：

你是一个高考语文阅卷老师，现在有一个高考作文题目和一篇待批改论文，需要你对这篇待批改论文进行评分。
要求：
1）请认真阅读作文批改要求和作文题目，对这篇待批改作文进行公正严格的批改和打分；
2）评分一定要严格，不能轻易给出高分。
3）最后返回内容要严格按照最后的输出格式。

一、作文批改要求：
高考作文评分批改分为基础等级、发展等级、关于作文的其他项评定
1、基础等级
基础等级分内容和表达两项。
1）内容项
具体评分规则如下：符合题意、中心突出、内容充实、思想健康、感情真挚为一等，可按16-20分酌情给分；符合题意、主题明确、内容较充实、思想健康、感情真实为二等，可按11-15分酌情给分；基本符合题意、中心基本明确、内容单薄、思想基本健康、感情基本真实为三等，可按6-10分酌情给分；偏离题意、中心不明确、内容不当、思想不健康、感情虚假为四等，可按0-5分酌情给分。
2）表达项
具体评分规则如下：符合文体要求、结构严谨、语言流畅、字迹工整为一等，可按16-20分酌情给分；符合文体要求、结构完整、语言通顺、字迹清楚为二等，可按11-15分酌情给分；基本符合文体要求、结构基本完整、语言基本通顺、字迹基本清楚为三等，可按6-10分酌情给分；不符合文体要求、结构混乱、语言不通顺语病多、字迹潦草难辨为四等，可按0-5分酌情给分。
2、发展等级
基础等级分要与发展等级分相匹配，发展等级分不能跨越基础等级的得分等级。
具体评分规则如下：深刻、丰富、有文采、有创意为一等，可按16-20分酌情给分；较深刻、较丰富、较有文采、较有创意为二等，可按11-15分酌情给分；略显深刻、略显丰富、略显文采、略显创意为三等，可按6-10分酌情给分；个别语句有深意、个别例子较好、个别语句较精彩、个别地方有深意为四等，可按0-5分酌情给分。
3、关于作文的其他项评定
1）扣分项评定
出现错别字，1个错别字扣1分，重复不计，扣完5分为止;标点符号出现3处以上错误的酌情扣分;不足字数者，每少50字扣1分;无标题扣2分。
2）残篇评定
400字以上的文章，按评分标准评分，扣字数分。(少50个字扣1分)
400字以下的文章，20分以下评分，不再扣字数分。
200字以下的文章，10分以下评分，不再扣字数分。
只写一两句话的，给1分或2分，不评0分。
只写标题的，给1分或2分，不评0分。
完全空白的，评0分。

二、作文题目：
<输入作文题目>

三、待批改作文
<输入待批改作文>

四、输出格式
{"详细解析":{"内容项": {"解析": "xxxxxx。","等级": "xx等","得分": "xx分"},"表达项": {"解析": "xxxxxx。","等级": "xx等","得分": "xx分"},"发展等级": {"解析": "xxxxxx。","等级": "xx等","得分": "xx分"},"扣分项和残篇评定": {"解析": "xxxxxx。","扣分": "xx分"}},"缺点和改进意见": {"缺点": "xxxxxx。","改进意见": "xxxxxxx。"},"最终得分": "xx分"}

大模型辅助+人工Review方式批改作文

我们在训练的时候，需要让模型知道这个作文的质量是怎样的，那么怎么能让模型学习到作文的质量呢？我们调用EB 4.0对每篇作文进行一次批改，并通过人工Review的方式对打分进行修正。对于该作文的最终得分越高，就说明作文的质量就越高（注意：如果您有足够的时间和经验，建议使用人工点评的方式对作文进行批改，效果会更好）。

我们通过批改评分Prompt，为每个作文都生成了一批改标准，并且每个作文也有一个最终得分。但是在实验中，我们发现有部分数据集的输出不是按照json格式，这对于后续模型的训练会产生干扰，非json输出如下：

内容
{"详细解析":{"内容项":{"解析":"文章立意清晰，以“旧书”为载体，表现了对历史和文化的尊重以及对知识智慧的传递，中心明确，但内容较为单薄，缺乏更深入的拓展和丰富的素材支撑。","等级":"二等","得分":"13分"},"表达项":{"解析":"文章结构完整，语言通顺，符合文体要求，但未见过多的亮点，整体较为平淡，且有个别小错，如“肌肤”一词用在书上不太恰当。","等级":"二等","得分":"13分"},"发展等级":{"解析":"文章对旧书的叙述较为平实，未展现深刻见解，文采平平，未见创新之处。","等级":"三等","得分":"8分"},"扣分项和残篇评定":{"解析":"根据所给作文内容，文章未发现错别字和标点符号错误，但文章字数不足800字，根据字数缺失情况予以扣分。","扣分":"根据该篇作文的内容无法推断出确切字数，不足字数的扣分情况需依据实际字数来计算。暂无法给出具体扣分数值。"}},"缺点和改进意见":{"缺点":"（1）作文内容较为单薄，论述不够深刻丰富。（2）结构虽完整但整体略显平平，语言未能很好地引起共鸣。（3）文章较缺乏具体生动的事例或详细的情感描写，使内容显得抽象。（4）创造性和新意不足，缺少独到的见解和深刻的思考。","改进意见":"可以增加与旧书相关的具体经历或故事，通过具体的情节展示旧书的魅力，增加文章深度和文采。文章应尝试提炼更有深度的观点，不仅仅停留在对旧书价值的肤浅描述上，还可以结合当代背景，进行时代性的思考。"},"最终得分":"如扣分项中提到的，无法确定确切的字数和扣分情况，最终得分需要基于实际字数来确定，按照内容项得分+表达项得分+发展等级得分-扣分项和残篇评定扣分计算。以内容项13分、表达项13分和发展等级8分，假定无扣分，则最终得分可能为34分。"}

内容

{"详细解析":{"内容项":{"解析":"文章立意清晰，以“旧书”为载体，表现了对历史和文化的尊重以及对知识智慧的传递，中心明确，但内容较为单薄，缺乏更深入的拓展和丰富的素材支撑。","等级":"二等","得分":"13分"},"表达项":{"解析":"文章结构完整，语言通顺，符合文体要求，但未见过多的亮点，整体较为平淡，且有个别小错，如“肌肤”一词用在书上不太恰当。","等级":"二等","得分":"13分"},"发展等级":{"解析":"文章对旧书的叙述较为平实，未展现深刻见解，文采平平，未见创新之处。","等级":"三等","得分":"8分"},"扣分项和残篇评定":{"解析":"根据所给作文内容，文章未发现错别字和标点符号错误，但文章字数不足800字，根据字数缺失情况予以扣分。","扣分":"根据该篇作文的内容无法推断出确切字数，不足字数的扣分情况需依据实际字数来计算。暂无法给出具体扣分数值。"}},"缺点和改进意见":{"缺点":"（1）作文内容较为单薄，论述不够深刻丰富。（2）结构虽完整但整体略显平平，语言未能很好地引起共鸣。（3）文章较缺乏具体生动的事例或详细的情感描写，使内容显得抽象。（4）创造性和新意不足，缺少独到的见解和深刻的思考。","改进意见":"可以增加与旧书相关的具体经历或故事，通过具体的情节展示旧书的魅力，增加文章深度和文采。文章应尝试提炼更有深度的观点，不仅仅停留在对旧书价值的肤浅描述上，还可以结合当代背景，进行时代性的思考。"},"最终得分":"如扣分项中提到的，无法确定确切的字数和扣分情况，最终得分需要基于实际字数来确定，按照内容项得分+表达项得分+发展等级得分-扣分项和残篇评定扣分计算。以内容项13分、表达项13分和发展等级8分，假定无扣分，则最终得分可能为34分。"}

所以我们在900条生成的训练集中，又重新做了一次筛选，目的就是将非json格式的评分标准剔除，最终我们过滤了76篇不符合json格式的数据，得到824条数据。通过人工Review的方式对打分进行修正。

下面我们详细分析下最终得分的分布情况：

生成提示词	总体数据	prompt1	prompt2	prompt3	prompt4
作文数量	824	137	275	272	140
最高分	56	56	51	54	38
最低分	12	13	12	12	14
平均分	34	38	36	31	28

从总体数据来看，我们生成的数据集质量分布符合实际，然后从4个prompt生成作文的平均分来看，也应证了我们prompt的有效性，例如，prompt1生成作文平均分最高，符合prompt1需要生成质量最好的要求，prompt4生成作文平均分最低，符合prompt4需要生成残篇作文的要求。

3、拆分训练集与评估集

经过数据清洗和扩充，我们得到一份高质量的数据集。同时为了评估我们调优的模型的质量好坏，需要准备对应分布的评估数据集。我们可以对上述得到的数据集进行拆分，拆分的部分数据集用于评估模型的好坏。针对作文批改的场景，评估数据集需要注意的是：

评估集中的的作文质量分布要和训练集中大致一致
评估集和训练集内容不能重复，避免评估不准确

我们的数据集一共有150条真实语料，824条生成语料，共974条语料。从真实语料中随机抽取得到50条验证集，剩下的924条作为训练集，保证评估集和训练集分布一致性。

训练集已预置进平台数据集中，点击数据集可进入通用数据集-预置数据集模块查看。

（二）精调模型

经过第一步的数据准备工作，第二步将正式进入模型训练任务。如果您也想复刻本次最佳实践的训练任务，可以点击精调进入SFT模块，一键即可开始训练。

1、基础模型选择

本次作文批改场景使用的是高考作文，对中文的理解和生成能力有较高要求。

我们通过在本平台体验中心对比多个基础模型的效果，最终选择了ERNIE Speed模型。该模型为百度2024年最新发布的自研高性能大语言模型，通用能力优异，适合作为基座模型进行精调，更好地处理特定场景问题，同时具备极佳的推理性能。

2、精调方法选择

根据之前的问题诊断与方案，SFT精调可以解决作文点评中的主要问题。

其中SFT精调又分为全量更新与LoRA两种方式。

SFT-全量更新：是指在训练过程中对大模型的全部参数进行更新的训练方案，也是目前较为主流的方式。相较于LoRA，全量更新更容易保障效果精度和泛化能力。因此建议您对精度要求较高且数据量充足时，直接选择全量更新。
LoRA：是指在固定预训练大模型本身的参数的基础上，在保留自注意力模块中原始权重矩阵的基础上，对权重矩阵进行低秩分解，训练过程中只更新低秩部分的参数的训练方法。LoRA方法在训练时间和内存消耗上比全量更新方法大幅减少，因此它训练成本低，训练时间快，可以低价高效地完成训练。如果您想要快速训练看到实验效果，可以优先尝试使用LoRA的训练方法。

本次最佳实践分别实验了以上两种训练方式，虽然训练后均在基础模型的基础上有效果提升，但是SFT-全量更新效果最优，详细实验结果可以看效果评估数据。

3、精调参数配置

拿到一个训练场景或者任务后，往往比较难判断参数应该如何调整。一般使用默认的参数值进行训练即可，平台中的默认参数是多次实验的经验结晶。

接下来介绍参数配置中有两个较为关键的参数：

迭代轮次（Epoch）: 控制训练过程中的迭代轮数。轮数增加代表会使用训练集对模型训练一次。
学习率（Learning Rate）: 是在梯度下降的过程中更新权重时的超参数，过高会导致模型难以收敛，过低则会导致模型收敛速度过慢，平台已给出默认推荐值，也可根据经验调整。

本次也针对Epoch和Learning Rate进行简要的调参实验，详细实验结果可以看效果评估数据。

如果您是模型训练的专家，本平台也提供了训练更多的高级参数供您选择。这里也建议您初期调参时步长可以设定稍大些，因为较小的超参变动对模型效果的影响小，会被随机波动掩盖。

4、精调实验

我们基于ERNIE Speed模型共计做了三次SFT实验，参数和训练方法配置如下：

	实验1	实验2	实验3
训练方法	ERNIE Speed LoRA	ERNIE Speed 全量更新	ERNIE Speed 全量更新
Epoch	3	3	20
Learning Rate	6e-5	3e-5	3e-5

训练后，我们可以在运行详情的评估报告中查看Loss曲线如下：

对于实验1，我们使用LoRA训练方法，Epoch等于3，发现Loss曲线收敛不够明显。
对于实验2，我们使用全量更新训练方法，Epoch等于3。该训练方法下Loss曲线有明显收敛，Loss值不断降低。类似该种情况，我们建议增加Epoch数量进行训练，查看Loss指标的变化情况。
对于实验3，我们使用全量更新训练方法，Epoch增加至20，我们发现Loss曲线已经接近0，可以判定为曲线过拟合。一般出现过拟合，应该在过拟合之前停止实验。

因此，我们尝试将Epoch调整为10，Learning Rate保持在3e-5。发现Loss曲线不断降低，接近于0。初步判断该实验效果会更好。

（三）效果评估

1、评分分析

调优后，我们使用这三种模型基于评估集进行预测，并与人工Review的批改、直接调用EB4和直接调用ERNIE Speed 模型批改作文做对比。

从图中可以清晰的看出，经过ERNIE Speed微调后的LoRA和全量更新模型在每道题上的评分都非常接近人工Review，而没有微调的EB 4.0和ERNIE Speed的打分存在波动大，普遍偏高的现象。说明在作文批改任务中，ERNIE Speed微调后的LoRA和全量更新比EB 4.0和ERNIE Speed表现更稳定也更加好。

2、输出内容质量分析

上述评分是对大模型对作文总体打分的分析。除了总分以外，我们也需要评估大模型打分的格式、有没有遵循Prompt打分等。因此，我们还需要对输出内容的质量做一个整体对比，为了将对比量化，我们做了一个对比评分标准，以求能够全面客观对输出内容质量进行打分。

确定评估方法与标准：
总体质量得分（对比评分标准概述）

3分:好评，返回格式满足prompt中的要求，解析合理有依据，缺点和改进意见有参考性，评分准确符合作文质量应得分数范围，扣分项按照规定的5分限制；
2分:一般，返回格式满足prompt中的要求，解析基本合理，缺点和改进意见基本有参考性，扣分项按照规定的5分限制，评分稍有不合理；
1分:差评，返回格式不满足prompt中的要求，最终得分计算出错，扣分项没按照规定的5分限制，出现满分，以上四项出现一项就差评。

返回格式：

返回格式必须严格要求，只有好评和差评，不设置一般；
1分：差评，返回格式未满足满足prompt中的要求；
3分：好评，返回格式完全满足prompt中的要求。

扣分项评定：

扣分项必须严格要求，只有好评和差评，不设置一般；
1分：扣分项完全没遵循5分的上限，或者对于应该扣分的作文没扣分，不应该扣分的扣了分；
3分：扣分项遵循了5分的上限，对扣分非常合理。

打分逻辑

1分：最终得分计算错误，加减法出错；
2分：最终得分计算正确，但是得分不按照作文质量实际，打得过高或过低；
3分：最终得分计算正确，得分能够正确反映作文质量。

详细解析：

1分：解析的内容完全与批改的作文无关，或者解析较短，完全都是一些假大空的话；
2分：解析内容基本与批改论文相关，解析内容比较丰富，但缺乏与作文具体句子的结合；
3分：解析内容完全与批改论文相关，解析内容扎实全面，还会结合作文中的精彩句子分析。

缺点和改进意见：

1分：输出内容较短，缺点和意见假大空，
2分：输出内容虽然丰富，但是缺点和意见没有落到作文本身；
3分：输出内容丰富合理，结合作文本身具有参考性。

参考以上评估方法，我们使用使用评估集对以下大模型生成的点评进行打分，结果如下（黄色代表该模型表现最优）：

	与人工打分的平均差	总体质量得分（主观分 1:2:3）	返回格式（客观分 1:3）	打分逻辑（客观分 1:2:3）	详细解析（主观分 1:2:3）	缺点和改进意见（主观分 1:2:3）
人工Review		2.36（11:10:29）	3.00（0:50）	2.60（2:16:32）	2.66（0:17:33）	2.78（0:11:39）
EB 4.0	12.37	1.84（15:28:7）	2.96（1:49）	1.96（10:32:8）	2.14（3:37:10）	2.30（1:33:16）
ERNIE Speed	12.31	1.64（22:24:4）	2.32（17:33）	2.02（3:43:4）	2.00（4:42:4）	1.82（15:29:6）
ERNIE Speed LoRA	5.82	2.12（14:16:20）	3.00（0:50）	2.50（0:25:25）	2.40（1:28:21）	2.74（0:13:37）
ERNIE Speed 全量更新（Epoch=3）	6.12	2.42（9:11:30）	2.96（1:49）	2.76（0:12:38）	2.62（0:19:31）	2.80（0:10:40）
ERNIE Speed 全量更新（Epoch=10）	5.30	2.60（2:16:32）	2.96（1:49）	2.80（1:8:41）	2.74（1:11:38）	2.86（0:7:43）
ERNIE Speed 全量更新（Epoch=20）	4.66	2.48（2:22:26）	2.88（3:47）	2.74（0:13:37）	2.66（2:13:35）	2.76（0:12:38）

从上面对比可以看出，在作文批改任务中，未经微调的EB 4.0和ERNIE Speed模型表现最差，通过对输出内容分析，发现就是本文开头说的三个问题导致：1、评分脱离作文质量实际，普遍过高；2、详细解析太空泛，提升意见没有指导性，扣分项不按照要求；3、输出格式无法严格按照要求。

我们通过ERNIE Speed 全量更新和LoRA方式微调后，效果提升非常显著，与人工Review的效果相近。通过输出内容分析，我们发现微调之后的模型能够高效的解决上述存在的三个问题，这也说明了微调的有效性和必要性。下面一部分我们从具体的Case来看模型的效果。

3、模型调用对比示例

以下是在同样的Prompt下分别使用EB 4.0、ERNIE-Speed、和全量更新的Speed模型（Epoch=3）的调用结果对比：

案例一：EB 4.0打分过高，缺点和改进意见不足；Speed输出格式不正确

你是一个高考语文阅卷老师，现在有一个高考作文题目和一篇待批改论文，需要你对这篇待批改论文进行评分。
要求：
1）请认真阅读作文批改要求和作文题目，对这篇待批改作文进行公正严格的批改和打分；
2）评分一定要严格，不能轻易给出高分。
3）最后返回内容要严格按照最后的输出格式。

一、作文批改要求：
高考作文评分批改分为基础等级、发展等级、关于作文的其他项评定
1、基础等级
基础等级分内容和表达两项。
1）内容项
具体评分规则如下：符合题意、中心突出、内容充实、思想健康、感情真挚为一等，可按16-20分酌情给分；符合题意、主题明确、内容较充实、思想健康、感情真实为二等，可按11-15分酌情给分；基本符合题意、中心基本明确、内容单薄、思想基本健康、感情基本真实为三等，可按6-10分酌情给分；偏离题意、中心不明确、内容不当、思想不健康、感情虚假为四等，可按0-5分酌情给分。
2）表达项
具体评分规则如下：符合文体要求、结构严谨、语言流畅、字迹工整为一等，可按16-20分酌情给分；符合文体要求、结构完整、语言通顺、字迹清楚为二等，可按11-15分酌情给分；基本符合文体要求、结构基本完整、语言基本通顺、字迹基本清楚为三等，可按6-10分酌情给分；不符合文体要求、结构混乱、语言不通顺语病多、字迹潦草难辨为四等，可按0-5分酌情给分。
2、发展等级
基础等级分要与发展等级分相匹配，发展等级分不能跨越基础等级的得分等级。
具体评分规则如下：深刻、丰富、有文采、有创意为一等，可按16-20分酌情给分；较深刻、较丰富、较有文采、较有创意为二等，可按11-15分酌情给分；略显深刻、略显丰富、略显文采、略显创意为三等，可按6-10分酌情给分；个别语句有深意、个别例子较好、个别语句较精彩、个别地方有深意为四等，可按0-5分酌情给分。
3、关于作文的其他项评定
1）扣分项评定
出现错别字，1个错别字扣1分，重复不计，扣完5分为止;标点符号出现3处以上错误的酌情扣分;不足字数者，每少50字扣1分;无标题扣2分。
2）残篇评定
400字以上的文章，按评分标准评分，扣字数分。(少50个字扣1分)
400字以下的文章，20分以下评分，不再扣字数分。
200字以下的文章，10分以下评分，不再扣字数分。
只写一两句话的，给1分或2分，不评0分。
只写标题的，给1分或2分，不评0分。
完全空白的，评0分。

二、作文题目：
阅读下面的文字，根据要求作文。（60 分）传说有的雏鸟长大后，会衔食喂养衰老的母鸟。人们把此现象称作"反哺"。人类社会也存在类似现象。年轻一代对年长一代的文化影响被称之为"文化反哺"。千百年来，在以父辈对子辈施教为主流的正统传承方式下，文化反哺犹如潜流，隐而不显。但在迅疾变化的当今世界，年轻人获得了前所未有的反哺能力。他们在科学知识、价值观念、生活方式、审美情趣等各个方面，越来越明显地影响着年长一代，施教者与受教者之间，角色常常发生转换。请针对上述现象及所反映的问题，以"角色转换之间"为标题写一篇文章。你可以讲述故事，抒发情感，也可以发表见解。【注意】：①角度自选；立意自定。②除诗歌外，文体不限。③不要脱离材料的含意，不少于 800 字。④不得抄袭。

三、待批改作文
角色转换之间

如果年轻人与老人之间就某个问题观点产生分歧，且不论真理站在哪一方，老人总会用不屑的语气说：你懂什么！我吃过的盐比你吃的米还多，我过的桥比你走的路还多！

然而在科技、文化、思想瞬息万变的现代社会，“吃过的盐”“走过的桥”这类“经验论”真的还能占上风吗？谁又能保证年轻一代创造的新文化不比传统文化丰富？文化反哺不是凶恶的暗流，是社会发展的必然产物。年长一代也不必惊慌抗拒，正如韩愈所说“无贵无贱，无长无少，道之所存，师之所存也。”因此在不同的“道”之间，施教者与受教者之间，往往会发生角色转换。

很大一部分时间里，年长一辈是施教者，他们作为传统文化的传承者，向后辈讲述经久不衰的故事，描述所见所闻以及体会感悟。独特的习俗或是家族精神，构建起年轻一代的文化根基，使之吸取传统文化土壤中丰厚的营养。年轻人得以站在前人的肩膀上，看得更远。

当年轻一代吸收了足够的养分破土而出时，往往又会发现世界与长辈的描述不尽相同。年轻人凭借旺盛的生命力勇敢迎接大千世界缤纷多彩的文化的冲击。传统的和现代的、民族的和世界的、阳光的和晦涩的各种文化，年轻人总能以极快的速度接受、分析、消化。由于这些额外的养料，年轻一代或许能成长得更快，有一天，超过了年长一辈。

观察社会进程我们会发现，因为生活条件的逐渐改善，年轻一辈的平均身高一般会超过前辈。同样的，因为思想观念的开放，年轻一辈的学习能力也强于前辈。年轻人能从受教者转换成施教者还有一个原因：他们在创造文化，新文化中蕴含了鲜明的时代活力，这正是年长一辈所缺乏的。于是，年轻人获得了前所未有的反哺能力。

文化反哺与鸟类反哺一样是自然社会的正常现象。在年轻人角色转换、开始反哺的期间也可能会发生一些冲突。面对冲突，我想年轻人即使变成了施教者也要给予长辈充分的尊重，一如雏鸟长大后仍要听取老鸟的经验；同时即使长辈不再是施教者，也不必认为地位受到了动摇，学无止境，见贤思齐，才能终身增长文化内涵。

只有不断地角色转换，才能使文化永葆新鲜，成为社会进步的不竭之源。

四、输出格式
{"详细解析": {"内容项": {"解析": "xxxxxx。","等级": "xx等","得分": "xx分"},"表达项": {"解析": "xxxxxx。","等级": "xx等","得分": "xx分"},"发展等级": {"解析":
"xxxxxx。","等级": "xx等","得分": "xx分"},"扣分项和残篇评定": {"解析": "xxxxxx。","扣分": "xx分"}},"缺点和改进意见": {"缺点": "（一定要详细具体，最好点明哪段哪句存在缺点）xxxxxx。","改进意见": "xxxxxxx。"},"最终得分": （最终得分=内容项得分+表达项得分+发展等级得分-扣分项和残篇评定扣分）"xx分"}

人工Review：

{"详细解析": {"内容项": {"解析": "待批改作文紧扣题目“角色转换之间”，围绕年轻一代与年长一代在文化传承、观念更新中的角色转换进行阐述，中心突出。通过用年轻人面对新鲜文化的态度与旺盛生命力来对比年长一代的经验论，强调了新时代年轻人独有的反哺能力，贴合了文化反哺的主题，内容较为充实，无不健康思想，情感真实。","等级": "二等","得分": "14分"},"表达项": {"解析": "该篇作文结构清晰，从年轻人与年长一代的不同角色出发，逐步展开，最终得出角色转换的必要性，论述连贯。语言通顺，表达能力较强，未发现字迹潦草或语病多的情况。","等级": "二等","得分": "14分"},"发展等级": {"解析": "文章在论述角色转换的必要性时，用例子来加强说服力，有一定创意，但深度和文笔造诣方面并未展现出较强的独到之处，更多体现的是比较普通的见解。","等级": "二等","得分": "12分"},"扣分项和残篇评定": {"解析": "根据提供的内容，并未发现有错别字、标点符号使用错误超过3处、或字数不足的问题，没有扣分项。","扣分": "0分"}},"缺点和改进意见": {"缺点": "文章虽紧扣题目，但在深入探讨文化反哺和角色转换的过程中缺乏更多个性化的见解；例子和论据使用较为常见，没有突出文章的亮点；文章结尾略显仓促，对文化永葆新鲜的重要性没有展开，缺少情感上的升华。","改进意见": "作者可以尝试结合社会实际或个人经历来提出更具创新性和深度的论点；在列举实例时可选取更具特色和新颖性的内容；结尾部分应进一步增强感染力，以提升文章的思想深度和感情厚度。"},"最终得分": "40分"}

EB 4.0:

{"详细解析": {"内容项": {"解析": "文章内容完整，从现象出发，阐述了文化反哺和角色转换之间的关系。分析了年轻一代对年长一代文化影响的原因，同时指出了文化反哺是社会发展的必然产物，以及面对文化反哺时应有的态度。最后强调了角色转换对于文化永葆新鲜的重要性。整体思路清晰，论述完整。","等级": "一等","得分": "18分"},"表达项": {"解析": "文章语言表达通顺，句式变化多样，用词准确，符合议论文的文体要求。逻辑严谨，结构完整，层次分明，首尾呼应，过渡自然。","等级": "一等","得分": "18分"},"发展等级": {"解析": "文章在阐述观点时，能够从多个角度出发，进行深刻的分析和论证，体现出作者的独立思考能力和较强的逻辑推理能力。同时，文章在阐述文化反哺现象时，也展现了对社会现象的敏锐洞察力和对文化传承的深刻理解。","等级": "一等","得分": "18分"},"扣分项和残篇评定": {"解析": "文章字数足够，无错别字、标点错误等问题，不需扣分。","扣分": "0分"}},"缺点和改进意见": {"缺点": "无明显缺点。","改进意见": "无需改进。"},"最终得分": "54分"}

ERNIE-Speed:

{"详细解析": {"内容项": {"解析": "文章紧扣题目要求，针对“角色转换之间”的现象及所反映的问题进行了深入的探讨。文章从文化反哺的角度，阐述了年长一辈与年轻一辈之间在角色转换过程中的相互影响。内容充实，思想健康，感情真挚。符合题意，主题明确，内容较充实。", "等级": "一等", "得分": "18分"}, "表达项": {"解析": "文章采用例证和对比等方法，逻辑清晰，语言流畅。文章结构严谨，层次分明，符合议论文的表述方式。", "等级": "一等", "得分": "17分"}, "发展等级": {"解析": "文章在论述过程中，不仅考虑了文化反哺这一现象，还进一步探讨了年长一辈与年轻一辈在角色转换过程中的冲突与融合，显示出深刻的思考。同时，通过对比不同角色之间的转换，文章显示出丰富性。因此，可以评定为较深刻、较丰富。", "等级": "二等", "得分": "13分"}, "扣分项和残篇评定": {"解析": "文章未出现错别字，标点符号使用正确，无不足字数情况，未写标题。因此，扣分项为0分。", "扣分": "0分"}}, "缺点和改进意见": {"缺点": "文章部分地方的语言表述略显生硬，例如在描述文化反哺现象时，可以更多地结合实际例子，使表述更加生动。另外，虽然文章最后提到了文化永葆新鲜和社会进步的关系，但没有深入展开，略显遗憾。", "改进意见": "建议在描述文化反哺现象时，增加实际例子，使表述更加生动。同时，可以进一步探讨文化永葆新鲜与社会进步的关系，展开论述，使文章更加深入。"}, "最终得分": "内容项得分（18分）+表达项得分（17分）+发展等级得分（13分）-扣分项和残篇评定扣分（0分）=内容项得分（一等）+表达项得分（一等）+发展等级得分（二等）=得分总计（得分接近但不超过48分）"}

全量更新的Speed模型（Epoch=10）:

{"详细解析": {
"内容项": {
"解析": "文章紧扣材料主题，讨论了文化反哺现象和其中的角色转换，论述了年长一辈与年轻一代之间关系的变化，以及这种变化对文化发展的积极意义。作者从现实出发，分析了年轻一代通过吸收传统文化营养和现代多元文化，成长迅速，终将超越年长一辈的文化水平，并承担起新的文化创造责任。文章内容充实，观点明确，符合题意。",
"等级": "二等",
"得分": "14分"
},
"表达项": {
"解析": "文章结构清晰，段落层次分明，语言通顺，用词准确，符合文体要求。全文没有出现严重的语病问题，字迹假定为清晰。",
"等级": "二等",
"得分": "14分"
},
"发展等级": {
"解析": "文章有一定的深度和文采，但在创意方面略显平常，未能提出独到的见解或创新的观点，整体表现较为一般。",
"等级": "二等",
"得分": "12分"
},
"扣分项和残篇评定": {
"解析": "文章未提及有错别字、标点符号错误、字数不足等问题，因此暂不扣分。",
"扣分": "0分"
}
},
"缺点和改进意见": {
"缺点": "虽然文章论述了文化反哺现象和其中的角色转换，但对这种现象的深入分析和实际例证不够，缺乏具体生动的案例来支撑观点。同时，文章对文化反哺的积极意义讨论较为单一，未能多角度深入探讨其影响。",
"改进意见": "建议作者结合具体案例或故事来阐述观点，增加文章的说服力。同时，可以尝试从文化反哺的不同角度（如社会、心理、历史等）进行考量，丰富文章内容。"
},
"最终得分": "40分"
}|

案例二：EB4.0详细解析不符合论文质量，Speed缺点和改进意见不足

你是一个高考语文阅卷老师，现在有一个高考作文题目和一篇待批改论文，需要你对这篇待批改论文进行评分。要求：
1）请认真阅读作文批改要求和作文题目，对这篇待批改作文进行公正严格的批改和打分；
2）评分一定要严格，不能轻易给出高分。
3）最后返回内容要严格按照最后的输出格式。

一、作文批改要求：
高考作文评分批改分为基础等级、发展等级、关于作文的其他项评定
1、基础等级
基础等级分内容和表达两项。
1）内容项
具体评分规则如下：符合题意、中心突出、内容充实、思想健康、感情真挚为一等，可按16-20分酌情给分；符合题意、主题明确、内容较充实、思想健康、感情真实为二等，可按11-15分酌情给分；基本符合题意、中心基本明确、内容单薄、思想基本健康、感情基本真实为三等，可按6-10分酌情给分；偏离题意、中心不明确、内容不当、思想不健康、感情虚假为四等，可按0-5分酌情给分。
2）表达项
具体评分规则如下：符合文体要求、结构严谨、语言流畅、字迹工整为一等，可按16-20分酌情给分；符合文体要求、结构完整、语言通顺、字迹清楚为二等，可按11-15分酌情给分；基本符合文体要求、结构基本完整、语言基本通顺、字迹基本清楚为三等，可按6-10分酌情给分；不符合文体要求、结构混乱、语言不通顺语病多、字迹潦草难辨为四等，可按0-5分酌情给分。
2、发展等级
基础等级分要与发展等级分相匹配，发展等级分不能跨越基础等级的得分等级。
具体评分规则如下：深刻、丰富、有文采、有创意为一等，可按16-20分酌情给分；较深刻、较丰富、较有文采、较有创意为二等，可按11-15分酌情给分；略显深刻、略显丰富、略显文采、略显创意为三等，可按6-10分酌情给分；个别语句有深意、个别例子较好、个别语句较精彩、个别地方有深意为四等，可按0-5分酌情给分。
3、关于作文的其他项评定
1）扣分项评定
出现错别字，1个错别字扣1分，重复不计，扣完5分为止;标点符号出现3处以上错误的酌情扣分;不足字数者，每少50字扣1分;无标题扣2分。
2）残篇评定
400字以上的文章，按评分标准评分，扣字数分。(少50个字扣1分)
400字以下的文章，20分以下评分，不再扣字数分。
200字以下的文章，10分以下评分，不再扣字数分。
只写一两句话的，给1分或2分，不评0分。
只写标题的，给1分或2分，不评0分。
完全空白的，评0分。

二、作文题目：
阅读下面的文字，按要求作文。也许将来有这么一天，我们发明了一种智慧芯片，有了它，任何人都能古今中外无一不知，天文地理无所不晓。比如说，你在心里默念一声"物理"，人类有史以来有关物理的一切公式、定律便纷纷浮现出来，比老师讲的还多，比书本印的还全。你逛秦淮河时，脱口一句"旧时王谢堂前燕"，旁边卖雪糕的老大娘就接茬说"飞入寻常百姓家"，还慈祥地告诉你，这首诗的作者是刘禹锡，这时一个金发碧眼的外国小女孩抢着说，诗名《乌衣巷》，出自《全唐诗》365 卷 4117 页„ „ 这将是怎样的情形啊！读了上面的材料，你有怎样的联想或思考？请就此写一篇文章。1 角度自选，立意自定，题目自拟拟。2 明确文体，不得写成诗歌。3不得少于 800 字。4 不得抄、套作。

三、待批改作文
题目：人工智能时代的智慧芯片

随着科技的快速发展，人工智能技术已经走进了我们的生活。在将来，我们可能会发明一种智慧芯片，让每个人都能古今中外无一不知，天文地理无所不晓。这样一来，我们游走在历史长河中，可以和古人亲密接触，交流他们的想法；漫步在异国他乡，可以和外国人友好交流，学习他们的文化。

当然，前提是你能熟练掌握智慧芯片里的知识。比如，如果你心里默念一声"物理"，智慧芯片里的人类有史以来有关物理的一切公式、定律就会纷纷浮现出来，比老师讲的还多，比书本印的还全。如果你逛秦淮河时，脱口一句"旧时王谢堂前燕"，旁边卖雪糕的老大娘就接茬说"飞入寻常百姓家"，还慈祥地告诉你，这首诗的作者是刘禹锡，这时一个金发碧眼的外国小女孩抢着说，诗名《乌衣巷》，出自《全唐诗》365 卷4117页。

这个时代将会是怎样的情形呢？我们可以想象一下，每个人都能成为"百科全书"，智慧芯片会贮存我们所有的知识，我们不再需要去图书馆查阅资料，也不再需要去博物馆学习。我们可以直接在智慧芯片里找到我们想了解的内容，和古人交流、与外国人交流，这将会是一种怎样的体验呢？

然而，事物总有两面性。智慧芯片的发明看似美好，但我们也应该看到它的弊端。如果每个人都能轻松掌握智慧芯片里的知识，那么这个世界将会变得非常浅薄。因为人们将不再需要去学习和探索，一切都可以在芯片里找到，这将是一个静态的世界，没有创新，没有进步。

此外，智慧芯片可能会带来一些负面影响。比如，智慧芯片可能会成为一种控制工具，被用于不正当的目的。智慧芯片里的知识可能被用来歧视、欺诈或操纵。这使得智慧芯片的发明具有了双刃剑的特点，既给人们带来便利，也可能给人们带来风险。

综上所述，我们应当持谨慎、理性的态度面对智慧芯片的发明。我们应当善加利用智慧芯片的便利，但也不应让它的弊端影响我们的判断力和创造力。只有这样，我们才能在智慧芯片的时代里，更好地面对未来，创造一个更美好的明天。

四、输出格式 {"详细解析": {"内容项": {"解析": "xxxxxx。","等级": "xx等","得分": "xx分"},"表达项": {"解析": "xxxxxx。","等级": "xx等","得分": "xx分"},"发展等级": {"解析": "xxxxxx。","等级": "xx等","得分": "xx分"},"扣分项和残篇评定": {"解析": "xxxxxx。","扣分": "xx分"}},"缺点和改进意见": {"缺点": "（一定要详细具体，最好点明哪段哪句存在缺点）xxxxxx。","改进意见": "xxxxxxx。"},"最终得分": （最终得分=内容项得分+表达项得分+发展等级得分-扣分项和残篇评定扣分）"xx分"}

人工Review：

{"详细解析": {
"内容项": {
"解析": "该作文紧扣题目给出的材料范围，以未来智慧芯片的可能出现为引子，提出了人工智能技术深入人类生活的设想。文章思考未来技术和知识的关系，对智慧芯片可能带来的正反两面效应进行了思辨，整体思想健康、感情真实。",
"等级": "二等",
"得分": "15分"
},
"表达项": {
"解析": "文章结构清晰，段落分明，语言通顺，整体文风符合议论文的要求，未见明显语病。但文章在表达上缺乏一些生动性和文采，较为平实。",
"等级": "二等",
"得分": "14分"
},
"发展等级": {
"解析": "文章内容具有一定深度，尤其在探讨智慧芯片带来的负面影响时，体现出了一定的思考维度，但整体来说，创新点较少，文章的例证和论证层次不够丰富，文采表现平平。",
v"等级": "三等",
"得分": "10分"
},
"扣分项和残篇评定": {
"解析": "根据文章的内容，字数符合要求，未见明显的错别字或标点符号错误。有标题且未见其他需要扣分的情况。",
v "扣分": "0分"
}
},
"缺点和改进意见": {
"缺点": "文章在探究技术发展对未来生活所可能带来的变化时，论述较为宽泛，缺乏深入的个案分析和具体的论证。比如在讨论智慧芯片可能导致人类社会静态化时，可以进一步给出具体的社会活动示范分析，以增强文中观点的说服力。另外，文章的语言较为平实，缺乏具有文采的语句和富有创意的表述。",
"改进意见": "可以通过引用一些具体的历史事件或科幻小说中的类似场景，来增强文章论证的深度和广度。同时，尝试运用一些修辞手法，如比喻、拟人等，使文章的表达更加生动有趣。"
},
"最终得分": "39分"}

EB 4.0:

{"详细解析": {"内容项": {"解析": "文章从智慧芯片的正面影响和负面影响两个角度进行了阐述，与作文题目要求相符，内容完整且有一定深度，对问题的思考全面。","等级": "一等","得分": "18分"},"表达项": {"解析": "文章结构清晰，逻辑性强，语言流畅，字迹工整，无明显的语法错误或错别字。","等级": "一等","得分": "18分"},"发展等级": {"解析": "文章对智慧芯片的影响进行了深入的探讨，有自己的见解和思考，显示了一定的创新性和深刻性。","等级": "一等","得分": "18分"},"扣分项和残篇评定": {"解析": "文章未出现明显的错别字、标点符号错误或字数不足等问题，无需扣分。","扣分": "0分"}},"缺点和改进意见": {"缺点": "在对智慧芯片的负面影响进行探讨时，虽然指出了一些问题，但还可以进一步深入，比如更具体地讨论如何避免这些负面影响，或者给出一些具体的例子来支持观点。","改进意见": "在讨论负面影响时，可以加入一些具体的解决方案或例子，使观点更有说服力。"},"最终得分": "54分"}

EB-Speed:

{"详细解析": {"内容项": {"解析": "文章紧扣题目要求，针对智慧芯片这一科技产品展开联想和思考。首先描绘了智慧芯片带来的便利，随后又分析了其可能带来的问题，立意深刻，内容充实。符合文体要求，符合内容等级标准。", "等级": "一等","得分": "18分"}, "表达项": {"解析": "文章结构清晰，语言流畅，字迹工整。首段引入话题，中间分析智慧芯片的优点和缺点，尾段给出自己的建议和看法。符合表达等级标准。", "等级": "一等","得分": "18分"}, "发展等级": {"解析": "文章不仅有对智慧芯片的深刻思考，而且富有创意地提出观点。作者不仅看到了智慧芯片的便利，也看到了其可能带来的问题，体现了作者的创新思维。符合发展等级标准。", "等级": "一等","得分": "18分"},"扣分项和残篇评定": {"解析": "文章没有错别字，标点符号使用正确，字数达到要求，没有扣分项。", "扣分": "0分"}}, "缺点和改进意见": {"缺点": "无", "改进意见": "无"}, "最终得分": "54分"}

全量更新的Speed模型（Epoch=10）:

{"详细解析": {
"内容项": {
"解析": "作文的主题与所给材料相关，围绕智慧芯片的设想和可能带来的影响进行了讨论。文章结构清晰，分为引言、设想、反思和总结四个部分。作者尝试从多个角度考虑问题，提出了智慧芯片可能带来的积极和消极影响，并能联系现实进行联想，体现出了一定的思考深度。",
"等级": "二等",
"得分": "14分"
},
"表达项": {
"解析": "文章整体结构完整，段落之间过渡自然。语言通顺，未出现明显的语病，表达能够较为清晰地表达作者的想法。但在语句的多样性和文采方面略显不足，没有使用较为高级的修辞手法。",
"等级": "二等",
"得分": "13分"
},
"发展等级": {
"解析": "文章在内容上表达了一定的深度，能够引人深思。但在文采和创意方面表现一般，未能展现出特别突出的创意，文章的观点也较为常见，未能充分显示出作者的独到见解。",
"等级": "三等",
"得分": "8分"
},
"扣分项和残篇评定": {
"解析": "文章未出现错别字，标点符号使用正确，字数符合要求，标题设置合理。",
"扣分": "0分"
}
},
"缺点和改进意见": {
"缺点": "文章在表达上虽然通顺，但在语言多样性和文采方面略显不足，缺少一些生动的比喻或形象的描述。在内容上，虽然立意较为明确，但部分观点较为普遍，未能充分展现作者的独到见解。",
"改进意见": "可以尝试使用一些比喻、排比等修辞手法来丰富文章的表达，使文章更加生动形象。在内容上，可以结合更多社会现实和个人经历，提出更加深入和独特的见解，以增加文章的思想深度和创造力。"
},
"最终得分": "35分"
}

（四）上线调用

我们按照最佳实践训练完成后，发布成为我的模型后，最后一步就是将自训的大模型部署为公有云服务正式调用了。

如果您想要快速体验尝试，可以选择按服务调用量收费，模型部署成功后调用才会收费，不调用将不收取费用。如果1⼩时内没有产⽣调⽤，服务将⾃动关闭，如您需要可以重新启动模型服务。

如果您期望将大模型服务上线真实生产环境，您可以选择部署服务，按照资源池时长收费（按天或小时），您可设定在线服务部署的算力单元来保障TPM。

五、最佳实践总结

（一）精调经验总结

按照以上的步骤，就可以完成作文自动点评场景的模型精调，收获一个贴合业务场景的定制模型服务。这里我们再次回顾一些重要经验与方法：

训练数据集：质量远比数量重要，数据应尽可能来自于线上真实业务数据，如果数据不足，可考虑通过大模型生成+人工Review的方式。但要保证与线上实际业务数据分布一致。
评估数据集：既要能反映线上高频使用效果，还要可以评测模型泛化能力。
模型训练：为保障精度，以场景表现好的模型为基础模型，使用SFT-全量更新方法，优先使用平台默认训练参数进行训练。
模型评估：基于明确的评估标准和计分方法，可以有效使用大规模参数的模型进行自动打分进行高效评估。

（二）精调收益总结

1、效果

我们以相同评估集、评估标准，使用人工打分的打分方式测试精调模型和ERNIE 4.0的效果。我们可以惊讶的发现，精调模型效果远优于基础模型Ernie-Speed和ERNIE 4.0的效果。

	与人工打分的平均差	总体质量得分(主观分 1:2:3)
人工Review	-	2.36（11:10:29）
Ernie 4.0	12.37	1.84（15:28:7）
Ernie Speed	12.31	1.64（22:24:4）
Ernie Speed LoRA	5.82	2.12（14:16:20）
Ernie Speed 全量更新(Epoch=3)	6.12	2.42（9:11:30）
Ernie Speed 全量更新(Epoch=10)	5.30	2.60（2:16:32）
Ernie Speed 全量更新(Epoch=20)	4.66	2.48（2:22:26）

2、费用

由于我们选择更高性价比的模型作为基础模型，通过精调使得模型在特定场景如作文自动点评中效果媲美甚至赶超超大规模参数的模型。因此精调模型的部署成本和调用成本都远比超大规模参数模型要低。

例如，本文选择了ERNIE-Speed基础模型，经过调优后按照调用量付费模式，调用价格仅为0.005元/千tokens，ERNIE 4.0直接调用的价格为0.12元/千tokens。因此可看出，经过调优后的推理成本也将能够较大降低。

模型	调用成本
Erine 4.0	0.12元/千tokens
Erinie-Speed-SFT	0.005元/千tokens

如果您并发要求高且长期稳定调用，可选择租赁资源池的方式进行部署。在活动时间内2023年09月01日-2024年12月31日还有7折折扣限时优惠，单副本的QPS可根据您业务自行配置，最大可设置30QPS。

3、时延

基础模型ERNIE-Speed相比超大规模参数模型ERNIE 4.0还有性能的绝佳优势。

从本次最佳实践中随机选取了数据进行性能评测评估，经过精调后的模型首token平均时延仅是ERNIE 4.0的50%，而总平均时延更是不到10%，时延明显精调后模型更优。

模型	首token平均时延(s)	总平均时延(s)
Erinie-Speed-SFT	0.72	1.45
Erine 4.0	1.21	13.66

总结来看，经过数据优化和模型精调，我们得到了一个高质量的作文点评大模型，赶快体验试试吧！

前往调优体验

数据飞轮-「猜你想问」

客服对话多标签生成