首页

学科参考

当前位置: 首页 >> 学科参考 >> 正文

林梦泉任超韩菲王宇|“融合评价”理论与方法体系建构研究

发布人：时间：2021-12-07浏览：

摘要

坚决克服“五唯”顽瘴痼疾，扭转不科学评价导向，是当前教育评价改革面临的重要任务。科学把握定量与定性评价，创新评价方法，是推动评价改革落地的“关键一公里”。本文对融合评价的理论和方法进行系统建构，构建了融合评价四分类的体系框架；创立了“融合判定准则”，破解教育评价方法选定难题，同时也为融合评价分类提供方法论依据；最后建立了融合评价实现的“三步法”，并就其落地应用给出实施路径，以期为教育评价建立“新标”，为教育评价改革落地提供有益的借鉴。

关键词

融合评价概念重构；融合评价分类；融合判定准则；融合“三步法”

作者简介

林梦泉，教育部学位与研究生教育发展中心原副主任，研究员；

任超，教育部学位与研究生教育发展中心评估处副处长，副研究员，本文通信作者；

韩菲，教育部学位与研究生教育发展中心评估处处长；

王宇，教育部学位与研究生教育发展中心评估处项目主管。

01融合评价提出的背景

2020年10月，中共中央、国务院颁发了《深化新时代教育评价改革总体方案》（以下简称《总体方案》），这是指导深化新时代教育评价改革的纲领性文件。《总体方案》的出台实施，对于全面贯彻党的教育方针，完善立德树人体制机制，破除“五唯”顽瘴痼疾，引导全党全社会树立科学的教育发展观、人才成长观等都具有重大意义。教育评价改革是一项世界性、历史性、实践性难题，涉及历史文化传统、经济社会发展水平、思想观念等多重因素，涉及不同主体，因此改革之路任重而道远。《总体方案》发布后，相关部门出台一系列规范高等学校科学引文索引（SCI）论文相关指标使用、破“唯论文”等文件，提出改革不科学的评价体系、破“五唯”等一系列的具体改革举措，改进定量指标使用政策、鼓励创新评价方法，促进形成正确的评价“指挥棒”。新政策、新方案、新举措在国内外引起广泛关注和深入研究。围绕落地落实《总体方案》，加强教育评价方法及其应用的研究任务更加迫切、更加艰巨。通过挖掘多年来我国各类评估评审实践“富矿”，从实践中凝练具有中国特色的教育评价理论，本文延续融合评价方法研究，吸纳现有研究成果，分析了过度定量评价产生的不利影响，研究了传统定量和定性评价方法存在的不足，打破评价方法设计的惯性思维，对融合评价理论和方法进行系统建构，建立了融合评价标准和方法体系，探索了一条评价方法改革落地的新途径。

（一）充分认识唯定量评价产生的不良导向

近年来，一些不科学的评价体系排名，进入大众视野，由于其发布的信息不完备等造成信息不对称，在一定程度上对大众造成了误导。将指标有限的排行榜等同于大学、学科整体质量和水平排名，并逐步扩大其影响，形成了不良的教育“指挥棒”，对教育的科学发展产生了不利导向。以“简单化、易获取”为指标特征的一些大学学科排行榜，在一定程度上扮演了唯定量评价的“推手”，唯某些定量指标的教育科研评价影响广泛。缺乏立德树人、人才培养内涵，以SCI数、ESI数、影响因子、部分国际奖项，以及具有算法和数据来源缺陷的论文引用指标等作为主体的定量评价体系，在一定程度上推动了“唯定量”现象的产生，引发了“排行—强化定量—排行—更唯定量”的不良循环，进而形成了不良的教育评价生态。“五唯”现象存在两个突出问题：一是评价理念和政策导向问题，包括评价指标体系的设计理念、引导方向与政策导向不同等，如将学术论文、头衔等作为重要或唯一指标；二是评价方法问题，过于强化定量评价，如教育科研评价主要对SCI数、ESI数、科研经费数等进行直接的计量评价。因此，如何扭转不科学评价导向、解决指挥棒问题，如何尊重教育科技发展规律、科学应用评价方法技术、营造良好的评价生态，是当前教育科技评价改革落地面临的重要挑战。

（二）科学把握评价方法在体系构建中的重要维度

分析“五唯”现象可见，系统性的评价体系设计是破“五唯”等评价改革实施落地的有效途径。一般来讲，评价体系内容与评价方法之间存在密切关系，要坚持统筹和统一，才能保证体系建构的科学性。不同评价方式对接的体系内容、范围、表述规范及评价的基础设施都不同，必须保持二者在理念、形式、结构和内涵上的“默契”。可见，科学的评价方法是构建科学评价体系的重要维度，在评价体系指标设计时，应同时考虑指标设计的导向性要求和评价方法的科学性应用，而不宜按一般时序分步设计。基于评价方法的多样性，评价方法使用本身即蕴含着评价导向，而评价方法采纳和实现作为实施评价最末端最重要的环节，也影响着评价改革和优化的最终落地。因此，在学术研究和实践中，针对如何破“唯”，最终都绕不过评价方法的选择，有关政策解读和专家学者普遍认为“破‘唯论文’不是不要论文”，那么如何进行学理建构、实现以上思想是具有代表性的破“唯”难题，是评价研究与实践面临的共同挑战。不唯定量是不“唯论文”的重要路径，通过同行评议替代定量评价，或简单地将定性与定量相结合，非此即彼，都不能很好地解决问题。在此背景下，在评价体系和评估机制设计中，如何采纳定量评价，如何进行定量定性结合，改进定量和定性评价，如何进行学理建构，创新评价理论方法，是教育评价改革具体实践面临的重要挑战之一，是评价改革落地在学术和应用上需要跨越的“最后一公里”。

（三）客观分析定量定性评价结合的效度

定量评价具有确定性、高分辨性和客观性的特点，而定性评价具有综合性、质性和可控性的特点；定量评价在反映教育本质时过于刚性，也存在局限性，定性评价则具有不确定性和易干扰性。定量定性结合是发挥二者科学属性的主要途径，在理论和实践上均有广泛共识，实现了方法层面的优势互补，我国教育评价改革有关文件也大力倡导二者结合。那么有什么样的结合方式和结合场景？结合程度和效果又如何呢？总结近年学科评估等评价改革创新经验，定量定性在形式和机制上结合一般有两种形式：一是体系内“独立指标间结合”，是指评价体系各末级指标分别独立采用定量或定性评价方法，各自独立形成各指标评价结果，构成体系内两者的结合；二是指标内“观测点结合”，是指一项末级指标（如学术论文评价）从不同侧面观测时，不同观测点采用定量定性不同方法，形成该指标的最终评价结果。例如，由教育部学位中心组织实施的学科评估和专业学位水平评估均采用了指标内“观测点结合”的形式。在第三、四轮学科评估中，“学术论文水平”评价指标，采用“代表性论文”同行评价和“高水平论文”计量评价结合的方式，形成该指标最终评价结果；在专业学位水平评估中，艺术类学生学习成果“艺术创作获奖、展演与发表”评价指标，采用“展演与作品发表”观测点同行评价和“高水平获奖”观测点计量评价结合的方式，形成该指标最终评价结果。独立指标间结合和指标内观测点结合两种层面的结合方式是破“唯”、评价改进的重要途径，两种结合都有利于树立良好的评价导向，更能反映教育发展状态和规律，更能体现评价对象的总体情况，其中“观测点结合”方法对于敏感指标，如“学术论文评价”，具有显性的破“唯”导向和实际效果。两种结合方法在具体实践中也受到了各界肯定，获得了良好的改革效果。

伴随教育科技快速发展，教育评价方法也在不断完善。深入分析定量定性评价方法结合模式发现，由于两种方式的分离，在不同层面单独评价，此模式仍然可以优化和提升。可以看到，无论选择哪种方式，都存在定性评价和定量评价本身的局限性，都不够“完美”。因此，需要探索更加优化的方法，在一项末级指标评价过程中，进行指标内评价方式的融合，相互“借用”彼此优势，克服劣势，形成一项指标的最终评价结论，从理论上建构新的评价体系。

（四）着力重构定量定性相融合的评价方法

评价方法的理论研究是评价改革的重要内容，打破定量定性评价的惯性思维是评价方法创新的重要途径。一般来讲，定量定性评价是教育科技评价的主要方法。定量定性评价概念已深入人心，形成了相对固化的惯性思维方式，主要体现为“非定量即定性”的惯性思维逻辑。据以上分析，一般提到的定量定性结合，是二者分别对指标进行评价，是一种相互独立“并行”的模式。如前所述，两种方法的此类结合具有优势，但也存在各自原有的不足。关于传统的定量评价和定性评价的优势和不足，国内外已有相关的学术研究成果，同时国际学者也就二者结合或融合提出了建议，进行了有益探索。

为打破非此即彼的惯性思维，对定量定性结合到融合模式转变进行学理分析，并对二者进行评价内涵元素的重构，使二者扬长避短，形成新的建构性概念，林梦泉等人提出了“融合评价”构想，主要思路是将二者具有的“优质元素”融合，在融合过程中建构新的、交互式的评价流程，建立新的评价范式。本文重点就融合评价概念进行重构，对融合评价内涵进行深化，提出融合判定准则，研究建立方法体系和实施途径。

02融合评价理论与方法框架

新评价范式的研究基于学理分析和概念建构，以下从概念界定开始，分析融合评价方法研究的逻辑起点、评价方法分类与实施步骤。

（一）融合评价概念

融合评价是将定量评价（主要指计量评价）和定性评价（主要指同行评议）相融合的评价新方法。充分应用数据、证据等计量指标，以及计量评价方法本身的优质元素，重构同行评议过程，支撑、辅助、约束同行评议，形成对评价对象的综合认知，提高同行评议的客观性和科学性。同时，充分利用同行评议的学术性、专业性、综合性等优质元素，重构计量评价过程，融合人的智慧，克服计量评价的局限性，提高计量评价质量。

融合的意义在于，在聚焦一个评价对象时，应用计量评价、同行评议优质元素实现互促与融合，两者的优质元素交替应用，构成综合认知，再形成判定输出。应用定量定性优质元素，在“串行”流程中，建构了两者认知的互促、碰撞与调和的场景，吸纳一方优势克服另一方劣势，克服了两者简单结合存在的各自独立、评价过程分离的不足，达到最佳判定效果。由于“串行”评价流程的可建构性、可设计性，即使在教育科技多样性、多层次的评价对象中，融合评价新范式也具有学理基础。

然而，无论如何融合，必须首先确定评价对象采用定量还是定性评价方法。融合评价基本理念是构建融合评价方法体系的学理依据，也是建立方法实现框架的基础。整个体系框架的逻辑起点是评价对象的定量属性分析。指标属性分析是确定评价方法的基础，而评价对象的定量属性研究是方法判定最简洁的切入点。定量属性突出，便选择计量评价，否则采用同行评议，然后依据定量属性的情况，研究分析如何采用融合评价。依据融合评价理念，下面提出了“融合判定准则”判断定量属性的理论构想，寻求在何种情况下可进行定量和定性评价的可操作性方案。

（二）基于价值导向的“融合判定准则”构建

《总体方案》颁布后，破“五唯”等教育评价改革成为学术界和实践者讨论的热点，焦点之一在于如何依据指标属性更加合理采纳计量评价，确保科学体现评价目标。目前，还鲜见采纳计量评价条件的系统性理论和方法，因此研究计量评价的可行依据非常迫切，这实际上也是评价改革的重要基础。计量评价确定的难题在于，它不是纯粹的技术问题或数据可用性问题，过度聚焦指标的数据来讨论评价方法，必然面临理论和技术的“纠结”。目前我们对评价指挥棒的作用有了新的认知，指挥棒的作用涉及的评价理念和导向不仅仅体现在指标体系上，也体现在评价方法的选择上。本文从四个维度分析指标的计量属性，研究采用计量评价的可行程度，确定指标的评价方式。首先以价值导向为统领进行学理分析，提出可用计量评价的判定逻辑和内涵，以政策导向为前提，以数据质量及其可靠性为重点，考虑评价目标定位和评价对象特征，再进行具体的内容建构。分析认为，可从政策导向性、数据可靠性、评价目标性、对象特征性四个维度来建立“融合判定准则”，判断一个对象可否采用计量评价，不可即采用同行评议。这里用“计量可用度（α）”来表示指标采用计量评价的可行程度。α最小为0，最大为1；当α大于0.5趋近于1时，表示评价方法趋近于传统的计量评价。“融合判定准则”四个维度内涵建构如下。

1.政策导向性（α1）。采用计量评价应符合党的教育方针和政策导向，定量数据本身具有客观性，但要作为评价依据便会产生新的价值，对教育科技形成价值导向。政策导向性的计量可用度用α1表示，当对教育科技发展具有良好导向，与政策导向高度相符时，α1较高，最高值为1。

2.数据可靠性（α2）。数据可靠性是能否采用计量评价的最基本判定条件。数据可靠性主要包含数据的质量、共识性与公平性。数据质量是指数据建立和获取的可靠性，数据代表的重要性、竞争性和水平；数据的共识性是指获得参评者的认可程度；数据的公平性是指数据的形成是公平公正的，参评者在政策上，客观上具有广泛的、同等的机会和权利建立或拥有数据。三者综合，符合定量评价的情况用α2表示，最高值为1。

3.评价目标性（α3）。不同评价目标，如合格性评估、认证性评估、水平评估、成效评价和绩效评价等，对指标的数据表征需求不同。对于水平、成效和绩效评价，可度量的高质量高水平标志性成果更适合计量评价；而对于合格性评估、认证性评估，并不需要强化标志性产出的多少和高低，但可以作为定性评价参考。不同评价方式和目标对计量评价的需求程度不同，对数据情况进行研判，符合计量评价的情况用α3表示，最高值为1。

4.对象特征性（α4）。评价方法的选择还应考虑评价对象的特征和差异。对处于不同教育科技发展阶段的评价对象，如处于发展成熟阶段的机构和发展初期的机构，定量评价的适用性应有所不同；对于不同的评价对象，如个人、学科、大学机构，评价方法也应有差异。根据不同评价对象的特征，对数据情况进行研判，符合定量评价的情况用α4表示，最高值为1。

综上，计量可用度α值是根据上述“融合判定准则”综合判定获得，因此α值可作为选定评价方法的重要依据，α值的使用价值与融合判定准则是否严谨有效有关。为保证α值的实际意义，首先要保证四维标准的含义清晰，其次要为“融合判定准则”确定同一个值（如0.5）作为可以采用计量评价的边界值。一般需组织专家组进行专题研究确定“融合判定准则”的含义和边界值。计量可用度α可定义为α=（α1+α2+α3+α4）/4，也可以设置各项权重r，α=r1*α1+r2*α2+r3*α3+r4*α4。当然，根据不同国家和地区教育政策、大数据发展态势、大学学科发展的不同阶段，以及评价方法本身的发展，“融合判定准则”也会产生变化，可能为“三维度”或“五维度”，等等。

基于价值导向的判定准则，从学理和实践上解决了评价方法选择难题；同时，依据计量可用度α值的大小，可选择融合评价的类型。

（三）融合评价体系建构

计量可用度α实际上包含了四个方面的特征。根据上述计量可用度α的含义，当α的定量属性非常突出或非常不突出时，即融合的优质元素不足时，在判定准则框架下可以采用传统的计量评价和传统的同行评议，其他情况采用融合评价，可称为“融合的计量评价”和“融合的同行评议”。根据α的定义，当α在0.5左右时，说明融合的优质元素突出，可进行融合流程再造的资源比较丰富，融合程度高、效果好，此类情况可定义为“强融合”，其他情况可定义为“弱融合”。这样，融合评价可细分为四类：弱融合计量评价、强融合计量评价、弱融合同行评议、强融合同行评议。依据“融合判定准则”，形成融合评价方法框架（见图1）。

1.传统的计量评价与传统的同行评议

（1）传统的计量评价。当计量可用度α很高（趋近于1），表示数据可靠性高、共识度高、导向性好、获取公平、符合评价目标和对象特征，可直接基于数据形成结论，属于一般意义的、传统的计量评价方法。如第四轮学科评估中“学位论文质量”“专利转化数”等指标，所采用的评价方法即传统的计量评价。有些情况只对定量数据进行归一化、标准化处理，再进行计量评价，也属于这类评价模式。

（2）传统的同行评议。当计量可用度α很低（趋近于0），表示定量数据很少，几乎没可用及可比的数据，各个方面都体现了定性特征，数据信息在同行评价中基本不产生影响，只能通过分析文字材料或零散不可比的少量数据进行同行评议，评价结果完全取决于专家的评判，这些情况下只能采用一般意义的、传统的同行评议，如对学科声誉调查、社会服务贡献案例指标的评价等。

2.融合的计量评价

除传统的计量评价外，同行评议优质元素融入评价过程，最终通过计量评价的方式形成结果的，称为融合的计量评价。在融合评价框架下，根据α值的大小（大于0.5），将融合的计量评价分为两类：强融合计量评价和弱融合计量评价。

（1）强融合计量评价。强融合计量评价是指数据的计量可用度中等，α大于0.5且趋向0.5这一侧。虽然可进行计量评价，但需要发挥同行专家智慧，通过若干形式，在计量评价过程中，结合算法分析，专家对指标数据形成纠正类参数，依据α值的大小对计量算法进行不同程度的重构，直接融入计量评价，再形成最终计量评价结论。

（2）弱融合计量评价。弱融合计量评价是指数据的计量可用度偏高，α大于0.5且趋向1这一侧。需要专家有一定的参与度，对计量评价算法进行一定的规范、调整，增强计量评价的针对性、规范性和可比性。例如，通过同行制定的量表，来规范计量评价；通过专家确定合理的“代表性”数量，基于代表性范围，来进行计量评价等。

弱融合计量评价与强融合计量评价相同的是都重构了计量评价流程，对计量结论产生正面影响；不同的是，弱融合计量评价对结果的影响是间接的，影响程度较弱。例如，代表性评价是评价改革的有效举措，但代表性数量的选择是至关重要的。在评价应用中，代表性数量选择过多，会产生不必要的评价成本；代表性数量选择过少，则不能科学体现评价对象的真实情况，因此，需要通过同行专家结合数据分析，对代表性的计量评价进行规制。

3.融合的同行评议

除传统的同行评议外，数据及计量优质元素融入评价过程，最终通过同行评议的方式形成结果的，称为融合的同行评议。在融合评价方法框架下，根据α值的大小（小于等于0.5），融合的同行评议也可分为两类：强融合同行评议和弱融合同行评议。下面介绍以评价对象的关键数据情况为重点，基于政策和数据情况，选择不同的融合评价强度。

（1）强融合同行评议。强融合同行评议是指数据的计量可用度中等，α小于等于0.5且趋向0 5这一侧。将优质元素具体化，假设指标中至少有一个可比性强、质量高的数据，通过计量综合分析，提供高、中、低等分档等计量分析结果，结合其他优质元素，融入评议过程，辅助、约束和引导同行评议，一般能产生直接影响。

（2）弱融合同行评议。弱融合同行评议是指数据计量可用度较小，α小于0.5且趋向0这一侧。评价对象只有较少的计量优质元素，如具备一些数据，但没有可比性好的数据，计量算法未能提供较好的分析结果，难以采用强融合方法，数据及其相关因素仅能提供给同行评判参考，与强融合的差异在于对同行评议产生影响，但不进行直接约束。

融合的同行评议是学位中心提出的“负责任的同行评议机制”的重要组成部分，是理论和技术层面负责任的重要体现。在评价流程重构中，嵌入体现融合评价思想和算法的评价规则，实现融合评价理念初衷，克服传统方法的不确定性和非学术因素影响，增强同行评价的精准性、客观性和公正性。

（四）融合评价实施步骤

依据以上理论和方法框架，提出融合评价实施“三步法”。

1.确定评价方法

以“融合判定准则”为依据，重点梳理优质元素中的数据集类型，针对单项或多项具体情况预判数据质量，应用“融合判定准则”，逐一分析政策导向性、数据可靠性、评价目标性、对象特征性，综合研判确定指标的计量可用度α的数值范围，确定融合评价类型和方法。当然，以上准则只是一个判定的基本框架和思路，具体问题具体分析，不生成α，直接形成定性的判定结论也是可以的。

2.明确分析维度

融合方法基本确定后，就需要深入分析优质元素，确定具体融合方式，才能做到有效融合，特别是对于强融合的情况。评价对象优质元素的体现形式是存在差异的。对于融合的同行评议，需借用定量数据和计量算法优势作为分析维度，寻找优质元素。对于融合的计量评价，则要分析同行评议优质元素，如分析维度包括人为综合研判能力、人为参与的形式和规范、人为制定形成量表、代表性上限、证据可靠性等定性辅助策略，支持融合评价的流程建构。

3.建立评价工具

建立评价的若干工具构成评价的基础设施，是实现融合评价的重要基础和前提。利用现代网络大数据、AI技术，提供浏览分析、评价系统工具，建立“人机交互逻辑”等工具功能，工具功能遵循技术逻辑，技术逻辑遵循价值导向，实现融合评价遵循的“串行”流程。具体看，除了一般的浏览和评价功能外，基础设施还应嵌入计量算法、同行辅助支持等融合评价流程模块，包含“人机交互”场景，建立正确导向和高效机制，如数据分析结果如何呈现、辅助、影响同行评议等，建构分析维度所提供的信息，实现融合评价目标。融合同行评议一般会涉及以下四种类型的评价工具：一是浏览式工具，直接呈现评价数据或提供定量数据分布区间、极值、平均值等“参考系”，辅助专家评价；二是排序式工具，在一定条件下对计量结果进行排序，呈现出评价对象的相对位置，强化了参评对象的可比性，有效支持、引导同行评议；三是交互式工具，充分发挥同行专家智慧，将浏览或排序工具中融入专家思想，实现定量参数的支持；四是约束式评价，在一定程度上对同行评议进行柔性或刚性的限制，如在一定区间内调整结果等。这些工具的呈现和使用，需要提供系统性、政策性和技术性指引，以便更好实现融合评价思想，提高同行评议效率、分辨率和可信度。

03融合评价在教育评价中的作用

贯彻落实教育评价改革精神，关键是要打通“最后一公里”，即如何科学选择定量定性评价方式，如何把握定量评价范围、程度和具体的标准、方法。理论上，融合评价具有广泛的应用场景，适用于不同的评价对象，包括教育评价的个体、学科、大学、研究单位等。在教育科技评价面临新挑战的背景下，近年来，我国学科评估、专业学位水平评估和中外合作办学评估的实践，都在一定程度上体现了融合评价思想，取得了良好效果，评价方法和结果得到各方肯定。下文选取大学与学科评价的应用场景，以水平、成效类评价为目标定位，以最典型的强融合同行评议和强融合计量评价为例，阐述融合评价构建的方法的具体应用。

（一）强融合同行评议实例分析

学术论文评价改革备受国内外各界关注。在破除“唯论文”背景下，学术论文质量的融合评价具有时代意义。由于缺乏可用指标，大部分大学、学科的排名都将论文数量、引用情况、收录情况等各类参数直接作为计量评价的重要指标，特别是在整个评价体系中学术论文指标占据较大的权重，导致参评方过度关注学术论文发表，加上学术论文参数本身的缺陷，形成了不利的评价导向。为此，有关部委出台了系列文件，要求破除“唯论文”倾向，科学评价学术论文。实际上，问题在于能否继续使用SCI、ESI、CNCI等参数对大学、学科直接进行计量评价。若不能，新的评价指标是什么？分析认为，简单选择传统的计量评价和同行评议都会受到质疑，融合评价是破解难题的重要路径。下面以机构为评价对象，学科整体水平为评价目标，按“三步法”对“强融合同行评议”进行实例分析。

第一步，确定评价方法。基于水平成效类评价的目标定位，以高等教育机构的学术论文质量和学术贡献评价为例，计量可用度分析如下：一是从政策导向性看，不赞同简单用SCI数量或引用情况参数来评价学科一个时期的学术水平和贡献，强化定量评价会产生不利办学导向，不宜直接采用计量评价的政策导向清晰，α1小于0.5。二是从数据可靠性看，间接反映学术论文水平的参数较多且有一定的可比性，计量数据本身具有较好的可靠性；但是，这些计量参数都存在不同程度的缺陷，如ESI在计量刊源分布、引用统计等方面存在一定缺陷，学科间数据质量差异较大，特别是在哲学社会科学领域；SCI在一定程度上体现论文质量，CNCI从一个方面反映论文被引用情况，无法直接反映论文质量，不宜进行传统的计量评价，α2小于0.5，但接近0.5。三是从评价目标性看，之前学术论文计量数据被用来进行大学、学科排名似乎已成共识，然而，客观的计量数据不等于客观的计量评价。对于水平、成效类评价目标定位，论文引用、影响力和期刊属性参数能否体现论文质量、水平和学术贡献，是备受质疑的问题，即使有创新的计量算法，也难以突破其局限。因为，即使计量算法的数据是客观的，将数据作为对大学、学科水平和学术贡献的计量评价是人为认知，不一定是客观的，况且计量数据也并非没有缺陷，这便是要破唯定量的重点所在。因此，将计量数据直接作为办学水平、学术贡献指标需要慎重考虑，α3小于0.5。四是从对象特征性看，假设评价对象为大学或学科，学术论文发表总体情况一定程度上能反映大学、学科类机构的学术研究总体情况，但直接定量评价存在“标准定量化、结果功利化”倾向，即使对于机构类对象，也会产生不利导向，α4小于0.5。综上，对“融合判定准则”多项分析结论为不宜进行直接计量评价，即计量可用度α小于0.5，但接近0.5，故可采用基于定量数据证据的强融合同行评议，此结论也符合评估项目调研中普遍认可的观点。

第二步，明确分析维度。依据强融合同行评议的方法框架，尽可能挖掘优质元素，分析可用的数据维度，支撑融合评价。一是研究确定以适当数量的代表性论文替代学术论文的整体，既不导向“唯数量”，又减少参评方的负担和评价方的评价成本。提取的代表性论文也不宜直接计量评价，即不以若干“代表作”单篇计量数据累加作为大学、学科学术水平的依据；二是提取对象的要素，即可以由数据提供者汇聚代表性论文的原创性、前沿学术成果和学术贡献，以便对发表的论文的学术贡献进行学术评价，克服参数的计量评价无法完全体现学术贡献的缺陷；三是挖掘代表性论文的计量参数，包括“代表作”的多元引用情况、发表期刊级别、权威认可等优质元素，为强融合的同行评议提供依据。

第三步，建立评价工具。对于具有丰富数据的评价对象，提供现代技术基础设施是实现创新评价理念的重要支撑，理念和技术统一，才能使学术论文评价改革落地。评价工具的主要设计方法，是要根据评价价值导向和融合评价流程，合理提供数据分析结果，既满足破“五唯”等政策导向，又发挥数据的客观性作用；合理确定数据分析结果与评价的关系，辅助、约束同行评议。根据以上原则形成《同行评议标准指南》，可作为“理技统一”的桥梁和专家评价依据。在学术论文质量评价中，除一般的浏览式工具外，还可建立以下工具：一是对比工具，直接呈现能体现学术论文影响力的指数，如CNCI或FWCI等，同时呈现相关的统计值供评价参考；二是交互工具，为专家提供交互功能，如自定义设置“高水平期刊”并自动统计发文情况，自主选择多种论文引用等参数供评价参考；三是约束工具，如根据综合引用指数建立专家评价结果“区间”，建议专家在区间内调整评价结果；区间设定可以为柔性或刚性，柔性形式工具只进行提示提醒，不做刚性限制。

（二）强融合计量评价实例分析

国家级竞争性科研项目是体现大学、学科科研积累和能力，体现阶段性科研水平的重要指标之一，但仅依据项目类型、合同经费等定量数据直接判定科研水平是不科学的方法。因此学科的科研项目评价面临两大挑战：一是基于水平成效类目标定位，科研项目的评价标准是什么？二是如何判定科研项目的学科属性？下面以当前政策为背景，按“三步法”对强融合计量评价进行实例分析。

第一步，确定评价方法。基于水平成效类评价的目标定位，对国家级科研项目的基本情况进行计量可用度分析：一是从政策导向性看，考虑到国家级科研项目聚焦国家社会经济发展需求，通过国家有关部门严格程序统一评审，项目内容和数据具有公正性和权威性，体现获得者科研水平和质量，因此政策导向良好，α1大于0.5；二是从数据可靠性看，该对象定量参数丰富，同上分析可见数据有据可追溯、质量较高，相同学科数据的可比性较好；但科研项目的学科属性宽泛，需要制定判定规则作为计量统计的前提，α2大于0.5；三是从评价目标性看，竞争性的国家级科研项目本身体现了参与者的能力积累、研究水平和成果，在一个侧面体现了水平和成效，符合水平成效的目标定位，α3大于0.5；四是从对象特征性上看，假设以大学或学科为评价对象，由于国家级科研具有一定的规模，获取项目的机会公平，项目计量数据可在一定程度反映实际情况，α4大于0.5。综上，该指标计量可用度α应该略大于0.5，可进行计量评价。考虑到以学科为评价对象时，由于数据存在交叉学科的可能性，可采用专家参与对数据的学科属性进行判定等举措，再进行计量评价，即强融合的计量评价。

第二步，明确分析维度。融合的计量评价关键在于确定辅助计量评价的优质元素，对同行参与的维度进行分析，发挥同行专家智慧。这里有两个分析维度：一是对评价指标征求专家意见进行分类，形成分类的可用于计量统计的系数；二是多渠道多方式进行数据的学科属性研判，形成属性因子，可通过人为认领、同行审验、算法分析等，形成综合的数据学科属性因子，用于重构计量流程，辅助计量评价。

第三步，建立评价工具。建立工具实现以上分析维度涉及的融合算法：一是学科属性审计，实现对指标数据进行“人机交互”的基本学科属性审计；二是学科属性算法，依托学科属性分析算法对科研项目的相关信息进行分析，形成学科属性的预判因子；三是专家综合研判，根据需要可建立专门模块，通过专家对审计情况和文本分析的预判因子，形成学科属性综合因子；四是计量评价算法实现，综合因子作为影响计量评价结果的重要参数，融入计量评价，最终按预定计量算法实现评价目标。

04总结

综上，本文分析了融合评价提出的时代背景、研究的迫切性和现实意义，对提出的融合评价理论内涵进行了更加全面、深入的学理研究。文章基于评价的问题导向，特别是从计量评价的优势和不足出发，基于问题逻辑和学术逻辑论证了融合评价对于教育评价改革落地是必要的。依据定量定性本质内涵，基于“串行”建构思维重构融合评价概念，首次提出的基于四性“融合判定准则”建立的具有实际意义的“计量评价可用度α”算法，作为评价方法选择依据是可行的，该方法破解了计量评价、同行评议方法选择的难题。“计量评价可用度”的提出是遵循教育评价改革精神和评价实践“最后一公里”的逻辑起点，是融合评价方法创新的基础。当然，“融合判定准则”只是提供了一种评价方法选择的思想，并不意味其条件是固化标准，具体场景可具体调整；从质性分析到量化呈现，也只是一条方法路径，无量化呈现的灵活应用也是可能的。以融合评价概念为学理框架，以构建的准则为依据，建立四分类融合评价方法，遵循了评价方法论内在规律，是融合评价核心成果，是破除“五唯”“立新标”的初步尝试。“三步法”为四类融合评价方法的实现提供了具体可操作性路径，特别是提出的评价基础设施思想，在评价理念中蕴含先进的技术基因，现代多样化的先进技术工具为突破评价改革瓶颈、创立评价新范式提供了强有力的支撑。

从融合评价新概念建构，到“融合判定准则”、四种融合分类方法，以及强调评价基础设施的“三步法”，构成了融合评价的方法体系。该方法体系不仅可应用于教育评价领域，适当调整其内涵，对于科技等其他各类评价也有应用前景。希望能为破除“五唯”、推进教育、科技评价改革落地提供有益借鉴。

上一条：蔡三发沈其娟靳霄琪 | 一流学科发展的三维评价模型及建设策略分析
下一条：刘小强 | 论交叉学科组织建制的悖论和建设策略

林梦泉 任超 韩菲 王宇|“融合评价”理论与方法体系建构研究

林梦泉任超韩菲王宇|“融合评价”理论与方法体系建构研究