财政部唯一指定政府采购信息网络发布媒体 国家级政府采购专业网站

服务热线:400-810-1996

当前位置:首页 » 理论实务

政府采购评审专家评分异常的判定和管理

2021年11月30日 09:53 来源:中国政府采购报打印

   ■ 汤骏
在政府采购中,专家评审环节是实现公平、公开、公正“三公”原则的重要环节之一,评审结论通常决定了中标供应商花落谁家。专家评审制度是我国政府采购法律、法规体系中一项重要的制度设计,《中华人民共和国政府采购法》赋予了评审专家对投标文件的评审权和中标供应商的推荐权,专家的评审水平影响着政府采购综合效益的发挥。然而,长期以来屡屡出现的评分异常现象成为困扰政府采购监管部门的一大难题,同时,还易引发供应商的质疑、投诉以及采购人对采购结果的不满意。
当前,越来越多的呼声要求对政府采购评审专家的评分异常情况进行科学地评估和有效地监督管理。
评分异常的界定及原因分析
关于评审专家异常评分的定义,无论在理论界还是在政府采购行业内至今没有形成统一的意见。我国政府采购法律、法规体系中关于评分异常也没有明确阐述。在《中华人民共和国政府采购法实施条例》《政府采购货物和服务招标投标管理办法》等文件中涉及“倾向性言论”“评分畸高、畸低”等少量表述,仅局限在一些原则性的规定上。
笔者理解,所谓评分异常的本质,无外乎是“异于常规”或“异于常人”,即评审专家凭借个人喜好,随意给出不符合普遍认知或有悖于常理的得分。《政府采购评审专家管理办法》中就评审原则有专门要求,即科学、公正、不受任何干扰,独立负责。换言之,凡是违反上述规定的,都可以视为评分异常。
导致评委评分异常的原因大致可以分为主观因素和客观因素两类。
主观因素是指评审专家个人意志或主观判断等因素。例如:有的专家受利益驱使给特定关系人打出“关系分”;有的专家因为身份多重(比如同时作为供应商代表或者采购单位代表),考虑到业务发展需要而为“朋友圈”相互关照打出“人情分”;有的专家受到其他专家的影响或者诱导,不问青红皂白乱打“糊涂分”。总之,不管是主动还是被动,不论是有意为之还是无心之失,都是评审专家的思想观念、道德水平和职业素养出了问题。
客观因素是指非评审专家个人因素导致异常评分的其他因素。例如:在评审专家的入库遴选过程中专业分类不科学、不精细或者审核标准不明确,导致专家“混岗使用”,因能力欠缺而无法科学地评分;政府采购评审专家库人员数量不足,专家易被围猎、被腐蚀,难以公正评分;部分采购项目供应商过多,评审工作量过大,专家在短时间内无法完成超额的评审任务,不得不采取敷衍塞责的态度完成评标任务;一些地方的专家对法律法规、专业技能、廉洁自律教育等长期漠视,动态考核管理机制尚未建立等,这都给评分异常现象的出现埋下了隐患。
评分异常的判定方法
评分异常是对投标文件中的主观性评审内容而言,因为客观性评审内容(比如供应商的资质、项目负责人的执业资格、职称专业核定等)实际上不应当存在偏差,所有评审专家的结论应当一致。
对于政府采购主观内容的评审是允许存在个体评审差异的,这种差异在合理范围(区间)之内,被看作为“偏差”。当然不能简单地将“偏差”与“异常”混为一谈。关于异常评分的判定标准,一直以来众口不一,尤其是要从定量的角度去刻画难度更大,但可以明确的是,偏差达到极限就是异常。尽管不同的偏差类型判断的标准有所不同,但超出合理偏差范围的评分就是异常评分。因此,要结合偏差的类型具体分析并建立合理的偏差模型。
评分偏差类型可以分为两类,一类是横向偏差,另一类是纵向偏差。
所谓横向偏差,主要是指专家个人与同时参与同一个项目评审的其他专家相比,评分出现偏离,也就是“自己和别人比”有偏差,这种偏差容易甄别。中南大学的唐光杰在《科技评审中评分偏差模型的研究与应用》一文中提出,此种偏差可采用基于统计、距离、密度的异常检测方法;河南大学的焦易于等人在《基于异常评分行为分析的虚假评论商品识别方法》一文中则提出,此种偏差可采用正态分布拟合和时序数据突变点的检测方法。不管采用何种方法,只要构建相对科学、合理的数理模型,都可以比较直接地检测出专家的评分偏离,有没有接近或超过极限值,从而判定其是否为异常评分。
横向偏差大致可细分为四种情况。第一,个性偏差。例如,不以招标文件规定的评标办法为依据,而是根据个人喜好随意给出评标结论。这类偏差有的出于有意(受利益驱使),有的出于无意(工作态度敷衍塞责)。总之,这类偏差属于纯粹的主观臆断,是主观恶意最大的偏差。第二,学识偏差。因评审专家的专业技术水平或者实践经验达不到评标所需的标准而出现的非主观层面的偏差。例如,待评审项目的专业要求与专家自身从事或者熟悉的专业大相径庭,甚至有些专家完全不了解所评项目的专业特点,这属于专家能力不足导致的一种偏差类型。第三,认知偏差。认知偏差是专家基于自身的认知程度,对同一份投标文件的同一个评分项存在不同理解的情形,这也会导致评标结论存在较大差异。例如,对于“最近三年来无重大质量安全事故”的时限起算点的争议,专家A认为,应从行为发生之日起算。专家B则认为,应从认定存在重大质量安全问题法律文书的生效之日起计算。导致这类偏差产生的原因主要是招标文件的评标标准设计不严谨,使专家在评审过程中产生理解上的分歧、认识上的偏差。第四,随机偏差。随机偏差是专家出于非主观原因导致的一种无意识的偶然偏差。例如,对于夜间施工噪声,两个投标文件提供了不同的控制方案,一种安装了声屏障,另一种则砌筑了降噪棚,但是两者都将噪声控制在招标文件规定的55分贝之内。专家出于无心过失给出了不同的分值。
横向偏差判定(Determination of lateral deviation,LAD)。在横向偏差判定时应关注两个指标:一是在同一项目中,对同一投标单位所有评标专家评分的平均值与各个专家评分对平均值的偏离程度;二是在同一项目中,以单个评标专家为对象分别计算其对所有投标单位打分的平均值偏离程度。至于偏离的置信区间可预先设定一个区域(如±10%—20%),根据评标项目不同属性分别设置。如勘察设计、监理等技术服务类项目主观评审因素影响较大的,可以适当放宽区域上下限。
通常,设定专家评审得分为Pi,对于同一个投标单位的其他专家的评审平均分为P,预设的横向偏离区间为Δ,则合理横向偏离幅度应当满足公式①。
所谓纵向偏差主要是专家个人在评审类似项目时出现的评分偏离,也就是专家“自己和自己比”有偏差。这种偏差类型目前国内研究者尚无人关注也未有人提及,但其实是十分关键的偏差来源之一。其理论依据是,在评审过程中,如果有两个项目供应商提交的投标文件在资格条件、响应程度、履约能力等各方面都高度一致(或相同),同一个专家对于这两个项目应该给出相近或者相同的评分。否则,就存在偏差倾向。当然,这两个项目可能不在同一时期出现,因此甄别起来就比较困难,没有数据库的积累和大数据分析工具的支持,很难捕捉到其中的差别,而这点正是大多数人容易忽略的情形,有时甚至连专家本人都无法解释为何出现评分偏差。
纵向偏差判定(Determination of longitudinal deviation,LOD)。专家的纵向偏差判定比较困难,因为需要有足够的样本和大数据工具的支持。从相对简化角度来看,可按照以下步骤处理:首先,要判断待评审项目与以往已评审过的历史项目,在项目特征、采购需求和投标供应商的响应程度方面是否高度相似;其次,要分析待评审的投标供应商与以往投标项目过程的基本情况有无明显变化(如资质、资格、产品规模等);再其次,选择同一个供应商时在时间跨度上不宜太大,否则会受政策环境、评标标准变化等因素影响;最后,满足前三个基本条件的,可以对专家的评分进行纵向抽样比较。如发现专家对同一个企业的评分存在明显偏离的,就有理由怀疑其存在异常评分行为。
设专家本次评分结果为Qi,历史上专家对于该企业的评分为Q,预设的纵向偏离区间为▽,则合理纵向偏离幅度应当满足公式②。
评审时长判定(Determination of bid evaluation duration,EVD)是横向偏差判定和纵向偏差判定以外的一个重要且简捷有效的补充判定方法。理论依据简单,即没有足够的评审时长保障,专家不可能作出合理的评审结论。由于我国的政府采购一般都是通过计算机评审系统对电子投标文件进行评审,因此,专家在浏览电子文档的驻留时间很容易被计算机自动记录下来(一般利用Ajax轮询技术就可调用专家浏览投标文件的后台日志),如此容易判断专家能否给出公正的评审结论。这个时间维度的指标可以从多个角度来定义或者计算,比如,可以计算单页驻留时长、全文本页面平均驻留时长、页面停留极端时长(即单页最长或者最短驻留时长)等。
当然要构建合理的标书文件驻留时长模型不易,因为时长模型涉及的参数众多,要充分考虑投标文件字体的大小、文字内容的难易程度、信息密集程度,以及专家的阅读习惯、专业水平等。有时为了方便起见,也可以采用纵横比较的方法来作一些粗略的判断,比如评标时长不到其他专家平均时长的1/5,那就需要重点关注该评委有没有存在草率评标的情形。另外,专家对于不同的投标文件存在明显的浏览时间差异也是一个应当引起重视的现象,因为,很难想象,专家对于不同的投标文件在严重不对等的时长分配下能给出令人信服的结论。
异常评分判定公式
政府采购评审中,应当分别运用以上三种判定方式,最终分析得出专家的评分是否属于异常评分情形。当然也可以对以上三种方式进行权重分配后给出一个综合评价数值。
设横向偏差、纵向偏差和时长偏差合理评分置信区间分别为[LADmin,LADmax]、[LODmin,LODmax]、[EVDmin,EVDmax],评审专家的横向、纵向、时长评分分别为LAD、LOD、EVD,综合评价数值公式如③,且同时满足公式②时,可判定为异常评分。
有时也可事先设定一个综合置信区间,即假定综合合理评分置信区间(Comprehensive confidence interval,CCI)为[CCImin,CCImax],对横向、纵向和时长偏差根据对异常评分的可能影响程度分别进行权重分配,设权重系数分别是α、β、γ,则判定公式可更改为公式④。
从异常评分判定的科学性、全面性而言,公式③更加客观、公正,但是计算量较大;公式④相对比较简便,但是易造成误判。需要政府采购管理部门在积累大样本数据的基础上适时调校置信区间参数。
如图是江苏省南通市政府采购评审专家的一份异常评分检测报告。从图上的分析结论来看,张姓评委在横向偏离、纵向偏离都超过了预设的阈值(极限值),尤其是时长偏差明显有悖于常理。因为其在单页的平均浏览时间只有4秒,47份投标文件、4000多页的文本在短短67分钟内就评审完毕,显然是不符合评审规律的(甚至可以得出部分投标文件根本没有浏览的结论),因此判定其存在异常评分证据确凿无疑。
异常评分的修正
从现行的政府采购法律体系看,即便能够科学、公正地甄别出专家的异常评分也很难直接予以修正。首先,国家层面对异常评分还没有明确的界定标准或处置方法。财政部虽然在《关于进一步规范政府采购评审工作有关问题的通知》中指出,采购人、采购代理机构……要对评审数据进行校对、核对,对畸高、畸低的重大差异评分可以提示评审委员会复核或书面说明理由,但没有允许直接修正评分。其次,多数评审专家对于自己的评分出现偏差也难以接受,更不会主动提出修改评审结论。最后,评分修正关系企业切身利益,决定了中标供应商资格的归属,无论是采购人还是行业监督部门都不得不采取小心谨慎的态度,在没有充分依据的情况下不会主动启动评分修正程序。
基于上述原因,目前比较合适的做法是,把专家的异常评分与日常考核联动起来,对于长期出现异常评分情况的专家,及时指出问题所在,加强监督教育管理,拒不改正的,坚决暂停其评审资格或者清理出库。有条件的地区,可以在积累一定样本数量的基础上,通过大数据分析方法,研究哪些领域、哪些行业、哪种评标方法容易引发异常评分偏差,定量分析专家的评审质量波动幅度和趋势,从而为政府采购行业主管部门制定标后评估管理办法提供科学的依据。
评审专家的异常评分在政府采购行业内饱受诟病,它破坏了公平公正的市场秩序,违反了优质优价的评审原则。要从根本上破解这个难题,需要从管理、技术和政策三个方面同时施策。
基于管理层面,异常评分的一个根本原因是评审专家拥有过大的自由裁量权,评分空间弹性太大,专家不恰当地行使过大的自主权很容易导致评分偏离正常的轨道。因此,要在评标办法的制度设计上压缩自由评审的幅度和范围。财政部在《关于进一步加强政府采购需求和履约验收管理的指导意见》中明确指出,采购文件设定的评审因素要与采购需求对应,采购需求相关指标有区间规定的,评审因素应当量化到相应区间。另外,在评标方法的选择上,要结合采购项目特点和实际需要选择恰当的评标方法。对于采用通用技术、成熟工艺的常规采购项目,宜采用价格单因素(包括经评审的最低评标价法)等客观因素主导的评标方法,不宜选用过度依赖评委主观评判的综合评分法,这样从根源上就铲除了可能滋生异常评分的不利因素。
基于技术层面,随着信息化技术的进步,利用人工智能来辅助评审是解决专家评分异常的有效工具。目前,一些地方已经开始尝试此做法,例如,中山大学研发出了一种快速采购系统,首次将人工智能AI与数据技术应用于招投标和评标等采购过程中。智能评审的基本思路是将采购文件进行结构化拆解、抽取评分点信息、调用评审样本数据库,再借助半监督机器学习算法,以知识图谱技术为补充,实现对投标文件的智能评审。这样的评审结论基本上可摆脱人为的主观判断,结果的均衡性、稳定性显然大大优于人为操作。
基于政策层面,如果能在科学论证的基础上,适度赋予采购人在异常评分识别机制下可以自主修正评审结果的权利,则能一定程度上减小异常评分带来的危害。
(作者单位:江苏省南通市政府采购中心)
编后
政府采购中,无论是出于有意还是无意,评审专家主观倾向性异常打分是直接影响政府采购评审公正的主要因素之一。目前,由于缺乏明确的依据和判断标准,政府采购监管部门很难进行科学治理。而本文作者从产生异常评分的背景和因素出发,提出了判定异常评分的识别方法,并就如何有效预防异常评分提出相关建议。
构建公平、健康、有序的市场环境,是政府采购的必然要求。我们相信,随着政府采购制度的不断完善以及科学技术的蓬勃发展,未来,政府采购领域对评审专家的异常评分可以有效地识别、分析、判定和管理。