作者:张双虎 来源: 中国科学报 发布时间:2021-8-19
选择字号:
概率编程能否扭转算法“痼疾”

麻省理工学院的研究人员开发出一种新的概率编程语言,可以更准确、快速地评估算法的公平性。图片来源:unsplash

 

本报记者 张双虎

“算法”已悄无声息地“占领”了人们的生活。

前段时间,市场监管总局、国家网信办等七部门联合发布《关于落实网络餐饮平台责任切实维护外卖送餐员权益的指导意见》,其中要求,网络餐饮平台不得将“最严算法”作为考核要求,并通过“算法取中”等方式,合理确定订单数量、准时率、在线率等考核要素,适当放宽配送时限。

而在近日,麻省理工学院(MIT)的研究人员开发出一种新的概率编程语言(SPPL)。开发者称,它可以更准确、快速地评估算法的公平性,相关研究已在美国计算机学会编程语言专业组(ACM SIGPLAN)《编程语言设计与实现国际会议论文集》上发表。

概率编程能否维护外卖送餐员权益,能否解决大数据“杀熟”等算法“痼疾”?

概率编程“登场”

麻省理工学院的研究人员发现,司法系统、银行和商家正一步步依赖算法,做出各种影响人们生产、生活的决定。遗憾的是,这些算法有时存在“偏见”。譬如,当有色人种和低收入阶层者申请贷款或找工作时,甚至当法院决定他们在等待审判前该缴纳多少保释金时,都会因算法问题产生不同的结果。

“SPPL针对某些模型进行了优化,因此它能以原来数千倍的速度,提供更公平的解决方案。”该论文第一作者、麻省理工学院电气工程和计算机科学博士Feras Saad说。

这种概率编程是编程语言和人工智能交叉的一个新兴领域,旨在使人工智能系统更容易开发。研究者称,SPPL的工作原理是将概率程序编译成一种称为“和积表达式”的专用数据结构,并进一步使用概率电路实现高效概率逻辑的表达。因此,它为概率推理问题提供了快速、准确的解决方案。例如,对“向40岁以上的人推荐贷款的可能性有多大”这样的问题,SPPL可以对可能的推荐对象收入、信用、工作稳定性等分类方式的概率模型进行编码,从而解决不同肤色及社会经济地位者被推荐贷款的概率差异问题。

“理论分析和大规模实际验证均表明SPPL是实用的。”波士顿学院副教授、甲骨文实验室前科学家Jean Baptiste Tristan说,“由于编程语言的表达能力、精确而简单的语义以及精确符号推理引擎的速度等优势,SPPL在这类具有挑战性的重要问题上,有更高的灵活性和可信度。”

概率编程虽精确但适用范围有限

“MIT开发的这个系统是在既有概率编程模型之上,对计算效率机械能优化的产物。理论上,这类公平问题大部分机器学习方法都是可解的,只不过统筹解决问题的效率偏低。”清华大学软件学院副教授邓仰东告诉《中国科学报》,“相对而言,SPPL可以实现一部分问题的精确验证,从而保障公平性。”

邓仰东解释说,程序的核心要素是“变量”,传统程序中的变量在一定时间点上取一个固定的数值,该数值由计算流程和输入确定,多次执行时,只要输入固定,其中变量取值也是固定的。但在概率编程中,“变量”可以是服从某种概率分布的“概率变量”。当程序执行到某个时间点,即使其他所有条件都一样,概率变量数值也不是固定值,但其取值遵循一定概率分布。例如,人们取一个高斯概率变量,程序“跑”上万次、几十万次后,如果把这个变量的取值画成曲线,就可以看到这些取值会分布在高斯钟形曲线附近。机器学习问题的求解通常体现为对概率分布的操作,概率编程使得人们可以直接对概率分布进行计算,从而简化了程序设计。

机器学习有几大流派,包括符号学派(以符号逻辑为基础)、联结学派(以神经网络为基础)、控制学派(以控制轮为基础)等。目前影响较大的是联结学派,代表性方法是使用深度神经网络进行机器学习,而且其最成功的应用体现在监督式学习任务中。监督式学习需要人先给机器学习样本打标签,而该过程就会掺杂主观因素。比如,判断一个人是否好看,亚洲人、非洲人和欧美人会有不同的标准,这就造成了人工智能的“算法偏见”。

“深度神经网络中,样本的偏见是固有的、无法消除也无法验证的。而MIT的SPPL相对来说验证模型准确,但适用的范围有限。在解决某些概率或机器学习方面的问题上,概率编程确实可以从数学逻辑上验证它是否相对公正。”邓仰东说,“它有利于解决一些能够精确评估概率的公平性问题,例如在金融欺诈预测问题上精确评估数据和模型的准确性,但和我们当前说的‘算法取中’、解决大数据杀熟是两码事。”

算法公平仍需通过监管实现

“算法可以通过获得的数据判断人的身份、消费习惯等,如果商家依据此类信息进行差异化营销,对不同的人推荐不同的产品、不同的方案,甚至对部分人屏蔽一些信息等,就会出现大数据‘杀熟’现象。”中国计算机学会秘书长唐卫清对《中国科学报》说,“我个人理解,技术无法完全解决大数据‘杀熟’的问题,解决这类问题还要靠严格的监管。”

邓仰东同样认为,国内送餐、快递行业目前面临的“严格算法”问题、部分App的大数据“杀熟”问题,“本质上不是技术方面的问题,可能还是管理制度和社会监督方面的问题。”

“快递平台进行‘数据压迫’时,它的数据是准确的,是不带‘偏见’的。”邓仰东说,“送同样的路程,大部分人需要10分钟,但确实有人能够做到3分钟就送达,管理者不能用最快的3分钟要求所有的人,不能使用‘最严算法’。”

邓仰东解释说,比如有20个快递员,其中最快的用3分钟完成,但是所有人完成送件的中间值是10分钟。“算法取中”就是用中间值来要求所有人,它肯定比用“最严算法”要求的3分钟好很多,更公平一些,但事实上还存在一些问题。

“中间值是10分钟完成,就是说有50%的人在10分钟完成,还有另外50%的人10分钟是不能完成的。”邓仰东说,“假如所有的快递员都努力加快速度,都在10分钟之内完成了,那么这个‘中间值’就又变了,这同样会造成要求越来越严格。所以‘算法取中’只是相对好些,并不能解决所有的问题。”

邓仰东认为,解决网络平台对快递员的“数据压榨”及App的大数据“杀熟”等问题,还需要监督和制衡的机制。快递平台也需要有激励和考核办法,如果中间值取得太高,可能会导致整体送餐效率降低,消费者满意度会下降。这实际上是三方的一种博弈,要兼顾消费者、快递员和数据平台的公平和效率问题,需要监督和制衡的机制来解决问题。

8月17日,十三届全国人大常委会第三十次会议在京召开,审议个人信息保护法草案(三次审议稿)(简称草案三审稿),后者对大数据“杀熟”等问题作出规制。

“当前,社会各方面对于用户画像、算法推荐等新技术新应用高度关注,对相关产品和服务中存在的信息骚扰、大数据‘杀熟’等问题反应强烈。”全国人大常委会法工委发言人臧铁伟在日前举行的记者会上表示,个人信息保护法草案立足于维护广大人民群众的网络空间合法权益,对利用个人信息进行自动化决策作出有针对性规范。

草案三审稿规定,利用个人信息进行自动化决策,不得对个人在交易价格等交易条件上实行不合理的差别待遇。同时,充分赋予个人自主选择是否接受自动化决策的权利。

此外,草案三审稿还对大型互联网平台和小型个人信息处理者进行了区分,规定大型互联网平台应当遵循公开、公平、公正的原则,制定有关个人信息保护的平台规则;授权国家网信部门针对小型个人信息处理者制定相关规则。

相关论文信息:https://doi.org/10.1145/3453483.3454078

 

《中国科学报》 (2021-08-19 第3版 信息技术)
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
中国超重元素研究加速器装置刷新纪录 彩色油菜花又添7色!总花色达70种
考研复试,导师心仪这样的学生! 地球刚刚经历最热2月
>>更多
 
一周新闻排行
 
编辑部推荐博文