亿信华辰刘勤波博士:基于博弈论数据资产的价值评估

1474
0

小亿 管理员

发表于2021-9-25 15:26

楼主
9月25日,由亿信华辰主办、DAMA中国协办的2021第三届数据治理峰会在上海盛大举行。筹备了4个多月的数据治理峰会获得了众多企业CIO、CDO等高管的关注,参会人员达到500余人。12场行业高端主题演讲分享,场外产品体验区火爆程度再翻倍。大会专题

亿信华辰研究院AI实验室主任刘勤波博士出席本次大会,并发表《基于博弈论数据资产的价值评估》主题演讲。刘勤波先生是美国密歇根州立大学数学博士、华中科技大学博士后,十多年致力于计算数学领域技术研究,包括数理统计、Hankel矩阵、泛函分析、算子理论、机器学习、回归建模与分析、商业数据挖掘、运筹优化等研究方向。以下为演讲实录:


1.jpg


  尊敬的各位来宾,大家下午好!我是亿信华辰研究院AI实验室的刘勤波,今天由我给大家进行一些我们在数据治理研究领域取得进展的分享。
    本次分享主题是《基于博弈论数据资产的价值评估》。刚刚主持人介绍了我,我主要介绍一下我的导师。Peller是一名俄罗斯籍数学家,我2010年去美国读博士,他当时解决了一个40年没有解决的数学问题,被他鼓舞,我选择跟他读博士,他丢给我一个更难的世界级数学难题。几年之后,虽然我毕业了,但是我还没有完全解决这个数学问题,取得了一些突破性的进展。利用Hankel矩阵、多重算子积分、算子扰动等理论,第一次考虑并给出了任意连续模函数空间的算子扰动下的奇异值的最佳估计。   
    接下来我们回顾一下数据资产价值评估的背景和意义。数据经济在最近高速发展企业数据的要素也进入了数据资产化的阶段,与此同时,业界和学术界都尚未形成比较成熟的数据资产估值方法,对数据资产进行价值评估的意义非常巨大,我们归纳了几点如下:
    第一,对数字资产进行价值评估,可以促进数据成为企业的战略资产,可以帮助管理者更好的创建企业的愿景,既能看得远,同时也能看得准。
    第二,对数字资产进行价值评估,能够提高企业的运营效率,从而实现更高的投入产出比。
    第三,对数字资产进行价值评估的研究,有助于形成一套一致的数据价值指标体系,能够帮助降低不良及非法信息暴露的风险,还可以帮助完善数据资产的市场交易体制,把这个市场做得更好。
    第四,数据资产的价值评估可以为大数据、人工智能的服务采购、成本分摊、收益分配提供可靠的价值已故。
    接下来我简要介绍一下由中国资产协会2019年在《资产评估专家指引第9号数据资产评估》当中提到的三类基本方法:成本法、收益法、市场法。专家给出三个参考公式供成本法使用,我们可以看到,第一个公式和第二个公式,主要是在第二个公式当中加贬值的属性,拆分为两个部分。针对数据资产,主要考虑时效性降低造成的经济性贬值,如果继续考虑数据资产投资的成本回报率以及数据效用,我们可以考虑第三类计算。
    运用成本法进行数据资产价值评估的时候,有一些需要注意的点,我们需要充分考虑数据资产的价值和成本之间的相关程度,在这一点上,不同的行业都不太一样,比较缺乏行业通识和管理。数据资产的价值可能随着数据不断的采集或者购买,能够进一步的提升,我们在使用成本法中可能会低估数据资产未来的价值。
    最后部分的数据资产,比如我们在搜索引擎当中用户留下的信息进行搜集的时候,这样一部分数据资产没有对应的直接成本,其相关的间接成本主要有网站建设成本、搜索引擎市场推广费用、运营费用等,这些间接成本之间的分摊比例也是比较难以确定的。
    专家推荐的第二类方法就是基于收益的方法,我们可以看到这里有一个N,N表示的是数据资产的经济寿命期,T从1到7就是指第T个收益期,FT就是指第T个收益期的收益额,这个比较好理解。用收益法的重点在于对数据资产应用的价值和变现能力进行预测,我们知道这个世界上最难的事情就是预测,不同应用场景下,同一个数据资产可贡献的收益额不同。   
    第三类方法,使用市场的办法。数据资产的评估主要由可类比的数据资产的价值以及一些修正系数,这些修正系数主要关于技术、价值密度、时间容量等。运用市场法的限制也是比较明显的,我们需要有一个公开、活跃、成熟的数据资产交易市场,同时它要更适用于数据需求量大,数据类型比较多以及数据交易比较频繁的资产。
    通过上面的介绍,我们对数据资产的价值评估有了一定的基本了解。接下来我们进行更深入一点的思考。数据资产贡献的价值,如果我们在内部来看,它的分布往往是不均衡的,不同的生产应用中数据集也是以不同群体的方式提供服务,我们如何能够合理、公平、理性评估数据整体、数据全体、数据个体的价值?我们在研究当中吸收采纳了以收益分配为视角,对数据资产价值进行计量分析的办法。
    我们可以看一下右边这张图,将数据资产的价值分为两大类:当前的价值、未来的价值。这两大类里面又分为数据整体价值以及群体价值和数据的个体价值。对未来的价值主要是需要用一个预测的模型,我们可以考虑时间模型或者时间序列的办法或者其他方法,我们在研究中考虑使用合作博弈中的沙普利值,理论保证评估更加公平、理性,满足高效执行的要求,并且具有去中心化的特点。
    为了便于阐述,我们选取如下的场景。右边这张图,红色就是数据采购商,也就是智能服务提供商。服务商从数据提供者购买收集模型数据进行训练,对外提供智能服务。智能服务的消费者需要支付一定的服务订购费用,这个地方用Pb表示。数据采购的时候也需要支付一定的采购费用,这里我们用Ps表示数据的单价。
    我们提出如下三个研究目标,针对服务商,主要讨论两个问题:
    第一,如何评估每一个数据或者数据集对于模型服务的贡献值?
    第二,如何确定采购的数据量以及服务订购费用实现利润最大化?
    针对数据市场,我们研究如何对数据进行定价,实现利润的最大化?
    第一个问题,需要我们对合作博弈当中的沙普利值理论做一点点简要的介绍,我尽量比较通俗的给大家讲解里面用到的数学符号,大家不用感到特别慌。
    我们有编号1到2到N的集合。我们用大写的N表示,如果我们从N个参与者当中选择一部分,它可能是随机的,叫做联盟,这个联盟是,这个联盟通过合作的方式获得一定的收益,这个收益计作V,因为它是与S相关,我们叫做VS。将VN合在一起称为联盟博弈,V叫做它的收益函数或者是特征函数。
    什么是分配?分配就是泛1(音)到泛2到泛N的构成,可以是正,可以是负,也可以是零。泛1就是第一个参与者所得到的收入分配。什么样的分配叫做有效或者合理性?所有参与者得到的收益分配之和等于这个集体所产生的收益,因为我们最终使用的还是集体一起合作产生的收益。真正的参与者I,它获得的收益分配就是泛I,如果他一个看干这个活,他创造收益就是V(I),如果对于I来说,它获得的收益大于等于他个人的贡献,针对他自己就是个性理性分配。我们很难要求这样一个分配对所有个体都是合理的,都是理性的,因为这样的话就不够用了。
    除了要求整体理性,我们还可以提出如下三个公理:
    第一,对称公理。如果我们有两个参与者,让这两个参与者进行如下比较,任意取联盟S,让他们分别和S进行合作。如果这两个人在这个集体当中产生的贡献永远都是一样的,那就说明实在没有办法区分这两个参与者,我们要给这两个人,两个参与者分配同样的收益,这个很公平,很合理。
    第二,虚设人公理,这个人形同虚设,我们有这样一个判断准则,你让参与人I和另外任何一个联盟或者其他集体一起合作,有他没他所产生的收益都是一样的,自然而然这个人就是形同虚设的。我们做AI模型的时候,其实很容易出现这种情况。所以虚设人公理会要求给这样一个虚设人分配的收益是零。
    第三,可加性公理,去中心化。如果我们有参与者集合1到N,他们参与多项任务,希望给他们最后的收益是在不同任务当中所分配的收益之合,也就是说这个收益分配是线性可加的,没有一定要以谁为中心。可能一个人在这个地方没有发挥价值,换一个地方发挥价值。
    刚刚说的几个假设,都是可以唯一确定而且有共识计算,这样一个优美的理论会获得诺贝尔经济学奖。
    如果我们将一条数据比作这里面的一个博弈参与者,我们去考察数据资产每一条数据所贡献的价值,这个模型就比较有用。同时,我们也可以考虑以数据集的形式,而不是单纯的数据,数据集与数据集之间通过合作,让我们的服务,让我们的模型达到更好的效用。
    如果我们使用沙普利值理论,可以得到一个公平、理性、去中心化的评估准则。同时,这样一个方法,随着N的增加,我们不可避免的需要考虑它的计算复杂度,精确的求解,这个复杂度是N的指数级。如果我们回到上一页,可以看到这个共识里面有N的阶层,是不是N的阶层才是它的算法复杂度?不是的,这里面考虑的是排列,我们最后用的是组合,所以这个算法复杂度如果精确的求解,N的指数级其实也不太适用。可能我们就需要做一定的估计,在误差比较小的情况下,我们做一些估计,可以有效的降低算法的时间复杂度。
    比如说我们用蒙特卡洛仿真法,降低N的平方,乘上LogN,其实也是代价很高。最近还有一些研究,表明使用Grouping  Test的方法,我们可以把方向从N的地方挪到对数的地方去。近似得到一个线性的方法,这样他的使用性就得到比较好的提高。
    我们可以用数据集替换数据,进行数据集的评估,得到一个数据集价值或者效用,关于数据集大小的函数,我们以前怎么做的?可能大家没有做过。如果我们以前做一个AI模型,我们可能就是看一些特征的分布,通过特征的分布得到数据集的大小,不同数据量级对模型的影响,我们知道,越多的数据是越好的模型。但是我们也知道,Garbage in,Garbage out。这个地方,我们如果使用合作博弈的理论,可以得到另外一个分布,是一个价值分布,不再是使用那种特征分布获取数据集大小,我们用价值分布指导,可以得到数据集,关于数据集大小更好的函数估计。
    有了这样一个数据集的价值,关于数据集大小的函数,我们可以考虑第二个问题。
    第一,N就是数据集的大小,我们对它进行归一化之后,来分析第二个问题,第二个问题就是确定最佳的数据采购量以及订购费用,实现服务商的利润最大化,这样一个数据效用函数可以近似看作一个单调递增的凹函数,后面我们要进行微分求导,所以我们前面需要做方法的拟合。我们使用了分数函数和负指数函数这两个类型,分别有两个拟合参数,α和β,拟合的时候,我们需要一个最小化函数模型,和它的误差有关,这个地方,我们只要知道有这样一个过程就可以。
    得到了这样一个效用函数的拟合之后,就可以提出服务商利润的准确表达式,利润自然等于收入-支出,收入就是采购费用以及采购量。市场上潜在的客户一共有M个,不一定每个人都买,可能会有随机的购买意愿,只有这个客户意愿大于等于订购价格的时候,他才会真实的去购买这样一个智能服务。M就是真实购买的数量,再乘上刚刚说的订购价格PS,就得到了服务商的收入,支出等于数据的单价乘上采购的数量N,利润模型这个方程比较好理解。
    如果我们用一致分布来表示,可以进一步简化这个模型,主要的简化就是中间PR概率值,可以简单表达为U-Ps。利润最大化模型,求N和Ps利润最大化,实际上就是这个标题的数学表示。如果是这样一个简化的模型,我们可以用微积分求解,最大化的利润就在这几个参考点之中,只需要进行一下比较就可以了。
    第三个问题是指数据市场如何对数据进行定价实现它自己的利润最大化?我们用Stackelberg动态模型来刻画数据市场与智能服务提供商之间的动态竞争博弈。第二个公式是服务商的利润,第一个公式是数据提供者或者数据市场获得的纯收入,也就是它的价格PB×采购数量。这样一个博弈是先后顺序依次进行的,就有一个协商的过程,可能是一个反复的过程。
    数据资产提供一个参考的价格,采购方案就是我们这里的服务商,根据这样一个报价,根据第二个公式,选择合适的N和合适的订购价格实现自身局部的最优化,达到自己的利润最大化。同时,这样一个N的行为发生之后,上一级数据市场还是可以继续调价,调一个Pb,这个时候博弈就会持续的进行下去。
    纳什均衡告诉我们,在一定的条件下,最终可以达到均衡值,不管在什么时间节点看,所有这两类参与者,他们全部都是最优的。对这样一个问题的球节如果做Demo或者模型比较简单,可以用逆向球解法,用解析的方法去做。如果比较复杂,我们需要使用数值的算法进行估计。
    最后,我们做一个总结和展望。数据经济时代中数据就是石油,配合数据分析以及算法可以产生巨大的经济效益,同时,数据经济的发展也给数据治理工作提出了更多的挑战,这样的环境下,数据治理需要遵循的一些基本原则,我们列举了几个:需要促进效率、维护公平,保护用户的数据隐私、保障疏忽使用的安全,
    对于数据资产价值评估收益分配问题的探讨,目前确实属于一个探索阶段,我们将以数据治理的基本原则作为指导,继续努力在数据资产化、报表化、安全化的道路上奉献出自己的一份力量。
    与此同时,我们的终极目的是做数据治理机器人,我们一直在尝试用一些人工智能的方法去对数据建模、数据处理等数据治理的工作进行优化,提高它的智能化水平。谢谢大家!

最近看过此主题的会员

缱绻

大哥很IT

liwenqiang

youyouyou

esen_3IE5GNDE70MW

0个回答

只看楼主

登录后可回答问题,请登录注册

快速回复 返回顶部 返回列表

小时

全天响应

分钟

快速处理问题

工程师强势助力

明星产品
解决方案
联系合作

400咨询:400-0011-866

技术支持QQ:400-0011-866(工作日9:00-18:00)

产品建议邮箱yixin@esensoft.com

关注我们

扫TA学习更多干货

一对一专家交流

版权所有© 2006-2024 北京亿信华辰软件有限责任公司 京ICP备07017321号 京公网安备11010802016281号