我的位置：首页 › 综合讨论 › 亿信动态 › 北京大学研究员柳峰：数据要素视角下的新数据 ...

北京大学研究员柳峰：数据要素视角下的新数据治理

复制链接 | 收藏本帖

5757

: 小亿管理员

发表于2021-9-25 13:08

楼主

9月25日，由亿信华辰主办、DAMA中国协办的2021第三届数据治理峰会在上海盛大举行。筹备了4个多月的数据治理峰会获得了众多企业CIO、CDO等高管的关注，参会人员达到500余人。12场行业高端主题演讲分享，场外产品体验区火爆程度再翻倍。【大会专题】

北京大学新一代信息技术研究院特聘研究员、中国数字经济百人会专家委员会委员柳峰先生受邀出席，并发表《数据要素视角下的新数据治理》主题演讲。以下为演讲实录：

大家好！首先感谢峰会的主办方亿信华辰和DAMA中国的邀请，我们有幸分享一下北大在数据要素市场下的数据治理，包括数据要素市场体系发展方面的研究、观察、探索和创新，相信线上和线下参会的各位观众和嘉宾都是对数据感兴趣或者从事数据领域工作的同好，我们大家一起来分享。

作为后面发言的嘉宾，我们有一个优势，前面嘉宾讲过的我们就略去了。这一张片子主要提到了数据要素，我们说数据要素的提法应该说至少是出乎我个人的意料，我没想到数据突然有一天提到要素的高度，2020年，至少从我们所知道的理论界、政策制定者，大家没有做好充足的准备。

为什么这么说？我们在2019年，十九届四中全会提数据要素，2020年有一个要素市场化配置体制机制的意见，一个重要的特征就是我们业界研究课题特别多，研讨特别多，大家突然发现数据变成要素了，要把数据从要素的角度，从要素的视角重新审视和研究，很多理论包括一些定义，包括一些数据要素市场发展体系，里面有政策问题、法律问题，大家发现还没有讨论特别充分。

非常有意思，刚才各位嘉宾的关键词，数据是被提得最多的，当然，我们是数据治理峰会，数据是主题。同时，数据，数据的资源，数据的要素，数据的资产都被大家广泛的提及。我们发现这个问题是去年的时候，国家发改委有一个数据要素的课题，我们去做研讨，当时提了一个建议，大家经常把它混用，一会儿说数据资产，一会儿说数据资产，一会儿说数据要素，有没有办法分一下？如果发改委能够通过课题的研究把这个定位稍微进行区分，这是一个有意义的成果。

我们为了更好的理解什么是要素，在各大要素里面，我们选土地。为什么选土地？后面会讲，因为这和后面的数据要素市场发展体系的建立也有一点相关性，比较好理解，因为土地是要登记的，土地从资源到要素到资产这中间是有变化的，不是所有的土地都是土地要素，也不是所有的土地都是土地资产。我们目前国家土地要素的管理，土地资源是什么？

第一，就是一定区域内的土地总和，客观存在，这就是土地资源。严格的经济学定义还会强调它是可被人类利用的，我们说可以暂时忽略这一点。

第二，什么是土地要素？能产生经济效益的土地资源，在现有的经济条件下能够产生经济效益，这里面有一个前提，需要经过整理，土地有土地整理的程序。

第三，什么时候变成了土地资产？要登记确权，原来要发土地权证，现在和不动产等级证放在一起，它权属明确，可计量，还要产生价值。因为土地是不可再生，不可复用的，总量是恒定的。

从数据来讲，大家经常提数据，数据治理一般讲结构化数据多一点，但是数据的统称还包括另外一类，非结构化数据，大量非结构化数据是我们说数据总体非常多的部分，大家通常给一个经验值，80%都是非结构化数据。结构化数据和非结构化数据都应该作为我们的资源，它是客观存在的。

但是，如果想成为要素，至少有两件事要做，对结构化数据来讲，语义的规范化，为什么要做语义规范化？因为传统现在所有的数据来源于系统，系统来做数据资源规划和整个数据字典规划的时候，没有统一的标准，所以每一个系统都是一个国家，这个过程可以由自己的语言，自己的语言在自己的国家里使用是没有问题的，它现在是多系统要进行连接、互通，这个时候就变成国家和国家，语言和语言要有翻译，要有一套影射标准。目前的语义规范，这是业界比较头疼的问题，它不难，就是一套数据字典，但是做起来很繁复，特别是涉及到多层级的问题。

非结构化数据，我们叫机器可理解化。一般大家翻译为可读，但是对计算机来讲，只要是电子化的都可读，更重要的是机器能不能做理解，所以我们叫做可理解化。首先，非结构化数据要想成为要素，他要做两件事：

第一，机器可理解化，做大量的标注。

第二，规范化。规范化以后变成数据要素，这个时候还不是资产，我个人建议把数据要素和数据资产稍微进行分割。

严格来说，我们这里的“数据资产”要打引号，如果是资产，大家现在已经提出能不能进入财务报表？甚至在无形资产项下有数据资产，还有一系列的技术问题、法律问题，操作规范问题。变成数据资产，至少未来的目标是权属明确，可计量，能产生价值的数据要素，这是我们对于资源、要素、资产的划分。

北大有几方面的研究：

第一，我们说数据是特殊的。为什么提出这个问题？我们在2018年开始启动，当时从技术成果转化这个角度说，能不能用北大超高性能的大数据可信操作系统，区块链技术来重构大数据交易所和大数据流通体系。我们的第一个观点，数据是特殊的，数据和其他大宗商品，和金融产品是不一样的，包括和土地也不一样。所以，我们说数据有一些特殊性，在2019年10月份，我们和团队的带头人一起在北京做了一个课题。当时我们说数据在流通交易过程当中的特殊性是什么？至少有三个比较重要：

1.原本和副本的物理表示形式一致，都是0和1。

2.使用价值相同，我复制一份，不影响数据价值的使用。

3.最重要的，脱离提供方的物理控制即失控。

所以数据提供方不愿意把数据物理的拿出来做交易流通，这一点我们支持了很多政府项目，包括企业业界的合作，大家都是数据不能出它的机房。

在这个情况下，2020年和今年还有一个主题热，隐私计算。为什么大家讲隐私计算？包括沈院士讲可信计算，其实都是说这个过程当中，数据既要发挥价值，同时数据不能脱离我的控制。

第二，数据主要是卖方市场严重供给不足。怎么解决这个问题？这是破题解决数据要素市场非常重要的一点。

第三，在线化的流通方式。

同时，我们刚才讲要素资产、资源不一样，我们做了一个对比，延伸我们对数据特性，当时我们把几个资产的维度，资产，不动产，动产，无形资产，数据，我们和天津市人大常委会立法委的副主任高盛（音）老师一起写了一篇文章，比了一下。比较是为了什么？比较是为了更好的定义，数据如果要成为资产，它哪些和现有资产管理方法包括确权方法，侵权判定，技术方法。

我们最早研究的时候，数安法还没有出台，后来我们不进去。数据有一点特别重要，数据不论在确权登记还是侵权判定，技术保障都是非常重要的，这和其他的动产、不动产，无形资产都有所区别。为什么是这样？最近有很多法学专家和我们做法性交叉的研究，我们也中了国家社科基金的重大项目。为什么？法学专家发现，数据方面的立法一定要和技术进行紧密的融合，单一从法学角度遇到了瓶颈和障碍，具体我不展开。

回到今天会议的主题，新要素，数据要素出来以后，就会带来新的视角，数据治理可能会有一些新的特点。其实在毛总的分享里面有很多共鸣。

第一，原来的数据治理可能是一个企业或者是一个集团的，现在变成数据要素以后，可能是超越了企业边界，肆意我们叫做数据综合治理发展带来了理论问题、技术问题、管理问题、评价问题，它最大的问题是层级、行业、组织系统的跨越，原来是不一样的。我把一个企业管好，现在我做好这个的时候，企业和企业之间怎么办。

第二，数据可信流通数据，刚才汪主席提到，数据交易所的变现，数据怎么发生价值？这里面还有一些标准问题，共识问题，怎么边界操作、持续化的问题，有一个新的体系，又扩产了，维度又增加了。

第三，数字化转型。数据治理是数字化转型非常重要的，这里面适度的前瞻性怎么保证？因为发展非常快，很多时候我们的研究、实践是落后的，很难满足需求，所以是需求倒逼。

第四，落地，保持一定的弹性和时效性。

这是我们说数据要素视角下的新数据治理有三个维度。

北大研究数据、数据要素和数据治理是希望解决数据要素流通，我们2018年启动研究的时候，我们最大的想象力就是数据资产，当时第一个是数据特性，这是我们的出发点，数据是特殊的。第二，它是一个非常复杂的，当时我们看自己内部定义它叫世界级难题，为什么这样讲？纵观全球，包括理论研究，包括实践，数据交易所、数据要路市场全球还没有一个成功的模式，也没有成功的经验的探索都不太成。

怎么办？我们当时提出用社会系统工程框架解决至少五个难题，我们说所有的数据要素市场，或者做数据要素流通的，至少有五个难题要解决。

第一，确权难。数据确权难不仅体现在法律缺失的问题，到现在应该说我们的数据所有权，从法律上讲，到底是人格权还是财产权，法学界是有争论的，还没有一致的意见。我们的两部数据安全法和个性法，都没有对数据所有权作出明确的界定。

第二，定价难。邬贺铨院士有一个论点特别好，我借用过来。他说数据被分析利用的价格是由需求方决定的，我们觉得这个特别好。刚才汪主席介绍的是数据资产价格评估成本法等方法，我们被分析的时候是由谁决定的？是由需求方决定的。

第三，流通难，主要解决数据不动，算法移动，隐私技术的问题。

第四，运营难，数据要素市场绝对不是建立马上就可以运营的。

第五，监管难。思维、技术、机制、协同模式的突破。

特别有意思，刚才毛总讲的时候，我们有另外一个共鸣，他讲挖抗，我们自己在研究和实践当中经常给自己挖坑，发现我们最早立项，2018年开始立项，我们说数据要素市场大概理论技术能够突破，运营还要靠实践的不断迭代，往下预研了四层到五层，我们认为肯定能做出不一样的。

理论的但点突破该出来了，我们组织队伍进行平台研发，平台研发出现了问题，我们有两个阶段性的成果都是在研发当中遇到问题，在刚开始的理论研究和技术预研的时候都没有发现问题，我们有一个特色是理论研究实践和成果转化之间的互动，去找有没有办法，然后我们再去验证，所以是不断的循环迭代，螺旋式上升也体现在这个方面。

第一个坑，大家对数据的剂量，社会上用得比较多的是PB、GB、EB字节数，业界一般用条数，有多少条数据，这都是传统对数据的计量方式。我们当时想用数据确权登记的办法来促进流通，确权登记给人发一个证，A单位在某一个时点有多少数据，有多少数据这个事把我们拦住了，我们自己给自己挖坑了。平台研发到这儿，要发一个证书，多少数据怎么描述？没有，如果用字节数和条数去描述，有一个最大的特点就是不准，同样是100条数据，字段数不一样。怎么去描述？我们赶快去找文献，找理论，发现没有结构化数据，数据库的计量单位，没有人从这个角度研究过。

但是，在数据库基础领域有标准的自定义叫做一个原子的分量（音），非常学术。我们说尽快来找一个，我们发现用原子的分量命名了一个计量单单位DRS。什么是DRS？比较好理解，一个数据库，一张表里面非空的单元格，一格就是一个DRS，一定是非空，空的不一样。目前它非常简单，非常精准，大家可以无歧义的剂量，我们被发改委列为一个案例，和我们单位联合推广。

定价难，简单讲，我们直接用股票的方法，叫单价面值法，1万个DRS分析一次的面值一块钱人民币，具体价格双方协商，市场来定。有什么好处？我们简化了流通的双方他们在做交易过程中的交易定量，交易标准。时间关系，不特别展开。

另一方面，刚刚讲我们挖的第一个坑，自己跑出来了，计量单位，黄老师说无关技术，为什么之前大家没有想过？主要是因为大家没有遇到这个问题，遇到这个问题一定会想到。我们开玩笑，想做数据要素市场平台，如果你计量单位还没有考虑，这个事多半没有考虑清楚，至少在实践的层级还不够。

第二，我们又挖了一个坑，刚刚讲语义规范化很重要，原来国际上有（英文），他想把网页上所有的语义都统一，那个上面当时不到1万多个，我们借用过来做一下翻译，后来发现不对，这个事超出我们的复杂度。

数据语义是基于链路的，它的特点是数据量大。华为在《华为数据治理之道》披露，华为一家公司有几千万的字段，它是厚厚的大辞典，更新非常频繁。刚才汪主席在例子里面讲，带编码和文字的描述和语义之间是相关的，是一个问题的两个方面。

本质就是一个数据字典，没有什么难的，统一共识特别难，为什么？现在有一些行业在做数据标准，因为大家去做，用传统的静态标准去做，标准太慢，业务太快。后来，我们想了一个办法，传统不行，用标准做也不行，我们说标准+开源结合，所以我们现在用相对静态的翻法规范加上一个动态的标准，加一个开源的平台，同时我们还要考虑国内和国际，这个主要是说到底是用拼音的首字母还是用英文，还要考虑国内和国际的统一，包括适应开发人员的编程规则。就是要解决N层影射的问题，每做一次数据治理，超越一个组织系统就要去做影射，难倒不难，但是这个工作社会治理的总成本比较高。

我们邀请了一些单位，自己做了一个开源平台已经上线了，DAMA中国的汪主席给了我们大力支持，也是我们的发起单位，我们有一大堆的发起单位。主要做什么？特别简单，提需求，做贡献，投票，最后语音入库。我们用GitHub+字幕组，就是开源+志愿者的方式，大概目标初步拍脑袋估计了一下，可能有几十亿的字段，而且更新特别频繁，要靠开源的力量，凝聚大家的共识，大家一起把这一件事情做成，这个网站也是开源的。我们有一些发起单位，包括DAMA中国、北大、北京大数据研究院。

我就和大家分享这么多，希望有机会一起为数据治理的事作出贡献。谢谢各位！