AI大模型训练背后:“你”的数据可被加工使用

文章来源: - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
(被阅读 次)

“大力出奇迹”、“暴力美学”,这两个词一直伴随ChatGPT的讨论出现。而“大力”和“暴力”,除了“巨大的算力”之外,还有海量的数据。a16z 创始人 Marc Andreessen在Data+AI大会上也提出,二十几年来互联网积累的海量数据,是这一次新的AI浪潮兴起的重要原因,因为前者为后者提供了可以用来训练的数据。

据OpenAI披露,GPT-3.5的文本语料多达45TB,相当于 472 万套中国四大名著,而 GPT-4 在 GPT-3 和 GPT-3.5 训练数据集的基础上又增加了多模态数据。而7月18日,Facebook母公司Meta发布首个开源可商用的大语言模型的Llama2,预训练预料高达2 万亿token。

有能力获得海量的、高质量的数据,被看做未来大模型公司的核心竞争力之一,也是各大巨头AI军备竞赛的必争之地。数据也被看作决定未来发展的关键生产要素。根据《数字中国发展报告(2022年)》统计,数据要素所能释放的数字经济潜力将无比巨大,我国2022年数据产量达到8.1ZB,全球占比10.5%,位居世界排名第二,数字经济发展处于领先优势。

然而,数据作为全新的生产要素,也带来一系列亟待解决的问题:究竟如何理解数据?如何对数据确权?如何挖掘数据的价值?是否真的能交易流通?数据是否能真的作为一种资产,计入到企业的财务报表中?安全性如何管理?为此,我们对话了北京邮电大学科学技术研究院副院长曾雪云教授,请她深度解答了相关问题。

“大力出奇迹”、“暴力美学”,这两个词一直伴随ChatGPT的讨论出现。而“大力”和“暴力”,除了“巨大的算力”之外,还有海量的数据。a16z 创始人 Marc Andreessen在Data+AI大会上也提出,二十几年来互联网积累的海量数据,是这一次新的AI浪潮兴起的重要原因,因为前者为后者提供了可以用来训练的数据。

据OpenAI披露,GPT-3.5的文本语料多达45TB,相当于 472 万套中国四大名著,而 GPT-4 在 GPT-3 和 GPT-3.5 训练数据集的基础上又增加了多模态数据。而7月18日,Facebook母公司Meta发布首个开源可商用的大语言模型的Llama2,预训练预料高达2 万亿token。

有能力获得海量的、高质量的数据,被看做未来大模型公司的核心竞争力之一,也是各大巨头AI军备竞赛的必争之地。数据也被看作决定未来发展的关键生产要素。根据《数字中国发展报告(2022年)》统计,数据要素所能释放的数字经济潜力将无比巨大,我国2022年数据产量达到8.1ZB,全球占比10.5%,位居世界排名第二,数字经济发展处于领先优势。

然而,数据作为全新的生产要素,也带来一系列亟待解决的问题:究竟如何理解数据?如何对数据确权?如何挖掘数据的价值?是否真的能交易流通?数据是否能真的作为一种资产,计入到企业的财务报表中?安全性如何管理?为此,我们对话了北京邮电大学科学技术研究院副院长曾雪云教授,请她深度解答了相关问题。

以下为对话实录:

腾讯科技:普通人可能会关心,大模型训练的数据从哪里来?有没有用我的个人数据,这些数据是否会有确权的问题?

曾雪云:大模型计算的这些数据是个人数据。个人数据相对于企业数据来说,它有一个权属问题。原则上,我的数据我做主。比如说社交软件上生成的数据,原则上来说,社交软件所属的公司不能使用我的个人数据,虽然这些公司已经通过默认授权的方式,实际上控制了这些数据,但具体数据怎么用是要受《个人信息保护法》来规范的。

那如果要用于大模型计算,该怎么来使用呢?在技术上需要进行隐名化处理,在经营上还需要有一个市场主体,就是要赋予某某公司一种合法的去经营这些数据的权利,换句话说,给这些数据找到一个市场化主体。当这个市场化主体拿到这个数据之后,需要投入人力、时间、智力、资本,去生产数据,这些我们都可以称为劳动投入。经过劳动投入之后,就把属于个人的数据信息衍生为公司的一种再生数据,或者叫次生数据。然后,次生数据生成过程性数据,再到数据的产品、数据的服务。这个时候,就把原生的以个人为数据拥有者的个体数据变为企业的数据产品和数据服务。这是一个产品化的过程

腾讯科技:是不是可以这样理解,互联网公司通过授权获取个人的数据,经过这些公司的流程化处理之后,就可以变成这个公司的某种数据资产?

曾雪云教授:也可以这样理解,我们个人在互联网上生成大量的数据,就好像自然界的各种自然资源。比如说,土地上可以生长出很多的花草树木,可以有很多资源在生长。这种资源是一种公共资源,是可以去开发和利用的,但不可以直接买卖。利用和加工之后生成的是企业的资产,这是允许的,我们也应该鼓励这样来开发数据生产要素。

腾讯科技:从个体角度出发,如何保护我们的个人数据,让它们按照我们想要的方式去流动?

曾雪云教授:人工智能的时代,人们的隐私越来越难以被保护了。因为人们的一切行为都在被记录,地理位置的移动、生活、工作、饮食、起居,都在被记录。一旦被记录下来,这些原本属于我们个人的信息,就不再能为行为人所控制。所以,这个时候隐私泄露的风险很大,数据保护的任务也很重,数据保护的难度也很大。

人们怎么样来维护自己的数据权益?其实各个国家也有一些商业化的办法。第一种,像日本,用的数据银行,就是每个人可以像在银行存款一样,把数据存放在数据银行。数据银行,是一个数据的保管者,它本身也可以作为一个数据价值的原始开发者,然后个人也能获得一定的收益。这个就说,它能让一部分愿意一定限度下公开和利用自己数据的这一部分人,可以有一种商业模式,以一种自选择的方式来解决数据保护问题。也就是,构造合法的数据流通、合法的数据的开发和利用模式,这是一块。

另外一部分,就是说我个人不愿意,那么就不授权给数据占有人。不授权的情况下,国家就要加强数据保护。如果谁要非法去开发这部分数据,那就要进行惩戒,要进行法律监管,可以用区块链技术跟踪此类行为。比如说,我们的数据有没有被泄露,被泄露到哪了,去进行数据流转的跟踪。还可以进行数据血缘关系的跟踪和分析,现在已经有数据血缘技术。大概就是说,数据它从哪里来,到哪里去,数据血缘分析实际上是一种数据的相关分析,以及数据的溯源,用血缘这个词就是非常形象地讲述了数据的来龙去脉。一切都在被记录,所以记录别人的这种数据和技术,它也能被记录下来,也能被公开下来,也能被穿透。

我国 《民法典》在人格权篇中对个人信息保护做出了专门规定。《民法典》第127条则将数据与网络虚拟财产并列,凸显了数据的财产属性。在地方性立法中,《上海市数据条例》第12条的规定直接体现了“人财两分”的权利配置模式。该条规定:“本市依法保护自然人对其个人信息享有的人格权益。”“本市依法保护自然人、法人和非法人组织在使用、加工等数据处理活动中形成的法定或者约定的财产权益,以及在数字经济发展中有关数据创新活动取得的合法财产权益。”

2021年8月20日,十三届全国人大常委会第三十次会议表决通过《中华人民共和国个人信息保护法》,自2021年11月1日起施行。具体内容在网上能查到。《个人信息保护法》中个人信息的司法性质也是人格权益保护,几乎不涉及个人信息的财产权益。

腾讯科技:对大模型训练起到重要作用的高质量数据,究竟指的是哪些数据?

曾雪云教授:数据应该是人类经济、社会、生产、经营、商业,甚至军事活动的全部记录。这样的一个记录,它生产于各个行业、各个领域、各个方面。就原生数据而言,它有高质量、也有低质量。比如说,上市公司的财务报表,财务数据,就是一种高质量的数据,而且是一种结构化的数据。因为这种财务报表和财务信息都是经过社会审计,经过注册会计师审计的,有证监会来监管信息披露,所以是高质量数据。再比如说,中国知网里的论文数据也是高质量数据。但是,互联网上生成的这些数据,它是非结构化的数据,也是非标准化的数据。这样的数据就是一种原始的、比较杂乱的、没有规范的数据,它就需要在计算前进行颗粒度上的清洗,所以高质量数据通常都有从非结构化到结构化这样的一个加工过程

腾讯科技:既然高质量数据可以被不断生产,为什么会有“高质量的数据快用完了”这种说法?

曾雪云教授:我认为是对数据的生产加工的能力跟不上人们对于数据的需求,做数据生产加工的整个供应链价值链这一端,它的生产力还比较弱。因为我们知道数据是在不断爆发,但是高质量数据快用完了,它只是说从数据到高质量数据的过程当中,我们缺乏一种生产力,一种整合的能力。这个时候就需要有数据商,我们现在很多数据商,只是在做数据的直接利用,但对于数据的生产和加工,对于如何生产高质量数据,这一块的能力或者说商业模式的设计还是很不够的。

其实 OpenAI 的 GPT-4,就采用了大量前一代模型 GPT-3.5 生产的数据来进行训练。OpenAI的创始人也在近期的采访中说过,“合成数据是解决大模型数据短缺的有效方法。而其中的关键在于,有一整套体系来区分 AI 生成的数据中,哪些可用,哪些不可用,并不断根据训练后模型的效果进行反馈”。这家公司并不只是能融到钱,能支配很多的算力这么简单,对于数据的产品技术能力,也是这家公司的核心竞争力之一。

腾讯科技:为了提高高质量的数据生产力,产业设计需要有哪些必要的环节?

曾雪云教授:关于这个问题,首先要理解数据是什么?我们有哪些数据?以及要用这些数据去做什么?也就是说,生产高质量的数据,它不是有生产能力,就能有高质量数据,也不是有生产的意愿,就有高质量数据。它一定需要从源头来理解数据,要用数据去解决社会上的什么问题?市场对数据的需求端在哪里。然后,从原始数据到需求端,中间应该怎么去生产?这一系列的问题需要有产业设计在里面,目前整体的思考都是不够的。

腾讯科技:产业不成熟是一方面,是不是也意味着这个产业还是一片蓝海?

曾雪云教授:非常早期的一片蓝海。更早期存在一些违规的直接买卖数据的情况,后来国家立法不再能够直接买卖数据本身,不再去交易原始数据。数据是不能做原始交易的,应该是对自己的生产投入的结果去做交易,而不是说占有了什么数据,我直接去卖数据,这是不可以的。

2022年(12月份)出台了《数据二十条》,《数据二十条》其中就提出数据的权属分置要求,将数据的所有权、经营权、受益权进行多权属的分置,其中提到数据要进行这个分层分类管理。这是数据治理的顶层设计,是一个整体蓝图。也可以说,是未来数据产业规范化发展的开端。这个时候,人们意识到数据不是一个整体,而且要去理解数据究竟有哪些权益,这也是对原来以法学为基础的研究推进到以经济学为基础的研究。要去建立数据市场,市场一定是经济行为。这种经济行为,要用很多经济学的工具、经济学的理论,所以现在从对数据科学的研究、国家对数据的治理,到学术界对数据的研究、产业界对数据的利用都是一个蓝海,都是一个刚开始的状态

腾讯科技:这样看来,数据可以作为企业的某种资产存在,数据属于哪类资产?

曾雪云教授:数据分类是学术界非常热门的话题。多数情况下,人们会觉得数据是无形的,看不见、摸不着,叫无形资产。但实际上从国际电联的分类来看,数据它更接近于存货资产,因为数据也涉及到生产、加工这样一个过程。而且数据本身它是一种电子化的有形资产,为什么它是电子化有形资产?数据它会占用物理空间,很多数据本身也有实物形态,它是在网络端的一个实物形态。图片,能看得见这张电子图片;声音,能听到这个声音,人像,能看到这个人像,所以数据它是数字化的有形资产

我们知道,数据资产是一种非常特殊的资产类别。有的会提出来说,数据可以类比于无形自然做摊销,或者类比于固定资产做折旧。其实,要先对数据去做分层分类,看这些数据属于哪一类。有的类型的数据,它还具有可生长性可融合性。比如说,中国联通所有的通话数据,如果能和个人的银行存款投资数据融合在一起,就能生成关于这种人从投融资到他的通信以及到职业的更多信息的画像。这个时候,就有数据与数据之间融合产生数据价值的累加效应,这个时候数据就具有可融合性和可生长性。还有一部分数据,确实具有时效性,随着时间的推移,它的价值就衰减了。所以,我们还是要更具体地来分析数据本身的特性,才能知道它的核算价值,并且数据价值的核算,具有更多的可变性和不确定性,它不像固定资产,固定资产形成时候的资产价值是确定的,随着时间的推移,价值是逐渐递减的,但数据不一定随时间递减,数据有更加复杂的资产形态。

腾讯科技:未来数据是不是AI企业的核心竞争力之一?数据资产是否有可能量化体现在企业的估值中?

曾雪云教授:对于一家人工智能的企业来说,数据就是它最核心的关键竞争力所在。对于一家AI公司来说,产品的体验决定了这个企业的商业价值,而数据的能力,决定了产品的体验。对于一个国家来说,数据是未来的关键竞争力,也是未来的黄金,就像石油是工业时代的黄金,数据就是互联网经济时代的黄金。

但是目前,世界各国其实在数据治理方面遇到困难,还没有一个国家率先取得突破,怎么解决数据安全、数据治理与数据开发利用三者之间的平衡

在这方面,中国已经敏锐地意识到了数据的重要性。各个国家也都意识到数据是一种新的生产力,但数据怎么利用,它需要有市场主体,需要有智能科技,还需要有国家规制,所以,它不是一个简单可以解决的问题,它是个系统复杂性问题。

中国的国家治理是从中央到地方的相对集中式的安排,所以我们天然就有优势,可以去整合全国范围内的大数据,但这个优势现在还没有体现出来,是在于数据的估值和估价存在问题还有数据进入会计报表核算的问题没有解决。这个问题,在全世界范围内也都没有很好的解决办法。

如果说数据能从表外资产进入到表内资产,那么数据治理的价值核算以及数据价值的管理就都能解决好,数据的交易就有了一个客观的基础。现在我们的企业数据,基本上是表外资产,没有进行估值,也没有在资产负债表上做计量和报告,因此并不清楚企业究竟掌握了多少的数据量,以至于数据的经济价值是多少也很难做统计。数据没有进入表内,那么它的交易也就缺乏一个合理基础,所以数据入表是一个关键性问题。对于数据量的统计、数据价格的核算、对于数据交易的计价,从量的统计到价的核算再到交易的基础,它需要以数据进入资产负债表、利润表,进入财务报表的核算为底层设施。这个底层设施还没有解决好。

腾讯科技:数据产权立法,国际目前已经有哪些先例?

研究数据产权立法。现在全球各主要国家针对数据保护的法案基本具备,而且日渐清晰地定位于推进数据物权中的人格权保护法案,但是针对数据利用的法案法规基本缺失,日本在这方面有一定先进性,我国相当重视推进数据要素流通,但并无法规的支持、规范、引导,而主要依靠行政性文件,这依然存在很大的立法缺失。当前迫切需要在加快数据产权的规制与数据要素流通方面,创新性地引领全球法规建设的新方向。国内外情况如下:

国际方面:欧盟2016年通过的《一般数据保护条例》(GDPR),是目前最为全面、影响力最大的数据隐私法。《条例》朝着强化数据主体权利、确保对个人数据使用控制的方向、兼顾数据安全和数据自由流通的两个方向发展。GDPR在确认和完善个人的既有权利的基础上,规定了删除权(第17条)和可携带权(第20条)等,以实现数据主体对其个人数据的更有效控制,但条文并没有对个人数据的权属流转及财产权益分配进行明确。

虽然美国较早开始数据权属法律保护的制度和理论探索,但相关规范大多分散于各类法案。各州立法并不相容,但覆盖领域较广,在实际纠纷解决中具备一定的灵活性以鼓励数据利用。比如,2018年出台的《2018年加州消费者隐私法案》和2020年出台的《2020年加州隐私权法》都加大了对数据权利的确定力度,覆盖了访问权、删除权、知情权等消费者人格隐私权利,强化了数据在流转中对数据主体的权益保护,这也从侧面反映出美国对数据经济价值利用的许可。日本在 2017年制定了《数据使用权限合同指引》,指引充分考虑了数据合同对数据创造的贡献、存储和管理的成本负担等因素,规范了数据交易合同以促进数据交易,这是一个大的进步,但仍未有对数据产权的清晰界定。

在欧洲,《欧盟基本权利宪章》及《通用数据保护条例》将个人数据受保护权视为一种由数据主体享有的特殊权利,其中不包含任何财产权利。虽然《通用数据保护条例》等欧盟法令没有明确规定数据控制者享有以数据为客体的财产权利,但其数据财产权益可通过数据库保护、版权法保护、商业秘密保护、合同法保护、竞争法保护等方式得到保护。此外,欧盟委员会发布的文件《建立欧洲数据经济》致力于引入“数据生产者权利”,赋予数据控制者对非个人数据及匿名化个人数据的对世性财产权利,使其有权对此等数据进行排他利用,其中包括许可他人利用此等数据的权利。在美国,虽然法学界有学者认为应当赋予个人对个人信息的财产权利,但是法院对于此等财产权利通常不予承认。而在部分情形中,美国法院认为企业对其持有的数据享有财产权益。国内外关于数据财产的法治经验表明,“人财两分”应当成为构建我国数据财产权制度的核心理论主张。

ca_lowhand 发表评论于
中国产出的8zb数据,里重复的包子语录就占了大半了吧,光有数量没有质量
麦迪拉 发表评论于
挺不错的AI模型和数据科普