区块链+人工智能(一)——中国信息通信研究院杨兆新:人工智能生成内容的识别要求与技术

区块链+人工智能(一)——中国信息通信研究院杨兆新:人工智能生成内容的识别要求与技术

带领:

第一个击败围棋世界冠军机器人AlphaGo,到通晓天文地理的聊天程序ChatGPT,它们背后的核心人工智能技术在过去几年里总是制造“意外”,让人说话兴致勃勃,充满期待。而我们一直在研究的区块链技术,虽然也被寄予厚望,但往往很难被广泛认可和理解,因为很难形成类似的新颖场景和体验。

那么AI带来的“智能”会不会是下一代互联网唯一的演进方向我觉得概率不会局限于此,而是一种融合创新。

一是技术融合。比如在很多企业的调研中,我会遇到在工业现场部署机器视觉摄像头,拍摄大量高清图片,利用5G网络实时回传到云平台,基于基于AI算法模型的分析,将提高实时产品质量检测的效率,改善人工成本。减少。这可能不仅是5G应用,也是AI应用。

二是场景融合。基于TCP/IP协议互联网主要服务于我们人类用户的生活和消费。事实上,过去用于制造业的工业现场网络、用于智能驾驶等的车联网,由于通信协议和信息系统的不一致,过去并没有完全接入互联网。如今,这种跨场景的广泛联系正在得到加强。

三是设施一体化。例如,利用云平台的开放性推动通信网络创新的“云网融合”,以及通过网络将无序、异构的算力组织起来提供服务的“算网融合”,就是网络基础设施概念。它正在朝着更通用和协作的数字基础设施发展和演变。

因此,区块链和人工智能不会是“计生鱼、和生亮”的竞争关系,而是在互联网的创新发展和不断演进中发挥各自的作用。不同于我们用机器做“实体产品”,人工智能做“数字产品”(比如AI生成图片,AI生成问答),可见人工智能的优势在于创造力,这会带来巨大的能量在发展过程中;不同于我们依赖特定机构主体的“中心化管理”,区块链所信奉的是相信数学算法和机器智能的“分布式共识”。可见区块链的优势在于公平性,这一点会在发展的过程中得到体现。加强安全秩序。

区块链与人工智能的融合将在何处发生,将采用何种路线,将带来哪些新的技术和治理挑战,目前还难以完全确定。我们在研究过程中尝试做了一些思考,包括基于区块链的AI生成内容识别、基于区块链的AI大模型数据安全、基于区块链的去中心化AI等,供大家参考!

—— 刘洋中国信息通信研究院工业互联网与物联网研究所副总工程师

AIGC(Artificial Intelligence Generated Content)是指基于自然语言处理、深度学习、生成对抗网络等人工智能算法对大量数据进行分析、学习和模拟,从而实现对自然语言的理解和掌握规律,自动生成文字、图片、语音等内容的数据生产方式。其特点是可以根据用户的定制化需求,以低成本、高效率的方式实现创新的内容生成。

这些新奇的AI生成内容,有的是“拼接创作”,看似截然不同,实则与现有互联网内容相关;有些是“凭空创造”,完全颠覆了我们的认知和创造力。如果能够唯一标识人工智能生成的内容并查询其创建者、所有者和其他所有权问题,则可以为其可信度和合规性等问题提供更好的解决方案

4月11日,国家互联网信息办公室发布《生成式人工智能服务管理办法征求意见稿)》(简称《办法》),其中第十六条规定“提供者需遵守《互联网信息安全法》 《信息服务深度合成管理规定》《识别生成的图片、视频等内容》。这是国内首个人工智能生成内容治理征求意见稿。本文将对目前人工智能生成内容的识别方法进行分析研究,他们面临哪些挑战,以及未来如何建立一个统一可信的身份识别系统。

一、AI生成内容识别现状

1、区块链参与的NFT AIGC内容识别

不可替代令牌(Non-Fungible Token,NFT)是基于区块链智能合约的一组不可复制、不可替换或不可分割的唯一数字标识符,用于证明真实性和使用期限。类NFT 的AIGC 内容识别技术早有探索。诞生于2017 年6 月的Crypto-Punks 项目被认为是AIGC 与NFT 的首次结合。 NFT作为内容标识,实现所有权验证。 2017年10月,Dapper Labs团队正式推出了专门针对NFT的ERC721标准,并以此为基础,推出了加密猫游戏(Crypto-Kitties),其中每只加密猫图像都是通过AIGC技术从基因信息中生成的,而相应的NFT记录了每一张加密猫图片的遗传信息、繁殖代数和所有权信息。到目前为止,已经发行和交易了数百万个CryptoKitties NFT。

2. 没有区块链参与的用户生成类AIGC 内容识别

用户生成内容(User Generated Content,UGC)是在Web2.0环境下诞生的一种网络信息资源的创作和组织模式。通常是指用户通过互联网平台向其他用户展示或提供自己的原创内容。 UGC具有三个基本特征,即以网络发布为前提,内容具有一定的创新性,由非专业人士或非权威机构创作。随着AI技术的发展,由用户自己产生的UGC内容正逐步走向用户依托AI产生的AIGC内容。例如抖音短视频中的虚拟用户头像、微信中用户真实照片生成的卡通头像等。类AIGC类用户生成内容的识别通常是基于Web2.0互联网平台生成的,而内容源文件存储在平台服务器,以URL形式传播,方便用户自主下载上传。此类标志多注意

信息生产的个性化、即时性及互动性。

二、AI生成内容的标识挑战

1. 现有AIGC标识多不满足唯一性,内容所有者难以确权

由于AIGC生成的内容以数据形式表现,很容易被盗用和复制。即使是有区块链参与的AIGC标识具备了成熟的链上确权技术能力,能够通过NFT标识的信息来证明内容的所有者权属,但由于NFT在移动端及网页端依旧多以图片URL标识的形式呈现,用户依旧可以根据其链接随意复制下载相应内容。这种问题在无区块链参与的用户生成类AIGC内容场景下就更为普遍,尤其是对于内容的归属权判定。例如2018年腾讯公司自主开发的智能写作助手Dreamwriter所创作的财经文章被他人经营的网站转发,后腾讯就以未经许可转载起诉,获得了经济损失及合理维权费用赔偿。

2. 现有AIGC标识多面向数据内容,内容提供者无法追溯

AIGC标识通常仅用于标注生成的内容,通过将标识作为数据的一部分被嵌入到生成内容当中,内容提供者可以控制这些数据的生成和使用以及数据的传输和存储方式。由于AIGC训练模型具备的人工导向性,AIGC技术容易被恶意内容的提供者用于开发各类意识形态较为偏激的产品服务。如果这些产品被特殊用户群体使用,就将造成不良社会影响。然而在实际应用中,AIGC内容的归属权通常被判定为AIGC技术使用者而非提供者。在此情况下,若生成的AIGC内容存在违规行为,相关责任人仅能追溯到内容的使用者而非内容提供者。若恶意AIGC“始作俑者”无法准确追溯,则将为我国互联网生态健康稳定带来诸多不良因素。

3. 现有AIGC标识尚无标准化体系,内容跨平台互认困难

当前,AIGC已经使用了多种内容标识的技术方法和载体手段,包括数字水印、内容内嵌哈希值等。例如,数字艺术家Trevor Jones就在他的作品中采用数字水印技术,以确保作品的版权来源。然而,不同的内容标识机制存在着各自的优缺点,例如数字水印可在不影响内容质量的情况下嵌入标识信息,但容易受到攻击;哈希值可以保证唯一性和完整性,但无法提供更多信息。此外,不同的标识编码方案也不同,例如NFT类AIGC标识采用较长的哈希标识符,而面向UGC的标识符通常采用平台随机生成或者用户自主命名的形式。在当前AIGC应用发展越来越快的情况下,由于生成内容标识缺乏统一标准,导致不同机制之间缺乏互通性和互操作性的问题亟需解决。

三、基于区块链的AI生成内容标识方案

1. 依托自主管理身份构建AIGC标识,将内容所有权回归用户

由于AIGC内容通常由用户自主生成,因此AIGC标识也适合于采用自主管理的方式。所谓自主管理身份(Self-Sovereign Identity, SSI),是指用户可以自己生成身份标识符而不需依赖于任何中心化机构或平台进行身份相关数据的管理和控制。一方面,依托SSI构建的AIGC标识能有效实现内容所有者确权与服务提供者追溯。由于用户生成的AIGC内容通常由用户的个性化需求与服务提供者的生成服务构成,这样做能够更加灵活便捷地描述服务提供者、内容生产者等多方之间的信任关系,以此满足监管合规需求;另一方面,依托SSI构建的AIGC标识能够将内容所有权回归用户,这样做客实现更加灵活的AIGC内容管理方式,用户可以自主生成、分配和管理其内容标识,以确保其内容唯一性和可信度,同时减少第三方干预或管理的可能性。

2. 依托DID构建统一标识服务体系,促进产业生态繁荣发展

分布式标识(Decentralized Identifier, DID)是由国际标准化组织万维联盟W3C推动的、实践SSI理念的特定技术方案。依托DID构建的AIGC内容标识,可以提供全局唯一的身份标识,并根据已有DID标识解析技术架构构建统一的AIGC标识服务体系。由于DID目前已成为实践SSI理念的最佳事实性标准,这样做也可以同时具备更好的互操作性和可移植性。通过将每个AIGC生成内容、对应生产者以及服务提供者赋予特定DID标识,能够更加准确地构建出AIGC应用参与方及其交互关系,通过标准化的DID标识解析协议也能够更加便捷地实现跨平台和跨应用的AIGC交互共享等业务

3. 依托区块链作为标识密钥基础设施,构建可信数字底座

区块链是一种去中心化的分布式账本技术,可以记录并验证交易信息,确保其不被篡改和伪造。将区块链技术应用于AIGC标识实现,能够为AIGC内容标识提供可验证、不可篡改、去中心化的标识密钥基础设施。具体而言,区块链可用于记录AIGC生成的内容标识和关键信息,真正实现从数据源头确保真实准确。例如,每个AIGC标识采用DID实现,再将AIGC标识符、内容使用者及服务提供者记录在DID文档中并上链存储,就可形成去中心化的、不可篡改的链上记录,以此保证AIGC数据内容、内容持有者及服务提供者等相关方与相关产品服务的真实可信。

杨兆鑫

中国信通院工业互联网与物联网研究所工程

主要研究方向包括区块链、分布式标识、分片与模块化与深度强化学习等,至今已在IEEE Internet of Things Journal、IEEE Wireless Communications、China Communication等国内外知名期刊与会议发表论文10余篇,参与研制多项国家标准、行业标准。

暂无评论

暂无评论...