文/范臻、孙磊
来源/独立出海联合体
到底人是否会被AI取代,此前openAI“温馨”地提出了几十项“不会被AI取代的职业”——比如瓦匠、建筑工人等,在“安抚了小部分群体的同时,极大的刺激了大部分群体的打工人”——比如程序员、比如我们律师。今天的案子,可以理解为是“工程师向AIGC发起的第一战”——当然第一战是程序员们发起的。
本案原告是程序员,被告是GitHub与OpenAI,涉诉的侵权产品是二被告推出的自动编程AI——Copilot和CodeX。两者均使用开源代码进行训练,其中包括了来自GitHub开源存储库的代码。
2021年6月,GitHub和OpenAI推出了Copilot,抓取了大量开源代码进行机器学习;
2021年8月10日,OpenAI推出Codex产品,将自然语言转换为代码,并集成到Copilot中。
值得注意的是,虽然OpenAI是非营利性组织,但其已经被微软收购。原告在诉状中特意强调了这一点,以证明本案所涉的机器学习并不是什么“为爱发电”的活动了。
首先,咱们这里需要明确一个概念:开源≠随便白嫖。开源许可证通常被视为一种合同,如果有人想要使用某份开源代码,就必须接受其对应的开源许可证协议,否则就是违约。目前,国际上主流的开源许可证都要求使用者附加署名、版权声明以及所使用的开源许可证,并且可能对部分使用行为进行了限制(例如“传染性”,也即使用开源代码写的程序也必须开源)。
但本案中,GitHub和OpenAI显然没有考虑版权问题。众所周知,机器学习并不会专门学习版权法的知识,所有代码喂进去的时候也都只保留了“有用信息”,也就是代码本身;而版权许可之类的东西,说不好是无心还是有意,可能研发从实验室阶段起就压根没想过。
不过,AI公司们实际上还是做了一些“风控”的。在这些机器学习的案件中,他们往往会祭出一份版权法的“大杀器”——“合理使用”制度。也正因如此,各家AI公司纷纷表示:机器“学习”也是“学习”嘛,只不过“人”变成“机”了而已,学习的事儿,怎么能算抄呢?再说了,学习注重的不是内容嘛,结果层面输出的完全是AI自己生成的东西呀,也没见各位在每行代码里都加上导师的名字吧?
原告显然不同意这番说辞。其在诉状中明确指出,被告擅自使用了众多程序员发布在开源社区中的代码,但并没有按照开源许可证的要求为原告们署名,是典型的版权侵权和针对开源许可协议的违约。
例如,Copilot逐字复制了游戏《雷神之锤III》中的知名代码,原作者发推吐槽:
又如,下图是输入关键词“isEven”后,CodeX自动编写的代码。实际上,这段代码出自一本编程教科书:
看到代码里标红部分的“??”了没?这段儿原文中确实存在,但并不是代码的组成部分,而是供读者补充的占位符——原作是教科书,这部分是道填空题而已。把这些问号也事无巨细地搬过来,或许会让使用CodeX的程序员多出许多问号了。原告还在诉状中还提出了这串代码的其他几个错误。
同时,原告列举了AI生成的许多错误、不专业或不合常理的代码,比如凭空多出了几行测试用代码,又比如代码里犯了很多初学者常见的错误。原告试图用这些证据说明,AI并没有“创作”任何代码,而仅仅是复制粘贴了别人的代码且没有署名。AIGC只不过是个照葫芦画瓢的“权重分配器”,只会把看到最多的东西(比如“常见错误”)认为是对的,自身并没有辨别能力。类似地,AI多输出几行代码也并不是在“贴心”地帮你做测试,而是它在“学习”的时候看到大家都在测,于是也跟着做了而已,有点类似于抄作业把草稿也抄了。
本案中,原告选择了两条路维护自己的“署名权”:其一,侵害《数字千年版权法》(“DMCA”)项下的版权管理信息,构成侵权;其二,违反开源许可证的合同约定,构成违约。
值得注意的是,原告所寻求的禁令并不是像多数网上的抗议声那样“拔AI网线”,而是要求被告“修改AI程序”,以确保AIGC后续能够为每位“被学习”的创作者正确署名。由此也能看出,诉讼请求还是保持着对未来技术发展的期许与理性。
根据DMCA第1202(b)条,删除或更改版权管理信息是非法的,同样,在明知已删除版权管理信息的情况下,如有合理理由知道该信息会引起侵权,亦属非法。就本案而言,版权管理信息包括版权所有者的身份、使用作品的条款和条件,以及可能在版权声明中找到的其他信息。说白了,不署名、署错名、明知AI吃的数据存在前两种情况仍然放任的,都可能构成对DMCA的违反。
至于损害,原告认为包括了GitHub和OpenAI销售产品、订阅服务的全部费用。原告主张,这些AI都是由程序员们的代码喂出来的,如果没有这些代码,AI压根就跑不起来,甚至不会存在。
本案虽然仅为漫长诉讼中的一份小决定,但也能够看出法院在AIGC版权问题上的纠结心态。许可证违约的部分法院认可了,咱们重点看版权侵权。
法院首先定了调——认为如果原告所言不虚,那AIGC的确侵权。不过,法院话锋一转,表示原告交的证据都是别人的代码,没一串是原告自己写的,没法证明原告遭到了实际损害,也因此无权获得赔偿。
这部分思路实际上传递出一个对创作者并不友好的信号——创作者作为原告,必须证明自己“被作为训练材料的作品”与“AI最终生成的内容”之间,存在直接的联系。在另一起由艺术家群体提起的集体诉讼中,被告Stability AI、DeviantArt和Midjourney也提出了相同的抗辩。换句话说,就是创作者必须证明,“AI之所以会画成这样/写出这种代码,就是因为吃了我的作品”。但是,机器学习所需要的数据集十分庞大,单一或仅少数的创作者很难证明自己的哪件作品被用于训练出了AI的哪个部分,这种“一一对应”在技术上似乎也是违背机器学习原理的——或许现在应该去问问ChatGPT,它知道自己的每句话是跟谁学的吗?
但先法院并没有完全拒绝掐灭原告的希望,而是通过原告的另一项主张曲线救国了一下——虽然不存在“现实的损害”,但“未来的损害”是存在的。也就是说,原告的代码被喂给AI这件事是锤了的,虽然现在AI没吐出一模一样的代码,但是保不齐哪天就有了,所以原告“始终处于被侵权的风险之中”。根据这一认定,法院虽然没判损害赔偿,但支持了原告关于“修改AI程序”的禁令。赔钱跟停服哪个恐怖,大家自己想想也心里有数。不过,鉴于本案目前仍在审理,最终案件走向如何,仍待观察。
但截止目前,我们可以明确一点是:AI学习时“吃进去”的东西,目前“不是白吃的”。
