如果人工智能(AI)的训练数据没有适当的来源,那么就会有侵犯版权或数据库权利的风险。用于训练人工智能的数据经常来自互联网,例如,通过网络刮削工具。然而,其中一些数据将受到版权或数据库权利或两者的保护。如果没有适当的许可,使用它来训练人工智能系统可能构成侵权。
各种侵权例外情况允许在某些情况下使用版权作品或数据库。但是,这些例外有多远,它们有多大可能被使用?
数据库权利例外
对于(以任何方式)向公众提供的数据库,有一个 “公平交易” 的例外。然而,这种例外是狭义的,不太可能适用于商业环境。公众可获得的数据库中的数据库权利不会因为公平处理其大部分内容而受到侵犯,条件是:
- 提取内容的人是该数据库的合法使用者、
- 提取的目的是为了教学或研究的说明,而不是为了任何商业目的,并且
- 标明了来源。
这是一个相当狭窄的例外,它要求合法的访问和使用是为了非商业目的。因此,在商业目的的情况下,提取一个公开的数据库的大部分内容用于人工智能培训,将不属于该例外。这意味着可能从数据库中提取内容的人有责任确保这样做是合法的。
英国版权的例外情况
侵犯版权也有一些例外情况。例如,非商业研究或私人研究、批评、评论和新闻报道,或漫画、戏仿或模仿–所有这些都受到公平交易的限制。
然而,英国有限的文本和数据挖掘(TDM)和临时副本的例外情况在这种情况下是最相关的。
文本和数据挖掘例外
2014年在英国推出的TDM例外规定,如果某人在以下情况下制作副本,则不构成对作品版权的侵犯:
- 有合法途径获得该作品,并且
- 为 “非商业目的的研究的唯一目的 ‘进行’ 计算分析”。
因此,只有在合法获取版权作品(例如,通过付费墙获取作品),并且TDM是出于非商业研究目的的情况下,才可以依赖目前的TDM例外。
因此,目前的TDM例外是相当狭窄的。
一些权利人选择许可他们的作品,允许他们有偿用于商业目的;另一些人则不这样做。英国现行的TDM例外规定的范围不够广,例如,如果目的是商业性的,那么网络刮擦(包括从互联网上复制受版权保护的内容)用于人工智能训练是合法的。同样,进行或协助复制的人有责任确保其合法。
临时复制的例外
除了TDM例外,对于文学作品(计算机程序或数据库除外)或戏剧、音乐或艺术作品或录音或电影的版权,也有一个例外,即通过制作作品的临时拷贝来进行。
该例外规定,制作以下作品不会侵犯版权:
- 临时拷贝,它是
- “暂时的或附带的”、
- 是 “技术过程中不可分割的重要部分”、
- 其唯一目的是为了使 “合法使用作品”,并且
- 没有独立的经济意义。
引入这一例外是为了使浏览和缓存等行为得以实现,这些行为使用户能够查看网页。人工智能开发者有可能试图依靠这一例外,辩称为人工智能训练而制作的任何副本都是暂时的,工具对作品的使用类似于网页浏览。另一方面,生成性人工智能系统通常使用网络刮取的数据数据库进行训练,这些数据是公开的,而且在单个系统的训练过程中不会被删除。因此,该例外情况的用途可能有限。
此外,最高法院认为,这些要求是重叠的,必须一起阅读。因此,很明显,临时复制必须没有独立的经济意义,因此不太可能用于训练商业人工智能系统的数据。
欧盟的情况如何?
关于数据库权利的公平交易例外和版权的临时副本例外,欧盟的立场与英国相同。但是,关于版权的TDM例外的情况则不同。
《数字版权指令》第3条和第4条规定了TDM的例外情况。第3条规定了版权(及相关权利,如制作人的录音权)和数据库权的例外情况,即在研究机构和文化遗产机构合法获取作品的情况下,为科学研究提供复制和提取权。这与英国关于TDM的版权例外相似。
然而,第4条为任何目的的TDM提供了额外的一般性例外,条件是权利人没有以适当的方式 “明确保留 “或选择将其作品排除在该例外之外。这可以是在内容可在线获取的情况下,以机器可读的方式添加明确的保留。在实践中,这种保留通常包括在网站使用的条款和条件中。但是,如果没有这样的规定,根据欧盟法律,可能更容易证明网络刮削的内容是合法复制并用于商业目的。
短评
在英国,TDM的例外情况一直是一个特别关注的领域,英国政府的政策方向也是来来回回。我们这个系列的下一个洞察力是关于这个领域未来的潜在发展。
当数据被网络抓取用作训练数据时,如果有商业动机,英国法律不可能有例外,以保护人工智能开发者免受版权或数据库权利侵犯的索赔。
在欧盟法律下,情况可能更乐观,尽管权利人阻止例外情况的出现相对简单。可能使用受知识产权保护的数据进行训练的人工智能系统的用户应向供应商询问,以了解与系统训练数据有关的法律风险。