生成式人工智能：为训练人工智能而采购数据如何考验英国和欧盟的知识产权规则

生成式人工智能（AI）在2023年占据了中心位置，最近的突破促使科技界和其他方面对它如何塑造商业、文化、教育和其他方面进行探索和讨论。

虽然它通常被作为一种免费工具供任何人使用，但生成性人工智能提出了一系列意义深远的法律问题，特别是与知识产权（IP）有关的问题，以及这些强大的模型是如何创建的，其输出的影响以及什么是和可以产生的。

变革性技术

人工智能包含了现代世界的一些最强大的技术。机器学习是人工智能的一种类型，它可以部分地编写和调整自己。这是通过一个反复的 “训练 “过程实现的，通过系统传递大量的数据。机器学习系统在一个被称为神经网络的结构中产生了一个复杂而详细的数据模式图。

通过系统传递的每一个新数据都会使网络中的每一个设置在数学上被重新校准为 “最小错误 “的设置，基于截至该点的数据。更多的训练数据使模式化的准确性逐渐提高，从而使输出更加准确。从数据中寻找模式和提取知识可以成为人工智能的一个强大应用，包括被称为文本和数据挖掘（TDM）的技术。

人工智能系统的分类

经过训练的人工智能系统可以分为两大类：分类和生成。例如，一个在标记的水果图像上训练的图像分类系统将能够区分苹果和梨的图片。

相比之下，一个图像制作的 “生成 “系统，可以创建一个苹果或梨的数字图像。创造图像或文本的生成系统的输出越来越强大和复杂，它们对内容创作和作者的影响正在被广泛讨论。

大多数机器学习人工智能系统对数据集的依赖，意味着采购训练数据是开发过程中的一个关键部分。数据集策划本身正在成为一个专业领域。除了验证数据集的质量、缺乏偏见和适当的代表性之外，一个关键的方面是确保所有必要的使用数据的法律权利都得到适当的调查和保障。如果数据是个人数据，必须考虑隐私法。

含有受版权和数据库权利保护的材料的数据会引起什么问题，那么潜在的侵权风险是什么？

培训数据和知识产权

自从互联网和数字连接创建以来，所创造的数据量成倍增加。互联网包含了大量的、种类繁多的数据。然而，其中一些可能受到知识产权的保护，包括版权和数据库权。因此，即使很容易复制，也不能自由复制；例如，通过网站搜刮工具（如在互联网上拖拽提取数据的软件 “机器人”）。

如果数据构成受版权保护的作品，那么在未经权利人同意的情况下对其进行复制，可能构成对版权人复制权的侵犯，也就是他们控制作品复制的权利。

可受版权保护的作品类型相当广泛。它们可以是文学、戏剧、音乐或艺术作品、电影、录音或广播，或数据库。

版权保护可以存在于数据库中；但是，这些数据库可以单独和额外地受到数据库权利的保护。数据库被广义地定义为 “独立作品、数据或其他材料的集合，它们–a）以系统或方法的方式排列，b）可通过电子或其他方式单独访问”。这可能包括网站，以及其他东西。如果在获取、核实或展示数据库内容方面有 “大量投资”，合格的数据库将得到数据库权利保护。

如果一个人未经权利人同意，提取（包括永久或临时转让）或重新利用（这意味着向公众提供内容）受保护数据库的全部或大部分内容，则侵犯了数据库权利。

不过，版权和数据库权利保护都有一些例外，允许在某些情况下使用受保护的作品或数据库。本系列的下一篇见解将探讨在训练人工智能方面可能存在的例外情况。