GitHub的AI辅助Copilot会为您编写代码但这是否合法或合乎道德

2022-11-23 14:43:03 来源：用户：项罡新

GitHub的Copilot是一种基于AI的结对编程服务。它的机器学习模型引发了许多问题。开源专家权衡。微软的AI结对编程服务GitHubCopilot上线还不到一个月，就已经广受欢迎。在启用它的项目中，GitHub表示近40%的代码现在由Copilot编写。那是超过一百万的用户和数百万行代码。

这个扩展和后端服务直接在他们的编辑器中向开发人员推荐代码。它支持集成开发环境(IDE)，例如Microsoft的VisualStudioCode、Neovim和JetBrains。其中，人工智能会建议开发人员输入的下一行代码。

该程序可以建议完整的方法和复杂的算法以及样板代码并协助进行单元测试。出于所有意图和目的，后台引擎AI充当结对编程助手。开发人员可以自由接受、拒绝或编辑Copilot的建议。如果您是一名新程序员，Copilot可以解释简单的自然语言命令并将它们翻译成十几种编程语言中的一种。其中包括Python、JavaScript、TypeScript、Ruby和Go。

微软、GitHub和OpenAI合作构建了这个程序。它基于OpenAI的Codex。Codex接受了数十亿条公开可用的源代码行(包括GitHub上公共存储库中的代码)和自然语言的培训，这意味着它可以理解编程和人类语言。

这听起来像是梦想成真，不是吗?不过，汤里有一只相当大的苍蝇。关于Codex是否有权使用开源代码来提供专有服务的基础存在法律问题。而且，即使它是合法的，Microsoft、OpenAI和GitHub，以及Copilot的用户，能否合乎道德地使用它“编写的”代码?

根据GitHub首席执行官NatFriedman的说法，在Copilot发布测试版时，GitHub在法律上是明确的，因为“在公共数据上训练ML系统是合理使用。”但是，他也指出，“IP[知识产权]和AI将是一个未来几年世界各地有趣的政策讨论。”你可以再说一遍。

其他人则强烈反对。SoftwareFreedomConservancy(SFC)是一家为开源软件项目提供法律服务的非营利组织，其立场是OpenAI仅接受GitHub托管项目的培训。其中许多已获得copyleft许可。因此，正如SFC的政策研究员和常驻黑客BradleyM.Kuhn所说，“这些项目中的大多数都不属于‘公共领域’，它们是根据自由和开源软件(FOSS)许可获得许可的。这些许可证有要求，包括正确的作者归属，如果是copyleft许可证，他们有时要求基于和/或包含软件的作品在与先前作品相同的copyleft许可下获得许可。一年多来，微软和GitHub一直无视这些许可要求。”

因此，证监会硬着头皮敦促开发者不仅要避免使用Copilot，还要彻底停止使用GitHub。他们知道这并不容易。由于Microsoft和GitHub的“有效营销”，GitHub使自由和开源软件(FOSS)开发人员相信GitHub是FOSS开发的最佳(甚至唯一)场所。然而，作为专有的商业秘密工具，GitHub本身与FOSS完全相反，”库恩补充道。

其他人介于这些极端之间。

例如，监督开源许可证的组织开源倡议(OSI)的执行董事StefanoMaffulli理解“为什么这么多开源开发人员感到不安：他们已经为计算机科学的进步提供了他们的源代码，人类。现在代码被用来训练机器来创建更多代码——这是最初的开发人员从未想过也没有打算过的。我可以看出这对一些人来说是多么的愤怒。”

也就是说，Maffulli认为，“从法律上讲，GitHub似乎在其权利范围内。”但是，不值得“迷失在讨论这里是否存在开源许可问题或版权问题的法律杂草中。这会错过更广泛的观点。显然，*存在*影响整个社会的公平问题，不仅仅是开源开发者。”

马富利认为：

Copilot让开发人员面临现代人工智能的困境之一：参与互联网和社交网络公共活动的个人与使用“用户生成的内容”来训练新的全能人工智能的公司之间的权利平衡。多年来，我们知道在公共互联网站点上上传我们的图片、博客文章和代码意味着我们将失去对我们创作的一定程度的控制。我们制定了规范和许可(例如开源和知识共享)来平衡创作者和整个社会之间的控制和宣传。有多少数十亿Facebook用户意识到他们的照片和标签被用来训练一台可以在街头抗议或购物时识别他们的机器?如果这些数十亿人中有多少人知道他们正在训练一台未知地进入我们私人生活的强大机器，他们会选择参加这项公共活动?

我们不能指望组织在未来以“善意”和“诚意”使用AI，因此现在是就AI对社会和开源的影响进行更广泛对话的时候了。

这是一个很好的观点。Copilot只是一个更大问题的冰山一角。OSI不会忽略它。该组织几个月来一直致力于打造一个名为DeepDive:AI的虚拟活动。OSI希望，这将引发一场关于AI的法律和伦理影响以及AI系统可以接受的“开源”的对话。它包括即将推出的播客系列和将于2022年10月举行的虚拟会议。

着名的开源律师和OSSCapital普通合伙人HeatherMeeker更多地关注法律要素，认为Copilot在法律上是明确的。

当像软件源代码这样的文本主体——这是作者的受版权保护的作品——被其他软件工具用作数据时，人们会感到困惑。他们可能认为人工智能工具产生的结果在某种程度上是用于创建它的文本正文的“衍生”。事实上，原始源代码的许可条款可能无关紧要。根据定义，进行预测性写作的人工智能工具会在上下文适当时建议常用的短语或语句。这可能属于合理使用或场景公平版权侵权的抗辩——如果它首先是侵权的话。更有可能的是，这些常用的工件是本质上完全具有功能性的小代码片段，因此，当单独使用时，根本不享有版权保护。

Meeker指出，即使是自由软件基金会(FSF)也没有声称Copilot的行为侵犯了版权。正如韦恩州立大学法学教授约翰·罗斯柴尔德(JohnA.Rothchild)和丹尼尔·罗斯柴尔德(DanielH.Rothchild)博士加州大学伯克利分校的候选人，在他们的FSF论文中说，“其开发者客户使用Copilot的输出是可能的，而不是侵权。”然而，这“并不能免除GitHub的不当行为，而是辩称Copilot及其开发者客户可能不会侵犯开发者的版权。”相反，FSF认为Copilot是不道德的，因为它是一种软件即服务(SaaS)。

开源法律专家、哥伦比亚大学法学教授EbenMoglen认为Copilot不会面临严重的法律问题，但GitHub和OpenAI确实需要解决一些问题。

这是因为，Moglen说，“就像复印机或剪刀和粘贴一样，代码推荐程序可能会导致版权侵权。因此，提供此类推荐服务的各方应以许可意识的方式进行，以便用户将推荐代码纳入他们的项目以细化的方式通知对推荐代码的任何许可限制。理想情况下，用户应该能够自动过滤推荐，以避免无意中将代码与冲突或不需要的许可条款结合在一起。此时，Copilot不会执行此操作。

因此，由于许多“自由软件程序员对他们贡献的代码感到不安，他们为自由软件项目做出了贡献，这些项目被纳入GitHub代码数据库，Copilot推荐引擎通过该数据库以片段形式有偿分发，”Moglen说。GitHub应该提供“一种简单、持久的方式来从Copilot中隔离他们的代码。”如果GitHub不这样做，他们已经给了程序员一个将项目转移到其他地方的理由，正如SFC所建议的那样。因此，Moglen希望GitHub提供一种方法来保护相关开发人员免于将他们的代码吸取到OpenAICodex中。

那么，现在发生了什么?最终，法院将作出裁决。除了开源和版权问题，私人人工智能服务使用“公共”数据还存在更大的法律问题。

正如Maffulli所说，“我们需要更好地了解受AI影响的所有参与者的需求，以便建立一个新的框架，将开源的价值嵌入到AI中，为在各个层面发生的协作和公平竞争提供护栏。社会。”

最后，应该指出的是，GitHub并不是唯一一家使用AI来帮助程序员的公司。Google的DeepMind有自己的AI开发者系统AlphaCode，Salesforce有CodeT5，还有开源的PolyCoder。简而言之，Copilot并不是唯一的AI程序员。人工智能如何适应编程、开源和版权的问题比简单化的“微软不利于开源!”要大得多。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！