□ 陶乾
2023年以來,國內外許多著作權人先后發(fā)起了對基礎模型開發(fā)者的侵權訴訟。原告方認為模型訓練過程中的作品使用行為構成侵權,但被告方辯稱其行為屬于一種合理使用,目前在世界范圍,尚無法院對此問題給出定論。
我國著作權法第二十四條合理使用條款窮盡式地列舉了13種情形,從文義來看,無法將模型訓練使用作品解釋為任何一種情形。很多學者從立法論出發(fā),建議我國引入“文本與數(shù)據(jù)挖掘”侵權例外制度,但在法律修改之前,司法機關仍需在現(xiàn)行著作權法下進行規(guī)則適用。有鑒于此,筆者從解釋論的角度,將人工智能基礎模型訓練過程中,數(shù)據(jù)準備、數(shù)據(jù)投喂和機器學習三個階段的作品使用置于著作權法基本法理與現(xiàn)有規(guī)則中進行剖析,為司法實踐處理此類糾紛提供創(chuàng)新性思路。
數(shù)據(jù)準備階段:數(shù)據(jù)集創(chuàng)建者的著作權合規(guī)
數(shù)據(jù)準備階段是模型開發(fā)的重要前置階段?;A模型所使用的數(shù)據(jù)集包括開源數(shù)據(jù)集、付費數(shù)據(jù)集和自建數(shù)據(jù)集。在前兩種情況下,模型開發(fā)者與數(shù)據(jù)集創(chuàng)建者是兩個不同的主體。
數(shù)據(jù)集創(chuàng)建涉及的著作權問題有二:第一,數(shù)據(jù)集創(chuàng)建者在選取數(shù)據(jù)源時,是否需要過濾掉那些本身具有侵權屬性的內容;第二,在內容本身不侵權的情況下,數(shù)據(jù)集創(chuàng)建者將作品復制于其數(shù)據(jù)集之中,是否需要獲得著作權人的另行授權。
第一個問題涉及的是數(shù)據(jù)集創(chuàng)建者對著作權侵權內容的注意義務。數(shù)據(jù)集里的數(shù)據(jù)樣本來源分為三種:在經(jīng)營過程中積累的自有數(shù)據(jù)、抓取的網(wǎng)絡公開數(shù)據(jù)以及購買的第三方數(shù)據(jù)。在這三種來源之下,數(shù)據(jù)集創(chuàng)建者的注意義務有所不同。
在數(shù)據(jù)集創(chuàng)建者使用自有數(shù)據(jù)的情形下,將數(shù)據(jù)中的侵權內容復制在數(shù)據(jù)集里,其應承擔直接侵權責任。在采集網(wǎng)絡公開數(shù)據(jù)的情形下,數(shù)據(jù)集創(chuàng)建者扮演著數(shù)據(jù)使用者的角色。侵犯內容是由直接侵權人進行網(wǎng)絡公開傳播的,數(shù)據(jù)集創(chuàng)建者不對該侵權內容承擔賠償責任,除非其明知該內容的侵權性質仍將其收錄于數(shù)據(jù)集。在數(shù)據(jù)集創(chuàng)建者購買第三方數(shù)據(jù)的情形下,有必要要求其對數(shù)據(jù)中的作品來源合法性問題有事前的合理預見,合法來源抗辯的成立以履行適當?shù)淖⒁饬x務為前提。
第二個問題涉及的是數(shù)據(jù)集對作品的復制行為是否落入到著作權人的專有權利范圍內。數(shù)據(jù)集是創(chuàng)建者依照特定的標準收集和整合各種信息而成,根據(jù)數(shù)據(jù)集的創(chuàng)建目的和數(shù)據(jù)內容,可區(qū)分為通用數(shù)據(jù)集和專門數(shù)據(jù)集。這兩種數(shù)據(jù)集在復制作品的行為效果上存在差異性。
通用數(shù)據(jù)集的價值基于其數(shù)據(jù)體量和數(shù)據(jù)維度。數(shù)據(jù)樣本內容具有多樣性和綜合性的特點,其中既有各種類型的作品,也有不構成作品的信息。數(shù)據(jù)中所包含的單一作品,在價值上,對于整個數(shù)據(jù)集來說微乎其微;在體量上,占據(jù)整個數(shù)據(jù)集的極微小部分。對已發(fā)表的單一作品的復制,盡管落入到著作權人的權利范圍,但從比例原則下社會公共福祉與著作權人利益的取舍來看,考慮到侵權情節(jié)極其輕微,可將其作為一種停止侵權的例外情形,基于這種“低密度性”使用作品的方式對權利人造成的損害微乎其微,且給使用人帶來的所得亦極其微弱,所以,通常而言,使用者亦無需承擔損害賠償責任。
專門數(shù)據(jù)集的價值基于其數(shù)據(jù)內容和數(shù)據(jù)質量。數(shù)據(jù)樣本內容具有特定性和專門性的特點,比如,特定作者的作品、特定歷史時期的作品、特定風格的作品或者特定行業(yè)領域的數(shù)據(jù)。數(shù)據(jù)集的價值與作品集合的價值產(chǎn)生了重合,是數(shù)據(jù)集商業(yè)化的基礎。此時,數(shù)據(jù)集創(chuàng)建者理應獲得這些作品的著作權人的授權,否則侵犯了著作權人的復制權或匯編權。數(shù)據(jù)集的開源傳播還會侵犯作品信息網(wǎng)絡傳播權。對于專門數(shù)據(jù)集所涉及的著作權問題,未來的制度完善可引入“選擇退出”機制和事后許可機制,降低數(shù)據(jù)集創(chuàng)建者與作品著作權人之間的溝通成本。
數(shù)據(jù)投喂階段:基礎模型開發(fā)者的有限義務
模型開發(fā)者獲取了數(shù)據(jù)集之后,將數(shù)據(jù)集以指定的批量大小、順序等方式加載到模型的開發(fā)程序中,模型通過算力來實現(xiàn)特征提取和對數(shù)據(jù)集的“吸收”。
數(shù)據(jù)投喂階段的著作權問題有二:第一,基礎模型開發(fā)者是否需要對數(shù)據(jù)集的著作權合規(guī)盡到注意義務;第二,基礎模型開發(fā)者是否就此階段的數(shù)據(jù)輸入行為承擔復制權侵權責任。
第一個問題涉及數(shù)據(jù)與作品之間錯綜復雜的關聯(lián)關系。作品是一種信息,數(shù)據(jù)是信息的載體。數(shù)據(jù)集是其創(chuàng)建者與模型開發(fā)者之間進行交易的一種商品。只要數(shù)據(jù)集的來源合法合規(guī),就不需要再考察組成數(shù)據(jù)集的每一個樣本是否經(jīng)過授權。但需要指出的是,基礎模型開發(fā)者付費獲得專門數(shù)據(jù)集時,看重的正是數(shù)據(jù)集的樣本內容和質量,模型開發(fā)者應當對于專門數(shù)據(jù)集的內容合規(guī)具有一定程度的注意義務,盡最大努力去避免其使用的數(shù)據(jù)集侵犯他人著作權。
第二個問題涉及的是基礎模型開發(fā)者將數(shù)據(jù)集加載至模型過程中對數(shù)據(jù)中若干個作品的整體復制。著作權法行為定性采取的是結果主義,鑒于此時的復制是純粹的內部復制,屬于為了實現(xiàn)其他結果而進行的過程性復制,是一個被后續(xù)行為所涵蓋的行為,故不需要對其進行單獨的法律評價。
機器學習階段:基礎模型開發(fā)者的非侵權性
開發(fā)者進行數(shù)據(jù)“投喂”的目的在于對數(shù)據(jù)進行機器學習。機器學習階段的著作權問題是這種使用作品的行為是否落入到著作權人的專有權利范圍內。
著作權法保護表達,而不是思想。著作權人的權利所控制的行為是對作品的“表達性使用”,包括對作品中的獨創(chuàng)性表達的直接再現(xiàn)的呈現(xiàn)式使用和間接再現(xiàn)的演繹式使用。將著作權法意義上的作品使用限定在“表達性使用”,是劃定知識產(chǎn)權保護范圍與公眾信息自由與表達自由之間界限的關鍵。無論是我國著作權法第十條規(guī)定的著作財產(chǎn)權,還是第五十二條、第五十三條所列舉的侵權行為,均在語義內涵上指向對作品的“表達性使用”。
在傳統(tǒng)著作權法下,有形載體之上的物權與載體之上的知識產(chǎn)權能夠有效區(qū)分,有形之物與無形財產(chǎn)之間的涇渭分明使得人們很容易界定一個行為所使用的是作品中的表達還是作品的載體。數(shù)字時代,數(shù)據(jù)也成為作品的載體,作品的無形性與載體的無形性產(chǎn)生重疊,對作品的使用與對數(shù)據(jù)的使用混合為一體。此時,區(qū)分“表達性使用”與“非表達性使用”就變得重要。
當人工智能進行模型訓練時,第一,其抓取和識別的是數(shù)據(jù),旨在讓機器掌握文字與文字、美術元素與元素之間分布的規(guī)律,這種規(guī)律本身不受著作權法所保護;第二,機器學習的本質是從數(shù)據(jù)中計算出概率,形成表達范式,無論是模型本身還是模型背后的開發(fā)者,都未產(chǎn)生對作品中的表達的理解和欣賞。因此,模型訓練并非將數(shù)字化的內容作為作品進行使用,而是將其作為數(shù)據(jù)來使用,該行為并不應當落入到著作權的控制范疇。
結語
基礎模型的開發(fā)是發(fā)揮數(shù)據(jù)要素使用價值的直接方式,是發(fā)揮新質生產(chǎn)力效能與創(chuàng)新商業(yè)模式的實現(xiàn)路徑。各國對于人工智能基礎模型訓練的著作權問題的處理態(tài)度,關乎著作品數(shù)據(jù)的國際化流動與價值開發(fā)以及各國在人工智能領域的國際競爭。我國目前人工智能產(chǎn)業(yè)發(fā)展仍面臨著數(shù)據(jù)集供應不足、質量不高、多樣性匱乏等情況,有必要探索合適的方式來減少我國生成式人工智能產(chǎn)業(yè)在數(shù)據(jù)獲取上的著作權授權阻礙和合規(guī)束縛。我國《生成式人工智能服務安全基本要求》在“語料安全”中規(guī)定應重點識別訓練語料中的著作權侵權問題,這種一概而論的規(guī)定是否恰當仍需要從著作權法的法理上進行更審慎的思考。在個案中,司法機關應當在著作權法的現(xiàn)有框架下,根據(jù)模型開發(fā)過程中各個環(huán)節(jié)的作品使用目的和方式,運用基礎法理來確定侵權與否,劃定數(shù)據(jù)集創(chuàng)建者與模型開發(fā)者版權注意義務的邊界,從而為技術開發(fā)與產(chǎn)業(yè)發(fā)展提供指引。
(原文刊載于《政法論壇》2024年第5期)
編輯:武卓立