14/10/2022
輸入文字生成大師級作品!AI製圖工具掀新熱潮,背後卻隱藏種族性別歧視、版權問題?
AI機械人的誕生,原意是代替人類執行單調而重複性高的任務,讓人們可以專注於講求創作力的工作。但如果AI已具備創作能力的話,那麼人類又應如何自處?早前,有人利用AI作畫工具《Midjourney》,贏得美國科羅拉多博覽會的藝術獎項,引發網民激烈辯論:AI演算出來的作品算是藝術創作嗎?藝術工作者會否被AI淘汰呢?更有論者指,AI製圖便利背後,隱藏著種族與性別歧視、以及侵犯版權等嚴重問題。
AI演算法將文字轉化圖片
2022年8月底,畢業於科羅拉多理工大學計算機科學系、幾乎沒有美術根底的桌上遊戲公司老闆傑森.艾倫(Jason M. Allen),憑著畫作《太空歌劇院》(Théâtre D'opéra Spatial),在美國科羅拉多博覽會(Colorado State Fair)年度藝術比賽的「數碼藝術」組別中,奪得冠軍殊榮。
桌遊公司老闆傑森.艾倫提交3幅由《MidJourney》生成的畫作,參加科羅拉多博覽會的年度藝術比賽,結果其中一幅作品《Théâtre D'opéra Spatial》贏得「數碼藝術」組別冠軍(圖片來源:維基百科)。
這幅帶有古典巴洛克風格與科幻電影超現實氛圍的作品,畫中人物身處黑暗的室內,站在一個圓形巨窗前,凝望著光芒四射的窗外景觀,似乎若有所思。表面看來,畫作的人物構圖、光影表現、以至色彩運用俱佳,能獲獎理應毫不奇怪。然而,最大問題是這幅畫作不是艾倫本人親自繪畫,而是透過《MidJourney》的AI演算法生成。
《Midjourney》是一款AI圖像產生工具,能將用戶輸入的文字轉化為圖片(Text-to-image)。用戶只要輸入想像中圖片的文字描述和關鍵字,AI便會嘗試分析和理解輸入文字,跟著以最適合這段描述的繪畫風格生成4幅圖片以供選擇,整個過程大概只需1分鐘左右。
在 Midjourney 網站上可以看到其他用戶透過 AI 演算出來的最新畫作,當中不乏超逼真、超細緻的作品。(圖片來源:翻攝Midjourney官網)
AI作品摘藝術賽冠軍惹爭議
艾倫表示,參賽時已清楚註明創作工具為《Midjourney》,並強調自己花了逾80個小時,輸入900多個不同的關鍵字組合,針對畫面明暗和用色的文字描述進行多番修正,再從中挑出3張合用的圖片。
接著,艾倫使用《Photoshop》微調與潤飾這3張圖片,譬如AI漏畫了其中一個畫中人物的頭部,需由他後製補上長著深色捲髮的頭顱;然後,利用《Gigapixel AI》圖像處理軟件來調高圖片解像度;最後,他把編修好的圖像檔案拿到印刷店印製在畫布上,成為參賽作品。
今次比賽的其中一位評審藝術家卡爾杜蘭(Cal Duran)表示,艾倫的作品介紹中確實有提及《Midjourney》,但當時他不知曉這是甚麼,也不知道畫作是由AI生成。但卡爾杜蘭卻認為,這幅畫是「講述故事、喚醒靈魂」的好作品,因此他與另一位評審都認為,它是實至名歸的冠軍作品。
此獎項公布後,在藝術界引起極大爭議。不少人質疑,艾倫將AI生成的畫作署名為自己作品的合法性,以及容許AI作品入圍是否會構成不公平競賽。也有人批評,藉由無感情的數據演算進行創作,不符合藝術本質,故此不應把AI生成圖當作藝術品,否則藝術便會死亡。但科羅拉多州博覽會發言人已表示,不會褫奪艾倫的冠軍資格。
筆者輸入「punk raiding cat」的文字描述,隨即看到根據文字而生成的4張縮圖逐步渲染;大概1分鐘後,4張縮圖就生成完畢。(圖片來源:Midjourney AI工具)
筆者從4張縮圖中選取較滿意的再進行放大細節化,最終得出這幅帶點「Punk」味的長耳大眼白貓肖像圖。(圖片來源:Midjourney AI工具)
美編、插畫師可能工作不保
有支持者認為,數碼藝術作品本來就要藉助數碼工具來完成,《Midjourney》等AI製圖工具跟常用的《Photoshop》並無太差異;而且用AI創作仍是基於人類的創造力和想像力,要求操作者在有限字詞內精準表達畫作的主題、光影與構圖,就創作本質來說沒甚麼不同,只是從用畫筆繪畫,變成以鍵盤作畫而已。
更有論者認為,藝術工作者透過AI工具可以快速地將腦中想法化為圖像,從中提取設計元素繪畫成新作品,有助縮短構思時間,提高創作效率。此外,電腦遊戲公司也可以使用這類工具來生成遊戲場景與角色,加快開發進程。
不過有些人擔憂,若果連藝術創作都可以由AI代勞,那麼未來人類是否可以完全被智能機械人取代呢?漫畫家馬特.博爾斯(Matt Borrs)表示,對插畫家而言,AI作畫非常讓人沮喪,因為這預告著插畫師即將要失業了。
譬如財經雜誌《經濟學人》(Economist)在2022年6月以「AI新境界」(AI’s New Frontier)作為封面故事,並首度採用《Midjourney》來製作封面圖片。據悉,已有部分外國出版社開始使用AI生成圖片,供編輯挑選作內文配相。假如日後AI作畫工具被大規模引入到出版界,或許會構成美術編輯、插畫師出現人手過剩的問題。
《經濟學人》編輯團隊在《Midjourney》上經過250次的文字輸入嘗試,生成了1,000張縮圖,再從中挑選出一張製成2022年6月出版的雜誌封面圖片。(圖片來源:Economist官網)
大數據圖像訓練含偏見風險
目前市場上的AI製圖工具除《Midjourney》外,還有OpenAI的《DALL-E 2》、Google Research的《Imagen》、以及StabilityAI的《Stable Diffusion》,都是只需靠著文字輸入,就可以生成各式各樣的圖像。
這類工具的運作原理是,AI透過網上圖片庫內的大量風景、物件、人物照片來進行比對和訓練,跟著從中挑選出特定主題和樣式,組成不同模板,然後使用這些模板來生成用戶輸入的圖像內容。
可是,這種大數據圖像訓練卻有機會讓AI大量複製數據內的西方文化與性別刻板印象,以致AI生成的圖片大都隱含著某些偏見與刻板印象。譬如說,輸入「Nurse」一詞,AI產生的圖像大都是戴著聽診器的女生;輸入「CEO」一詞,生成的圖像幾乎全部是白人男性。
Google的研究報告指出,AI作畫工具傾向生成膚色較淺人種的圖像,同時對不同職業的描繪亦容易產生特定性別的刻板形象。日後當AI工具被廣泛應用後,這些偏見與刻板印象可能會反映在畫作中,當大量傳播後,可能會衍生出種族與性別歧視問題。
事實上,供AI訓練之用的圖片庫,數據主要從互聯網大量搜集得來,惟內容卻未經篩選,難免有偏見風險。更有專家認為,這類AI製圖工具很可能會生成未經同意的裸體或逼真人像,因而遭人濫用,散播具騷擾性、助長偏見的假資訊。
Getty因版權疑慮下架AI圖片
有鑑於此,OpenAI已為旗下《DALL-E 2》加入內容保護機制,包括:用戶不能根據人名來生成人像;不能輸入涉及仇恨、騷擾、暴力、自殘、裸露、非法活動等主題的文字描述;又會過濾性、暴力、政局、疾病、以至假新聞的相關圖片。
OpenAI表示,為防止《DALL-E 2》製圖技術被濫用,已加入內容安全機制,讓AI既不能產生真實人物臉孔,也不能生成含有暴力、成人或政治等內容的圖片。(圖片來源:OpenAI官網)
除此以外,AI在圖像訓練過程中,也存有盜用他人版權的疑慮。現時AI生成作品的版權在法律上仍未有明確界定,惟大部分AI製圖工具的數據庫均採用「Creative Commons Zero」(CC0)機制,即是作品的創作者與持有人不會擁有作品的知識產權,而作品則會成為公有財產,代表著任何人都可使用該作品作私人或商業用途。正如其官網表述,《Midjourney》是一個開放社群,容許他人公開發布、使用、重組圖像。
可是,有不少內容與圖片網站卻認為,AI圖片仍有版權問題尚未解決,所以決定要劃清界線。早於2021年,美國娛樂內容網站Newgrounds已率先禁止用戶提交AI圖片。2022年9月5日,網上藝術社群 Fur Affinity宣布,因AI作品缺乏藝術價值,故此不准用戶分享AI生成圖。
2022年9月21日,大型圖庫網站Getty Images宣布,平台停止接受AI生成圖,以杜絕版權問題;之前已上傳到Getty及旗下iStock圖庫的AI圖片也被統統刪除。至於另一圖庫網站Shutterstock,雖然沒有高調宣布,但卻已靜悄悄採取行動;有用戶發現,Shutterstock已陸續下架AI生成圖,最早時間可追溯至2022年9月19日。
反向搜尋退出訓練AI圖庫
訓練AI需要有大量圖片作為學習材料,當中也可能包括他人的藝術作品。因此,數碼藝術家夫婦Mat Dryhurst與Holly Herndon架設了一個名為「Have I Been Trained」的搜尋引擎,讓閣下可以查找自己的畫作或照片有否被用作AI訓練。
Have I Been Trained主要基於Laion-5b圖片庫提供搜尋服務,內裏收藏達58億幅圖片,是《Midjourney》和《Stable Diffusion》的AI訓練數據基礎。一旦閣下發現自己的作品成為AI教材,可以點選搜尋引擎的回報系統,表達想將從中退出。
除藝術家外,一般人如想知道自己的個人玉照或寵物相片是否也被當成AI訓練教材,也可以利用Have I Been Trained進行搜尋。(圖片來源:Have I Been Trained網站)
目前AI圖片生成技術仍處於起步階段,對作品的版權界定仍非常模糊,對色情、暴力、仇恨內容的限制亦有待改善,惟無可否認的是,數碼內容產業的變革經已上路。2022年9月29日,Facebook母公司Meta發表一套名為《Make-A-Video》的AI生成影片系統,只要輸入簡短字句,便可以自動產生一段5秒的無聲短片。
《Make-A-Video》的文字轉化影片技術,可以視為文字轉化圖片技術的増強版本,AI系統能夠從靜態圖像,逆向朝目標字眼來生成短片。(圖片來源:翻攝Mark Zuckerberg臉書帳戶)
由是觀之,AI用文字生成圖片或影片的技術趨勢,似乎已是無法停下來。可以預期未來會有愈來愈多公司投入資源研發此技術,為藝術與內容創作帶來更大便利,但同時也可能會帶來種族與性別歧視、侵犯版權、虛假信息泛濫等社會問題。因此,這類AI工具到底是造福社會、還是為禍人間,依然有待觀察。
Read More:
Tesla Bot擬明年量產!人型機械人技術難度高,專家唔睇好,為何馬斯克仍砸錢研發?
【人工智能】AI全面提升防疫工作:疫情預測、病患追蹤、輔助研發疫苗
《說說心理話》 消費能獲取快樂?買不起,不如花光錢錢$$?「習得性無助」有何影響?一起看看正確理財觀念。► 即睇