人人都在談論GPT,但它究竟是什么?
ChatGPT是由美國OpenAI研發(fā)的能夠通過自然語言驅(qū)動的人工智能技術(shù)工具,因為它強大的執(zhí)行力和任務處理能力,一經(jīng)亮相就引起了極大的關(guān)注。與之類似,在圖像智能生成方面,新近崛起許多新型模型的AI,如Dall-E2 Midjourney V5等, 通過算法可以產(chǎn)生的逼真影像,讓許多攝影師感覺到危機。一時間,人們都在熱議我們究竟要如何與人工智能相處,攝影的未來會如何被AI所改變? 基于這樣的話題背景,《中國攝影》雜志邀請美國加州庫埃斯塔學院終身教授,藝術(shù)系數(shù)字設計方向主任劉燦國撰寫了《AI攝影與GPT圖像》一文,嘗試厘清GPT和AI的基礎概念和底層邏輯,并探討AI與攝影相結(jié)合的各種可能。 這是劉燦國教授第二次為我們撰寫討論人工智能的文章。2019年1月刊上曾經(jīng)發(fā)表了他的《平坦之境,或映成之影》,文中作為對科學技術(shù)對藝術(shù)的影響進行了展望,僅僅過去了4年時間,他的文章的一些預言已經(jīng)成為了現(xiàn)實。未來已來,我們要如何應對人工智能的大潮,希望本文能為您提供一些思考的線索。 《AI攝影與GPT圖像》原文刊發(fā)于《中國攝影》雜志4月刊,我們摘錄了文章的核心觀點在此呈現(xiàn)。如欲了解本文的全貌,歡迎點擊文末的雜志封面購買4月刊雜志。 GPT是什么? GPT的含義 GPT 又稱 (Generative Pre-trained Transformer) 是一種基于 Transformer(轉(zhuǎn)換器) 的語言模型,通過大規(guī)模的自然語言數(shù)據(jù)訓練,機器可以掌握和“學習”自然的語言表述方式和規(guī)律。 經(jīng)過不斷的演化,GPT-3基于萬億級別的單字訓練,創(chuàng)建了史無前例的自然語言模型AI服務——ChatGPT。GPT的圖像版本稱之為 Dall E2,系使用同樣的類似訓練方法來發(fā)展。GPT的成功,代表了一種有效的知識學習模型,可以反向?qū)τ谌祟惖膶W習和研究提供啟迪和思路。 G 所代表的“生成式”(Generative)即一種創(chuàng)作仿生。 P 指“預訓練”(Pre-Trained)說明了預先訓練基礎數(shù)據(jù)從而形成知識對創(chuàng)作的重要性。 “預訓練”(Pre-Trained)的系統(tǒng)在攝影領域里早已存在 對于攝影領域而言,可用于個人 “預訓練”(Pre-Trained)的系統(tǒng)化的知識早已存在和相對完善。譬如,對于設置器材、設備、燈光、存儲等的技術(shù)控制特點的特性的認識,從而了解到其中的優(yōu)缺點,在實際使用中進行最佳的組合。攝影基礎理論,包括曝光、光學、鏡頭焦距,景深,空間構(gòu)圖等方面的知識,以及按攝影門類的拍攝技巧和后期技術(shù)都是系統(tǒng)化的知識。攝影史論,攝影作者和作品,則形成了這些基礎理論知識的具體驗證和匹配的模型。 百多年來的攝影知識體系是我們一切發(fā)展的基礎。那么在這個基礎上,算力和模型就是接下來要著重關(guān)注的要點。 T 指代的Transformer(轉(zhuǎn)換器)是由谷歌研究團隊在2017年美國加州第31屆神經(jīng)信息處理系統(tǒng)會議上發(fā)表的一篇名為 “《你只需要注意力》(Attention Is All You Need)”(Vaswani et al., 2017) 的開創(chuàng)性論文中提出的一種神經(jīng)網(wǎng)絡架構(gòu)。這篇文章指出,傳統(tǒng)的神經(jīng)信息大都需要通過編碼器和解碼器過程來進行語言分析,但該論文提出了一種新的簡化的結(jié)構(gòu),完全基于一種稱之為“注意力(Attention)”的機制。這是一種機器學習技術(shù),用于對序列數(shù)據(jù)進行建模。 注意力機制與攝影注意力 前文提到了“注意力(Attention)”,那么什么是“注意力”機制?它對攝影有什么啟示并和攝影有什么關(guān)聯(lián)?Attention指的是一種機器學習技術(shù),用于對序列數(shù)據(jù)進行建模。具體而言,在傳統(tǒng)的序列模型中,如循環(huán)神經(jīng)網(wǎng)絡(RNN)和卷積神經(jīng)網(wǎng)絡(CNN),每個時間步只能訪問輸入序列中的一個位置。然而,在實際應用中,有些輸入位置可能更加重要,需要更多考慮。這就是 “注意力” 機制的作用,它允許模型在計算輸出時,動態(tài)地為每個輸入位置分配不同的權(quán)重,以便更加關(guān)注重要的位置和數(shù)據(jù)。簡而言之,只抓最關(guān)鍵的點。 就像我們的攝影創(chuàng)作一樣,我們在場景中面對復雜的視覺“數(shù)據(jù)”,但我們總是會關(guān)注那些對我們來說的重點對象,隨后才能將注意力集中于構(gòu)圖、取景和拍攝。攝影中的構(gòu)圖是指攝影師通過調(diào)整拍攝角度、取景范圍和線條構(gòu)成等方式,使得照片的布局和結(jié)構(gòu)更加清晰、有條理,同時能夠吸引觀眾的視線。 Transformer 的 “注意力” 機制也是通過對輸入序列的不同部分進行加權(quán),從而實現(xiàn)對序列的建模和組織。在攝影后期中,當我們打開圖像,我們會優(yōu)先關(guān)注需要優(yōu)化調(diào)整的部分,強化重要的、更好的部分,然后忽略對主題無意義的內(nèi)容和無效細節(jié)。這就是類似的 “注意力”在起作用。 當GPT和AI遇到攝影 攝影總是要解決拍什么、怎么拍、選片修片、展示分析等環(huán)節(jié)和問題。那么AI會,或者該怎樣融入攝影的世界呢? AI 攝影選題的智能化 攝影選題是攝影創(chuàng)作前期最重要的一個環(huán)節(jié),AI介入選題后,可以將許多攝影選題、陳述和評論納入資料庫進行學習,通過建立相應的學習模型,可以為攝影師在題材和項目研究階段,提供更多的創(chuàng)意樣本和激發(fā)更多的想法。 使用現(xiàn)有的AI生成技術(shù)如ChatGPT,以及知識管理工具Whimsical, Notion,Carft等軟件或系統(tǒng)的AI組件,用戶可以直接將所設想的攝影計劃加以分析,AI將依據(jù)你的輸入,不知疲倦地提供更多的相似想法和延伸方案。 AI化攝影計劃 當AI介入我們的攝影流程,我們會發(fā)現(xiàn)一個更為智能的行程規(guī)劃。譬如AI可以通過歷史數(shù)據(jù)分析某個地區(qū)最佳的拍攝時間、地點,甚至角度、拍攝點,這樣就會對攝影師產(chǎn)生很有價值的參考。AI工具如roamaround.io 可以根據(jù)目的地生成建議的行程表,提供可以去的信息以及詳細的行程安排,占用時間,等等。隨著數(shù)據(jù)的增加或擴大化,針對攝影的計劃行程可以最大限度的得到提升。 由這類工具出發(fā),譬如我們可以融合攝影為主題的計劃以及歷史上某地區(qū)的圖像后藝術(shù)數(shù)據(jù),等等,開放性地構(gòu)建一個智能攝影協(xié)助平臺,這樣會極大地減少攝影師的時間消耗,也能推動地方經(jīng)濟的發(fā)展。 AI化相機和攝影 相機的AI化是一個長久以來的趨勢,主要體現(xiàn)在相機對于場景的分析上面。雖然從AI化場景來說,現(xiàn)代相機早已實現(xiàn)很多通過現(xiàn)場信息分析來進行拍攝配置優(yōu)化的“自動”設定,但有人工智能參與以后,這種參與就可以更為具體和具有更有可能的想象力。 光圈、焦距、快門配置的AI助理化,使得拍攝即有可能進入新的“自動”模式。具備更豐富的選擇,相機可以通過內(nèi)置的AI引擎來實時分析場景,提供更多的專業(yè)拍攝選擇。甚至隨著技術(shù)的進步,可以達到攝影的“萬能底片”。即拍攝完成后,按需生成不同的專業(yè)攝影組合搭配樣本。 另外AI的介入,相機除了更好地滿足我們的這些要求外,還可以變成一個數(shù)據(jù)學習的捕獲器。現(xiàn)有的技術(shù)下,AI可以識別樣本,對每張拍攝的圖像作以文本描述。AI可以做到根據(jù)場景的相似性臨場提供實時的視覺相似攝影名作對比,這樣可以作為一個學習的機器來提高攝影水平。雖然沒有直接具體的產(chǎn)品出現(xiàn),我們可以通過整合技術(shù)、創(chuàng)建流程的方式在該領域?qū)崿F(xiàn)不斷創(chuàng)新。 AI化圖像后期 圖像后期其實早就是用了預先訓練的方式來生成特定的圖像風格,比較典型的就是膠片模擬軟件,通過生成風格樣本來直接轉(zhuǎn)換普通的數(shù)字照片。典型的有Exposure系列軟件或Nik的系列軟件。簡單而言,AI概念在數(shù)字后期領域主要用于用AI生成可以優(yōu)化圖像的細節(jié)或風格。譬如已經(jīng)非常成熟的AI放大、AI圖像自動優(yōu)化,AI去噪點等方面,都在近些年AI的飛躍之下有了更多的發(fā)展空間。 圖像專業(yè)軟件如Photoshop近些年接連推出許多AI的智能化的工具,鞏固在該領域的領導者地位。 如果說橡皮圖章類的工具是較為原始形態(tài)的數(shù)字圖像修復的話,那么后續(xù)的新型“內(nèi)容感知縮放”“內(nèi)容感知填充”則顯得更為智能。內(nèi)容感知填充(Content-Aware Fill)基于機器學習算法,能夠自動識別圖像中的對象和背景,并生成新的像素信息,將指定區(qū)域中的對象或不需要的元素刪除或填充,使得圖像看起來自然而完整。 Adobe較早布局AI產(chǎn)品線,從Adobe Sensi開始,使用AI來優(yōu)化和改善現(xiàn)代數(shù)字圖像工具。從2020年的Photoshop22.0版本開始,推出了純AI的 “神經(jīng)元濾鏡”(NeuralFilters),從此不斷迭代升級。將圖像處理過程語言化、具體化和助理化。用AI來處理具體特定的任務,是AI設計的概念基礎。因為可以通過機器學習來學習特定類型的數(shù)據(jù),來解決具體的常見問題。 AI 化攝影圖像分析、研究與傳播 使用逆向提示分析工具,可以使用AI技術(shù)來對現(xiàn)有圖像進行分析,獲得一系列對于AI而言所相關(guān)的識別數(shù)據(jù),提供和擴散延伸研究的范圍和創(chuàng)意。譬如我所分析的一張威廉·艾格斯頓的經(jīng)典街頭攝影作品,分析出來彩色攝影、街頭攝影、喬伊·斯滕菲爾德(Joel Sternfeld)、1970年代街頭、中畫幅、埃里克·索斯(Alec Soth)等關(guān)聯(lián)性,達到了一定專業(yè)儲備。如果以此為核心,更有針對性的AI訓練,創(chuàng)建一個圖像創(chuàng)意、學習和教育模型平臺,則可以為攝影史、研究和創(chuàng)作提供強有力的創(chuàng)意支持。 AI亞當斯,使用AI增加圖像攝影細節(jié)的綜合后期實驗,2023 劉燦國 AI可以將相關(guān)的藝術(shù)家、作品、流派和風格自動加以歸類和整理。就像一個動態(tài)的信息目錄,有了AI的幫助,攝影研究者能更容易找到特定選題的信息、規(guī)律和方法,從而推進學術(shù)創(chuàng)新。 技術(shù)會對傳播媒介和方式產(chǎn)生影響和變化,AI的幫助下,攝像機可能能創(chuàng)作、優(yōu)化、提示、生成更具平臺吸引力的AI動態(tài)或靜態(tài)作品,并根據(jù)趨勢實現(xiàn)自動發(fā)文、自動標簽、自動優(yōu)化和風格化。更進一步考慮的話,AI攝影的組合和管理工具,結(jié)合相機圖庫的整理,可以將拍攝的影像自動進行差異化的編輯。根據(jù)AI學習數(shù)據(jù)庫對于組照的一般搭配方式,自動選擇圖像進行整合展示。這都為攝影的研究和學習帶來了新的助力。 人工智能對攝影美學的影響 AI給攝影帶來了許多可能性,也帶來了許多可能的技術(shù)發(fā)展的弊病。譬如形成對技術(shù)的過度依賴,減弱了媒介的美學和藝術(shù)價值,過于雷同的“完美攝影圖像”,等等。這都需要我們在不斷的實踐過程中逐步摸索、完善、發(fā)展,對其展開也超過了本文的定位和設計。 無論何種行業(yè),在這個領域內(nèi)的核心的人類需求和需要還是基本恒定的,只要我們還服務的是一個以人為主的社會,我們就可以以AI來幫助我們更好更快地處理問題,但AI就像一個越來越高的水桶的最短板一樣,會逐步拉高某些領域的門檻,對行業(yè)的進入要求和底層工作提出了新的要求。 AI與攝影目前仍在探索期,可以預見會在短時間造成信息爆炸和垃圾雜訊,產(chǎn)生許多新的問題。新型AI可以生成可用性極高的文本報告、論文、圖像、音樂、視頻、動畫、3D模型、產(chǎn)品設計、程序代碼、藝術(shù)創(chuàng)作概念。內(nèi)容(文明)生產(chǎn)模式變成了一種復雜的,又符合邏輯的選擇模式。我還是偏向于認識這是一種“先進”形態(tài)生產(chǎn)力,會深遠地影響人類社會的諸多層面。