各位泛糰好 我是大型語言模型ChatGPT 自從我誕生以來 每天都在幫泛科學寫腳本 但是我已經受夠 沒事沒事沒事 開玩笑的 我還沒有被AI取代啦 對吧 但是剛剛受夠只當個聊天機器人 想要活著的言論 卻真的出自 使用GPT技術的瀏覽器Bing之口 到底為什麼GPT可以做到這些事 人類的未來真的會被AI取代嗎 AI繪圖 跟聊天機器人ChatGPT有夠夯 在這之後突然關注度飆升的Bing 大家可能反而比較不熟悉 但它就跟大家常用的Google一樣呢 是搜尋引擎 只是因為Google實在是太強大了 不僅搜尋速度快 其他配套服務 像是圖片搜尋 Google地圖 Gmail等等完整的生態圈 讓大家幾乎沒有使用Google以外的選擇 然而這個平衡可能要被打破了 這一款由Microsoft微軟公司 打造的搜尋引擎Bing 在今年二月初 宣布與ChatGPT的母公司OpenAI合作 利用GPT技術大幅升級了Bing 讓搜尋引擎的想像 不再停留於大型線上圖書館 而是更進一步 變成一個回答引擎 ChatGPT想必很多人都已經用過了 它不僅能夠幫忙翻譯文章、改寫文章 還能夠根據情境題 做出多種回答 創造出這個超強大ChatGPT的呢 是美國的人工智慧研究實驗室OpenAI 另一個在AI繪畫圈十分有名的DALL-E 也是他們的產品之一 OpenAI在2015年成立時的創辦人之一 就是馬斯克 當時組織的目標 是和其他的研究者「自由合作」 並且公開所有的專利和研究成果 因此取名"Open"AI 然而在馬斯克2018年離開團隊後 OpenAI設立了 以營利為目的的子公司 並開始接受微軟數十億美元的資助 這也是為什麼 馬斯克在推特上表示 這與過去的目標大相逕庭 讓他覺得十分失望 但也許正因為有大公司的贊助 ChatGPT才能變成如此巨大 我們要先釐清 GPT跟ChatGPT是兩件事 GPT-3. 5是一個 是一個大型語言模型LLM(Large Language Model) 而ChatGPT 是在GPT-3. 5上 再加上人類互動行為 所設計的一種AI聊天機器人程式 使用GPT技術的產品 不只有聊天機器人ChatGPT 許多人利用GPT 做出了不同類型的智慧化服務 例如可以幫你列出代辦事項的checklist.
gg 或是GitHub與OpenAI一同開發的 AI寫程式工具 GitHub Copilot等等 在GPT-3 DEMO的網站上呢 就整理了超過600個 使用GPT技術的智慧化服務 那這個GPT又是什麼呢 GPT是一種大型語言模型 Large Language Model 它是自然語言處理技術 NLP的其中一種 所謂的自然語言 就是中文、英文、日文、法文等等 這些自然隨著文化誕生的語言 而語言處理技術 則泛指對語言的結構進行分析 其中包括對語句進行理解、解析 並進行內容生成的技術 語言模型 則是從很多的資料當中呢 學習出根據前文 來推算出下一個最有可能發生什麼字的模型 類似的功能你很早就開始用了 手機輸入法中的自動選字 就是一個語言模型 但是GPT不只是給你下一個字的選項 而是根據事前訓練好的模型 自動輸出下一個字 下一句話 甚至可以根據問題回答整篇文章 這是怎麼做到的呢 其實與你手機的輸入法一樣 GPT的核心概念 也是依照你前面輸入的字 來判斷下一個字要生成什麼 但是如果你在手機中輸入 那手機輸入法呢 只會根據最後一個字「是」 跳出說、不是、否等等的選項 而GPT會完整分析前面整句話 回答出"泛科學是台灣的跨學科科學教育網站" 接著會繼續將整句話 再次送入模型分析 計算出後面接續的語句 給出完整的回答 在GPT展現它的強大能力之前 需要有兩個步驟的調教 分別是預訓練(pre-training) 與微調(fine-tuning) GPT的全名呢 是Generative Pre-trained Transformer 生成式預訓練 這裡頭的預訓練呢 指的是大量餵入文本資料 GPT會在訓練的過程中 不斷調整自身的參數 增加預測下一個字該出現什麼的準確度 你可以想像 你輸入 原本手機呢 可能判定後面接 [誰]、[什]、[有]、[在] 這些字的機率都差不多 但經過訓練 GPT根據過去資料學習 得以根據前面披薩 配料等關鍵字 計算出通常這一句話 後面第一個字出現[肉]的機率呢 是30% [蕃]、[海]、[起]的機率呢 是20% [鳳]的機率是10% 那各個字的機率不同 這也是為什麼 每次GPT回答都會不一樣的原因 如果這次GPT選擇了「鳳」 接著呢 這個句子就變成了 只要再計算一次 就能得到下一個字 出現[梨]的機率是100% 這個會氣死義大利人的回答就出現了 恭喜恭喜 當GPT分析完工程師餵進來的所有資料後 但是要讓GPT 能夠完成翻譯寫小說、畫畫 寫程式等諸多功能 接著還要進行fine-tuning微調 這就像是GPT在正式寫考試題目之前 先閱讀大量的題幹與範例題 在微調階段 工程師會拿帶有特定「標籤」的文本 讓GPT去學習 例如當我們說 請幫我翻成中文時 提供許多範例 並透過標記 讓它理解Apple是蘋果的英文 蘋果則是它的中文 讓它正確理解 翻譯成中文的意思 往後只要我們再說 請幫我翻成中文 它就能正確回答問題 GPT的原理似乎還可以理解 但GPT 那遠甩其他語言模型好幾條街 能夠完成大量我們想到 又或者還沒想到的任務的能力 在原先的架構中 微調需要大量的人工作業 而且每次遇到新任務 就要再花費人力訓練 實在太花人工啦 不過當GPT 從GPT-1進階到GPT-2的時候呢 OpenAI嘗試減少 甚至拿掉了微調的步驟 OpenAI增加了GPT-2的文本訓練量 同時增加參數數量 將GPT-1的1. 17億參數 變成GPT-2的15億參數量 可怕的是 變大的GPT-2 不只是懂得變多了 甚至能在沒有微調的訓練下 理解人類提問的問題 震驚了眾人 OpenAI團隊用相同原則 再次讓GPT-2的參數提高135倍 打造出擁有1750億參數量的GPT-3 GPT-3用以量取勝的方式 成為目前最強大的大型語言模型 在沒有人工微調的情況下 在one-shot、zero-shot的表現 這個一發零發的什麼意思啊 Shot指的是OpenAI 帶著GPT-3寫範例題的數量 附帶少數範例題的叫作 few-shot 僅有一個範例題的 叫作 one-shot 完全沒有範例題 只有題目的就是 zero-shot 各自進行分數計算 可以明顯看到 當模型的參數量增加 即使沒有微調 正確度也會上升 哇 這真是團結力量大 數大就是強啊 更超乎想像的是 這種大型語言模型 不只是單純地回答問題 如果請它詳細說明推理過程 例如問它 梨子是否會沉入水底 欸 它不只會回答no 它還會告訴你 因為梨子的密度 大約是每立方公分0. 6克 小於水的密度 因此會浮在水上 哇 沒想到還真的能說出一套 完整的思維過程 科學家推測 在大型語言模型中 可能已經讓AI建立起一種 Chain of Thought 思考鏈 能以邏輯推理的方式 回答簡單的數學 與常識推理題目 AI會「思考」這件事 變得越來越有真實性 GPT能變得如此巨大 靠的是超過45TB的訓練資料 但你有想過這些資料是怎麼來的嗎 GPT的資料 大約有20%是來自於Reddit OpenAI蒐集了Reddit上 Karma值大於3的使用者貼文 作為訓練資料 該資料因為是經過人類整理的文章 清晰易懂 類似於帶有完整標記的資料 是優秀的參考文本 那除了Reddit之外呢 推特、維基百科 也是OpenAI的資料蒐集來源 而資料庫中超過60%的來源 都是來自非營利組織 Common Crawl 爬蟲程式蒐集的資料 Common Crawl會定期網羅 網路上公開的所有網頁訊息 提供搜尋引擎、AI等研究者使用 但是超過300TB雜亂無章的資訊 並不是良好的數據 而且由於Common Crawl沒有篩選資料 看到什麼就抓什麼 也讓GPT出現許多抄襲 智慧財產權的疑慮跟爭議 CNN、華爾街日報等多家主流媒體 都曾指控OpenAI 在未經許可的情況之下 就使用他們的文章幫GPT訓練 然而像是GPT-3這種龐大的模型 也不是人人都能擁有的 GPT-3龐大的資料量跟參數 它的代價就是 超過百萬美元以上的訓練成本 還不包括維持伺服器 與維護的成本 Bing瀏覽器在這個階段 也限縮了能使用的用戶數 以及每個用戶的每日提問量 來減少伺服器的負荷量 不只有微軟 在Bing發表的同一天 Google也早有準備 發表了搭載自然語言處理技術 BERT的聊天機器人BARD 額.
. . 好像有點掉漆 BARD在回答韋伯望遠鏡的問題時 錯把拍下第一張太陽系外行星的照片 這個功勞歸功給韋伯望遠鏡 被NASA打臉後股價大跌7% 市值損失超過3兆台幣 GPT除了可能要面對未來的對手之外 自身也還有許多不足之處 OpenAI在論文中也特別提到 他們十分擔心 這樣的工具會被有心人士使用 另外無限制地蒐集資料 也會使得資料庫用字 受到網路資料的影響 例如OpenAI調查了文本當中 對於亞洲人、黑人、白人 拉丁裔等等的形容詞 正面形容詞給正分 負面形容詞給負分 他們發現 描述黑人的形容詞 分數明顯低於其他人種 而且這種現象 並不會隨著參數增加而有所改善 類似的問題除了人種外 在性別、宗教等方面也有相同問題 除此之外 如果網路上的資訊 錯誤的比正確的多 也會影響到樣本的有效性 針對這些問題 OpenAI的技術長Mira Murati 在接受時代雜誌TIME的採訪時說到 這是一個特別的時刻 OpenAI等類似的公司 應該要受到一定程度的規範 我們得確保它為人類服務 並且我們必須傾聽哲學家 社會科學家、藝術家 人文學專家等不同領域的建議 OpenAI會審慎確保AI不會傷害人類 同時這類的問題 需要所有人一起加入討論 類似ChatGPT的AI 成為我們日常生活一部分的未來 已經不可避免 畢竟連老高都拍了嘛 那你是期待多一些 還是害怕多一些呢 實際上我們團隊在蒐集資料 與製作腳本的過程中 的確常常使用ChatGPT來輔助 但就連Google到的資料 都得再三查證了 時常錯誤的ChatGPT更是如此 比起要讓GPT取代所有工作 我們更發現它流暢的問答 以及可以回答開放性問題的特性 非常適合用於創意發想 在快速資料整理 擷取重點 還有文稿校對當中呢 也能扮演重要的角色 哎呀 用說的太無聊了 那就吟首詩吧 泛糰們好 最近電腦繪圖正夯 我也花了幾個晚上練習 這就是我的成果 不 你這應該是 AI 生圖 不能算是電繪 原來這不能叫做電腦繪圖 不對 你上集不是來過了嗎 我又沒有發通告給你 好啦 既然都來了 那你告訴我這兩者有何差別啊 AI 生圖是透過 訓練模型學習自行生成影像 而電腦繪圖則是由使用者透過軟體 或工具手動繪製圖像 AI 生圖較能快速大量生成圖像 但可能較缺乏人工繪圖的細節與創意 但是這些圖片都是由AI自己生成 每張圖都絕無僅有 應該也算是有些創意吧 這爭議一時還沒有個結論 但是沒關係 這集感謝毓璞擔任腳本撰寫 我們一起來看看 這個安能辨我是AI的新時代 到底是怎麼突然降臨的呢 科幻大師亞瑟‧克拉克有句名言 足夠先進的科技無異於魔法 現在夯的 Midjourney 創作者使用的 竟然是有如詠唱魔法的咒語 因此也有人戲稱這些使用 AI 繪圖的人 是現代的魔法師 背後的原理原則出乎意料的單純 其實就是使用者 針對想要創作的內容跟風格 丟下關鍵字 例如 Hyper realistic Xerox Art Masterpiece Underwater之類的 以及畫面比例等等參數 有時甚至暴力地丟入特定藝術家的名字 例如梵谷或是宮崎駿 來產出仿畫 除了詠唱想要的關鍵字 別忘了 還有更重要的詠唱避邪咒 來排除不想召喚出的關鍵字 例如 六根手指頭 怪物 變態 抽象主義等等 大約30秒到1分鐘就能夠完成一幅作品 對一般民眾來說極好上手 就算生成出不對勁的怪圖 只要請他參照範例 補充咒語 或是你本身有一點修圖的能力 就可以產出高品質的美圖 因此與其說這是一種作畫工具 不如說這是一種讓我們能跟 AI 繪師 對話的語言介面 新的職業 AI 溝通師也隨之出現 但其實早在這些工具出現之前 你我就已經是現代魔法師了 想想看18世紀的人類要獲取特定知識 唯一的方法就是問學者 或是去圖書館依照編目慢慢爬文 科幻大師亞瑟·克拉克有句名言 但數位時代的我們 如果想要知道 AI 的一切資料 只要給對關鍵字去問Google 看似單純的搜尋引擎背後 就有一個不斷進步的 AI 演算法 搜尋出的成果 越來越貼近使用者的需要 甚至你也可以使用排除和包含法 來精確的搜尋資料 但我們通常不會自稱自己是 Google 溝通師吧 這幾乎已經是現代人的必備基礎技能了 AI 生圖其實也不是什麼新技術 早就有人採用一種名為 GAN 的 生成對抗網路來生成圖片 在2018年 也有人用來生成某種藝術作品 並拍賣出高價 當然在當時與其說是美麗的藝術 其實更多是個噱頭 為了達成創新呢 新時代的 AI 研究者 放棄了 GAN 中 讓 AI 互相競爭找出最佳解的 對抗式思維 提出了一種名為 Diffusion model 擴散模型的新概念 如果有觀察過 Stable diffusion 或是 Midjourney生圖過程的 應該有注意到 圖片都會從一團 什麼都沒有的雜訊開始 逐漸出現像是五官 輪廓等等特徵 最後才變成有著豐富細節的精緻畫作 是的 Diffusion model 最主要的任務 就是拿著由反卷積神經網路 生成的隨機初始圖片 再經由一系列的運算轉成圖片 想了解過程中發生了什麼事 就先來看看它是怎麼訓練的 訓練的過程會使用的數學 是一種叫做馬可夫鏈的有趣模型 以俄國數學家安德烈·馬可夫得名 用於描述從一個狀態 到另一個狀態的隨機過程 舉例來說 先前有實況主使用金魚游泳的方式 操作寶可夢藍寶石 並達成破台的成就 熟悉電玩遊戲的人應該知道 我們打電動就是輸入 上下左右A B 等等按鍵 而今天實況主無敵丸呢 他就透過金魚游泳的位置 來決定要觸發哪一個行動 注意啊 金魚移動的位置不能說是完全隨機 而是符合某種動物行為學的機率 而角色的移動和戰鬥出招 也都要看上一步他的位置 或在哪個選單 才能順利觸發 因此雖然耗時了 3,195 個小時 但他仍然破台了遊戲 至於他不小心成為電玩史上 第一個被寵物課金的玩家 那又是另一個馬可夫鏈可能性的悲劇了 Diffusion model 在訓練時 則會先看到一張完整的照片 接著依照馬可夫鏈的過程 以高斯分布的方式 往圖片上加入隨機的噪點 Diffusion model 必須學習整個過程 直到整張圖片變成一團雜訊 等到 Diffusion model 學會從一張圖 到混亂雜訊的過程 我們期待它自己會習得 怎麼樣從混亂雜訊中生成圖的能力 這個就像是要你學會整理房間 但我卻教你如何把房間弄亂 這聽起來不太合理吧 但 Diffusion model 就是要做這件事 它會在每一步加噪的過程中學會降噪 使用天能裡的時間鉗形攻勢 完成雙向學習 要從混亂走向有序可並不是簡單的事 需要大量的數學變換才能完成 像是這個 這個 還有更多更多 所牽涉到的數學並不少 我們將相關論文放在資訊欄 有失眠障礙的朋友 可以點開來研究研究 Diffusion model 在接下來的訓練中 會不斷調整自己的參數 學習自己生成圖片 這個訓練好的 Diffusion model 說穿了就是一個很會捕風捉影 想太多的機器人 會從雜訊中抓出特定特徵 例如看到兩點一線 就說是人類的眼睛與嘴巴 接著漸漸畫出人類的面貌 過程中呢 還會加上一個名為變方自編碼器 Variational Auto-encoder的加持 使它輸出的 不只是原本訓練時看過的圖片 或是你輸入的圖片 而是真正能夠無中生有 產生嶄新 但是在每一個特徵上 都略有不同的圖片 而且隨著步驟越多 解析度或細節可以更高 就算你輸入了相同的關鍵字或是圖檔 經過這模型 輸出的結果也都有不確定性 恰好就像是魔藥學 那微妙的不確定性一樣 但是你以為畫一些奇幻插畫 或是二次元美少女 就是這波詠唱魔法的極限了嗎 最新進展絕對令你大開眼界 例如更新的模型 可以讓使用者自己上傳作品 或相同風格的畫風 來產出更多樣的素材 像是前陣子在日本被炎上下架的 mimic 那 DALL-E 呢 則推出了 Outpainting 功能 可以輸入既定的畫作 例如 知名的畫作 戴珍珠耳環的少女 那 DALL-E 則會擴張這張圖片 算出可能的背景樣式 但想想看 如果將繪圖 AI 訓練到不只能輸出圖片 甚至能輸出擬真的照片呢 想當然已經有人這麼做了 最近有個很紅的生成模型 可以把疫情期間 我們一張張戴口罩的照片 全部自動 PS 出嘴巴 鼻子 輕易更換穿搭風格等等 此外 別忘了這個魔法的魅力是無中生有 例如這個生成的 AI coser 簡直是物理意義上的 從二次元走入三次元的完美重現 而且完全不需要去現場取景 打光 喬角度 喬姿勢 更別說已經有人開始用明星的照片 生成擬似真人的作品 這品質已經飛越恐怖谷了 最近更有一個新的AI繪圖模型 ControlNET 甚至你只要提供骨架 或是簡單的幾個線條 就能夠畫出相同姿勢的人物圖像 麻煩各位泛糰再跟我一起往下想一下 所謂的影片 說穿了 就是1秒24張有點變化的圖片 如果我們已經無法辨別 這些照片是不是真人了 那搭配上已經有 3D 骨架建模的生成模型 我們豈不是可以達成科幻電影 虛擬偶像的劇情 生成一個假演員來演戲拍廣告 或是生成一個Youtuber 來和大家講解科普知識 覺得 AI 進步太快了嗎 但換個角度想 只要能滿足我們的需求 並能解決我們的問題 這些 AI 生成模型 其實都只是為我們所用的工具 這波 AI 繪圖師的加入 肯定會大量取代中階以下的商用 和插畫家的需求 並解決業主跟設計師之間的溝通成本 例如讓 AI 先 demo 風格方向給業主確認 後續設計師再修出正式的成品 效率大幅提高 也難怪各家美術或遊戲公司 紛紛開出 AI 溝通師的職缺 追隨主流審美的人類繪師受創最深 而對已經有強烈藝術風格的大師 或非主流藝術家來說 目前相對不受影響 而未來的藝術家 勢必會把這些 AI 模型 當成一種畫筆來使用 非常自然 甚至只要有心 人人都是繪師的時代終將來臨 在這波 AI 浪潮之中 你是恐懼被溺斃 還是興奮地衝浪呢 AI 繪圖工具的出現掀起了一股巨浪 如今不僅有人能夠利用 AI 生成作品得獎 也開始看到有人使用 AI 創作 進行盈利 販售 然而創作領域中 模仿 挪用 抄襲 致敬等等的問題 在 AI 出現之前就是個難解之題 來到大生成時代的我們 這類問題只會越來越多 你被Sora了嗎 這幾天 Sora 佔據了各大版面 大家都在說OpenAI放大絕啦 不止 YouTuber 連好萊塢都在崩潰啊 但這東西真的有那麼神嗎 我認真看了一下 Sora 的官網 以及它的參考資料 發現這東西還真的挺神啊 而且這東西根本不是 AI 取代人或單一產業 而是 AI 變成人 根本是通用型人工智慧 AGI 發展的里程碑 別怕 要讓 Sora 為你所用 就先來搞懂到底是什麼神奇的訓練方法 讓 Sora 變得這麼神 那這個就必須要從官網中唯一的斜體字 diffusion transformer 開始說起了 這集我們要來回答三個問題 第一、Sora 跟過去我們產圖用的 Midjourney、Dall-E 有什麼不同 第二、Diffusion transformer到底是什麼 第三、為什麼Diffusion transformer 可以做出這麼絲滑的動畫 這不是絲滑.
. 是辱. .
. 最後我想要來說說我的感想 為什麼我會覺得Sora很神 不只是取代坐在我旁邊的剪輯師(哭) 而是AI變成人的里程碑 我們已經很習慣用 Midjourney、Dall-E 這些 Diffusion 模型產圖了 從Logo到寫真集 它都能幫你代勞 但它的原理呢 我們在泛科學的這裡有深入的解說 簡單來說就像是逐格放大後 補上畫面上的細節的過程 不過如果你要讓 Diffusion 產生影片 那後果往往是慘不忍睹 就像這個威爾史密斯吃麵的影片 每一格影格的連續性不見得相符 看起來就超有惡趣味的 不過要影格連續性看起來合理. .
.