谷歌最近發(fā)了篇論文,重申了一個來自信息論的觀點(diǎn)——“壓縮即智能”。當(dāng)然,論文的新意,在于通過對“壓縮率”的定義并提出相關(guān)計算方法,從而可以嘗試對“壓縮即智能”給出一個定量的解釋,并將其與人工智能大模型聯(lián)系起來。
所謂“壓縮”,全稱當(dāng)然是“數(shù)據(jù)壓縮”。正如一本寫得相當(dāng)生動有趣的普及讀物《數(shù)據(jù)壓縮入門》所指出的:
“我們需要知道這樣一件事:我們當(dāng)下生活在其中的這個計算世界,完全建立在數(shù)據(jù)壓縮算法之上。
是的,每個部分都是如此。
每個網(wǎng)頁、每個圖像、每首歌、每個關(guān)于貓的視頻、每部流媒體網(wǎng)絡(luò)電影、每張自拍照、每次電子游戲下載、每個微型交易,甚至是操作系統(tǒng)的每次更新,所有這一切都得益于壓縮算法。事實(shí)上,哪怕只是想通過互聯(lián)網(wǎng)傳輸一個二進(jìn)制位的數(shù)據(jù),也離不開壓縮的內(nèi)容。
數(shù)據(jù)壓縮技術(shù)最讓人驚異之處在于,它與過去40年里個人計算的很多重大改變有關(guān),但很少有人知道這一點(diǎn)。”
信息論創(chuàng)始人克勞德·香農(nóng)在為傳輸信息進(jìn)行壓縮編碼的過程中,意識到這種壓縮是有一個極限閾值的,超過這個閾值,被壓縮編碼的信息就無法通過解碼,復(fù)原為原始信息了,而是有相當(dāng)一部分信息就此被損失掉,比如作為“有損壓縮”的MP3音樂格式,聽上去效果就要比CD差不少。這個閾值被命名為“香農(nóng)熵”。相應(yīng)地,“無損壓縮”就是壓縮率控制在“香農(nóng)熵”以下,比如解碼后可以比較好地恢復(fù)到CD音質(zhì)的APE、FLAC等格式。所有的現(xiàn)代壓縮算法,可以說都是在頑強(qiáng)地與“香農(nóng)熵”作斗爭,希望開發(fā)出以盡可能高的壓縮率來“高保真”地保存、傳輸和復(fù)制信息的技術(shù)。
但其實(shí)數(shù)據(jù)壓縮遠(yuǎn)不只是算法問題,而是涉及人類對世界根本的認(rèn)知方式。
我們且撇開數(shù)據(jù)壓縮算法中的數(shù)學(xué)原理,單就“壓縮即智能”這一觀點(diǎn),其實(shí)和我在某篇機(jī)器學(xué)筆記里所說的“模型即智能”,完全是等價的,因?yàn)樗^模型,就是給無限變量的復(fù)雜世界建一個有限變量的模,通過被大大壓縮的變量數(shù)量,及其相互作用的結(jié)構(gòu),來有效模擬復(fù)雜世界在某一特定時空中的運(yùn)作模式(用本屆諾獎得主杰弗里·辛頓的術(shù)語來說,就叫做“泛化”,即通過少量已知數(shù)據(jù)準(zhǔn)確預(yù)知大量未知數(shù)據(jù)),從而讓我們可以作出預(yù)測和決策。
事實(shí)上,所有的科學(xué)公式都不外乎是一種模型,因此也不外乎是一種數(shù)據(jù)壓縮方式。模型總是只能在一定時空中起作用,哪怕它是牛頓定律,因?yàn)槟P蛯?shù)據(jù)的壓縮根本來說總是為了擬合眼前的“事實(shí)”——這正是“實(shí)驗(yàn)科學(xué)”的本質(zhì)。更高的壓縮率一般意味著更好的模型,也就意味著更高的智能,就好比萬有引力定律對近代的觀測宇宙有最高的壓縮率(也就是用最精煉的公式定義了這一宇宙的運(yùn)作方式),因此牛頓不僅比絕大多數(shù)人,而且比絕大多數(shù)科學(xué)家有更高的智能。
為什么我們可以說“壓縮即智能”或“模型即智能”?因?yàn)閴嚎s變量數(shù)據(jù)或者建模,就意味著“主動”地挑選出一部分被認(rèn)為是關(guān)鍵的變量,而舍棄絕大多數(shù)被認(rèn)為是冗余的信息,來為這個看上去無比復(fù)雜的世界建模,這種認(rèn)知的“主動性”、這種應(yīng)對世界的“主動性”——而不是像(我們所以為的)石頭那樣被動接受一切——不正是當(dāng)我們談及“智能”的時候,真正讓我們感覺make sense的東西嗎?
并且智能和學(xué)習(xí)能力高度相關(guān)。什么是學(xué)習(xí)?無論人的學(xué)習(xí)還是機(jī)器學(xué)習(xí),本質(zhì)不都是學(xué)習(xí)用建立在有限數(shù)據(jù)集基礎(chǔ)上的模型去應(yīng)對這個無限世界,并在應(yīng)對的過程中根據(jù)反饋不斷調(diào)整以至迭代模型嗎?所以“學(xué)習(xí)即智能”很大程度上也與“壓縮即智能”等價,人工智能大語言模型,正如“GPT之父”伊爾亞·蘇茨克維多次強(qiáng)調(diào)的,本質(zhì)上就是個效率極高的數(shù)據(jù)壓縮機(jī)。
《數(shù)據(jù)壓縮入門》
[美]柯爾特·麥克安利斯 亞歷克斯·海奇 著
人民郵電出版社2020年3月版
幫企客致力于為您提供最新最全的財經(jīng)資訊,想了解更多行業(yè)動態(tài),歡迎關(guān)注本站。鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。