close
人工智慧AI很紅,也越來越影響到我們的日常生活,有時聽起來還滿驚悚的,的確如此,使用”機器學習(Machine Learning)”方式的AI程式像個黑盒子一樣,經過大量的資料餵養訓練後,利用AI來做辨識、拆解、分析、模擬等,結果常讓人膽顫心驚!
“電腦也會撿土豆喔!”這句有名的廣告詞,現在成了”電腦也會作曲喔!”,例如 moises (https://moises.ai/zh-tw/)這個AI平台提供將音樂的樂器個別分離出來,然後依照妳喜愛的風格(例如: 鄧麗君風格)重新組合成一張音效完整的數位錄音(例如CD),很神奇吧! 這兒就包含了幾項特異功能: 辨識及分解樂器、理解模擬風格、重新調整組合等,這只是AI的初步,隨著運算速度的提升、特殊製程的精進、特異功能的演算法出現,想像空間很大的。
那古典音樂呢? AI可能如何改變古典音樂呢? 這是我的范德西 (Fantasy),情景有:
A. 將老舊錄音Hi-Fi化,體驗如臨現場的佛特萬格勒在拜魯特的貝九
B. 讓音樂家完成他未曾留下的錄音,Gilels終於完成他的貝多芬大全集
C. 讓作曲家作完他的未完成作品,不用再忍受杜蘭朵的結局
D. 美夢成真,讓我錄下自己指揮維也納愛樂的貝多芬交響曲
這樣是不是很完美? AI讓我們沒有遺憾,讓時間倒轉,讓我們完成不可能的任務,聽起來還真是很范德西! 我這就來論述一下如何利用AI來實現這些范德西。
(A) 將老舊錄音Hi-Fi化
這可能是這幾項范德西中最具有實質意義的應用,撇開有人喜愛那種帶有光陰味道的聲音,其實那是受限於當年的錄音技術所至,Caruso如果知道有現在的Hi-Fi錄音技術,應該不會只想對著蠟盤唱歌吧! 那如何將老舊錄音翻新呢?
【方案一: 拆解復健】
首先必須要能”拆解”,將每項樂器分離出來,也能將中高低音的男女歌聲分離,這就是”深度學習(Deep Learning)”的特異功能,聲音是頻率、時間與強弱的組合,每種樂器發出的聲音除了主頻率外,泛音(harmonics)是構成該樂器音色的重要因子,在廣泛蒐集該樂器在不同環境下的聲音反應、同類樂器間的差異、演奏者的差異後,透過AI深度學習各項樂器的特性,然後從錄音中將該樂器的聲音分離出來,這樣逐步拆解該錄音成為各項獨立的樂器及人聲,就好像把塵封已久的樂高拆成一個個積木,清洗乾淨後,這樣才能再重組成原來漂亮的樣子。要能夠分解出樂器聲音可不是件容易的事,只有兩三種樂器組合的室內樂跟交響樂團的大合奏可是完全不同等級的事,得加入該樂曲使用樂器的組合(樂譜)當參考才有機會分解的了。
拆解出來的樂器聲先要進行”復健”,先把聲音修復成應該有的美麗音色或是原始音色,然後套回去原來的節拍及音量(類似多軌混音),還要製造出Hi-Fi的音響效果,也得參考錄音當時的樂器擺放位置,再送入final mastering的流程,這樣也許有可能重建佛特萬格勒那張震驚全球在1951年拜魯特音樂節的貝多芬第九號現場錄音,呈現出如臨現場的Hi-Fi音響感! 或是簡單一點的讓Caruso的演唱活靈活現,把1910年的蠟盤變成2020年的高品質錄音。
【方案二: 反向操作】
另外一種可行的方式是設法建立AI自我學習模擬模式,要把”老舊錄音Hi-Fi化”是不容易,但把已有的”Hi-Fi錄音老舊化”可容易多了,那我們就倒過來操作,也就是將現有的Hi-Fi錄音(A版)製造成老舊感的版本(B版),然後去比對AB版間的差距,等AI有了這個fu後,將原本就是老舊的錄音輸入(基準A),然後產生猜測的Hi-Fi效果,再將之老舊化後,再跟基準A比較,再回去修正Hi-Fi,如此反覆N次後,連AI都相信這個老舊的聲音應該源自於這個”好像真的Hi-Fi”源頭,聽起來很玄(or炫)吧! 這種方式採用類似”生成對抗網路(Generative Adversarial Network, GAN)”的方法,讓造假的不斷地被修正到看起來像真的! 這就像用DeepFake製做出讓Obama說出Trump髒話的效果,真到難以分辨。
【方案三: 靈魂附身】
相對簡單的方式是”代位演奏”,讓別人代替你演出! 例如讓Domingo唱出Caruso的唱法,也就是將Caruso演唱的特色、音高、速度等套到Domingo的聲音上,先抓取Caruso唱 O sole mio的特徵,然後套入Domingo唱同首歌曲的Hi-Fi演唱,也就是借用Domingo的效果演譯Caruso的神采! 擴大一點,讓卡拉揚跟柏林愛樂產生跟佛特萬格勒演奏貝九一樣的所有特徵,好像是佛特萬格勒的靈魂附身到卡拉揚的唱片上,藉由現代Hi-Fi的錄音效果,重現當年演奏時的精氣神! 這種方式採用類似”強化學習(Reinforcement Learning)”的方式,在樣本數不多的情況下,讓AI逐步逼近於”參考標準”,也就是讓卡拉揚越來越像佛特萬格勒,這樣就”附身”上去了!
方案一是一種很蠻幹的方式,但顯然也應該是最準確的方式,從簡單的室內樂開始拆組,問題不大,複雜的交響樂或歌劇就不容易了,當總奏出現時,真的很難分辨單獨樂器的聲音,所以方案一不適用於佛特萬格勒的貝九,但是要把Busch Quartet的貝多芬弦樂四重奏整修一下,倒是不難。方案二及分案三都是近似法,比較有可能應用到交響樂及歌劇上,然而這樣的效果恐怕很多樂迷都會嗤之以鼻的,即便已經非常接近原始現場,但時光無法倒流,也無法驗證了。
全站熱搜
留言列表