“住住犯諱事件”要說完全沒有掀起波瀾也不恰當,。自那次事件后,,歌妓開始人人自危,不太愿意公開奏曲演唱了,。教坊司在研究了很久之后,開始了一項宏大的歌詞合規(guī)性審查(Compliance Check)計劃,,設立專門的職位對歌詞進行合規(guī)性審查,。
這項工作落實到基層,結果就是陳姐手指一點,,蘭鈺便開始擔任相關的工作了,。這活說輕松也輕松,說難也確實不容易,。畢竟,,上頭不會給你一張禁用詞列表,你需要進行自我審查,,確認那些用語是不合適的,,犯諱的。這相當于需要從頭建立一個數據庫,,對違規(guī)詞進行收錄,。
蘭鈺向陳姐確認了當朝一定品級以上的官員的姓名,也對天家的人員構成進行了排查,。從乳名到小字一個都不放過,。沒有官職的人通常也不在教坊司的服務范圍內,問題不大,。這些資料有些連陳姐也不是很清楚,,蘭鈺也多次寫信向蘇易請教。他也耐心地指導了自己很多,。
但是,,很多數據依舊缺失。一方面實在是皇家人員,,特別是女眷的乳名,、小字不好調查。另一方面則是官員的數量龐大,,需要吏部的協(xié)助,。而這種禮部下轄的教坊司的部門內的小事想要奢求跨部門合作(Interdepartmental Communication),特別是在禮部尚書空缺的現(xiàn)在,這事基本沒有可行性,。順便一提,,禮部尚書空缺的原因是前任禮部尚書,也就是蘭鈺的親爹,,突然辭職,。
于是,數據庫的建立在一開始的順利過后,,很快就陷入了僵局,。陳姐實在看不下去,就勸蘭鈺適可而止,,也不用盡善盡美。大差不差就行了,。蘭鈺雖心理有疙瘩,,也就這能在這事上暫且告一段落。
下一步行動計劃是建立屏蔽詞的觸犯規(guī)則,,對靈敏度閾值(Threshold of Sensitivity)進行設定,。這事也不好辦。如果設定地太過靈敏,,那么很多常用詞就不能用了,,歌詞的自由度就會受到極大的限制。但是設定地太過寬松,,那么犯諱的可行性就大大增加了,,一不小心這鍋就背到自己的身上了。
例如,,在兩個音相似的時候,,要對兩個詞的相似度進行計算?!敖焙汀熬础眱H韻尾不同,,還是容易引起不滿?!巴ā焙汀巴眱H聲調不同,,在歌詞中區(qū)別不明顯,也不行,。但是“通”和“痛”則平仄都不同,,即便在歌詞中差異也較為明顯。問題就不是很大,。
仔細一想還是不妥,。如果被犯諱的人并不是很重要的官員,那么或許僅韻尾不同的近音字或許問題不是很大。但如果是被犯諱的人是天子,,那么即便兩個音有一點點相似都不行,,連“您”和“令”這種平仄、聲調,、韻尾,、聲母都不相通的近音字也要列入控管。
蘭鈺的方案這樣的,。先對官員的重要性進行打分,,范圍是0-10,10為最重要,。然后對歌詞和數據庫的詞的相似度進行打分,,范圍還是0-10。對兩個參數分別平方后相加,,即為最終得分,。若得分高于閾值,則視作犯諱,,需要對歌詞重新改寫,。
法不可知則威不可測,確立一個明確的規(guī)則對于重新恢復歌妓的信心至關重要,。并且隨著國家對外交流的逐漸增多,,外來音樂極大程度地沖擊了本土音樂。教坊司的演奏曲目之中,,西方外來音樂的占比已經超過九成,。在大量外來音樂的語言本地化(Language Localization)的過程中,重新改編原詞勢在必行,。若是教坊司的歌妓不敢放開手創(chuàng)作,,那么約束更少的私妓將會在更加自由的環(huán)境下創(chuàng)作出更好的作品,官妓的經營狀況,、名譽等也會受到影響,。
然而,下一步才是更大的難關,。蘭鈺需要對現(xiàn)有歌詞的每一個文字連續(xù)單元進行遍歷(Traversal),,并計算相應的分值。這并不需要做分詞(Tokenization),。例如“忽如一夜春風來”可以分為“忽如/一夜/春風/來”,。在自然語言處理(Natural Language Processing,簡稱NLP)過程中,,根據詞表(也就是詞典)對目標文本進行掃描,,把每個詞分隔開的過程稱為分詞。但是避諱詞可能出現(xiàn)在“夜春”等奇怪的文字串中。它并不構成詞,,但是確實這連個字連在了一起,。若恰好這個文字串是某人的小名的話,確實會引起部分人的不滿,。
不作分詞雖然減少了步驟,,不需要專門構建分詞工具,但是卻大大增加了計算復雜度,。例如,,假設屏蔽詞數據庫的字數分布在2個字到5個字之間,那么你需要對“忽如”進行計算,,然后對“忽如一”已經計算,,然后依次是“忽如一夜”、“忽如一夜春”,。這些計算完成后,,再對“如一”、“如一夜”,、“如一夜春”、“如一夜春風”進行計算,。在現(xiàn)代可能做一個For…Next循環(huán)就可以搞定交給電腦了,,但是這個古風世界,這計算量可謂驚人……
正所謂算力不足,,人力來堆,。蘭鈺將當前的工作進度和招聘計劃撰寫好之后就去找陳姐了。陳姐極有涵養(yǎng)地耐心聽完了蘭鈺的報告和招聘需求,,然后一言不發(fā),,眼睛的焦點仿佛越過了蘭鈺,正對著無限遠處的星辰大海,。
好久好久,,她的焦點終于又回到了蘭鈺身上,然后緩緩輕聲道:
“不知道的還以為你在造大炮呢,?!?p> “那這人員補充……”
“沒人?;厝グ?。”
“但是……”
“回去吧,?!?p> “……”
“老娘讓你給我滾!”
蘭鈺第一次見到了陳姐生氣,嚇了一大跳,,然后悻悻的離開了,。
蘭鈺輾轉反側想了很久,這計算量靠自己是絕對不行的,。她數學雖然不差,,但是算術不行。別人口算能解決的事,,她必須要筆算才能搞定,。別人5分鐘能夠算完的立體幾何題,她必須要算20分鐘,,還不一定算得到結果,。這活沒有想象中的順利啊——她望著上千篇歌詞嘆道。
晚上,,蘭鈺做了一個夢,。夢到了一個金發(fā)碧眼的少女蹲在地上哭泣。她很漂亮,,穿著復雜蕾絲的裙子,,露出白色的絲襪腿和黑色的漆面小皮鞋。蘭鈺手足無措地站在她面前,,想要去安慰她,。剛想要伸出手去,結果少女突然站了起來,,竟然比自己還要高一些些……
早上醒來,,蘭鈺滿身都是汗。這像是個恐怖故事,,她的感覺不是很好,。待她的現(xiàn)實記憶慢慢回籠,她想起來,,那個少女應該是凱瑟琳——那個只有一面之緣的少女,。
她梳洗了一下,重新面對大·歌詞合規(guī)性審查計劃,。她注意到了以前沒有注意到的盲點,。她其實并不需要對上千篇歌詞進行審查。她只需要把過去所有的歌詞統(tǒng)一視作未審查,,然后要求今后所有的演出曲目必須經過自己的審查就可以了,。
由于并不是每天都有官宴,所以教坊司也不是每天都有演出,。只要讓歌妓們在演出的前三天把歌詞底稿帶來,,自己就有充裕的時間進行計算和審查,。而審查規(guī)則可以公布給歌妓們,讓她們首先自查,,高亮每一句話中得分最高(最有可能犯諱)的三個詞并寫上分數,。確認沒有問題后再由蘭鈺復查。五次復查沒問題的歌妓列入白名單,,走快速審查通道,,可直接放行,只做偶爾的抽查即可,。
她覺得這個辦法好,,又去陳姐那里匯報,并要求采購代表審查通過的印章,。陳姐琢磨了一下,,同意了。蘭鈺便愉悅地前去實施了,。在她看不見的地方,,陳姐微微嘆了一口氣:
“這孩子努力倒是挺努力的,就是有點傻……”