0202.再次挖角谷歌-Kaltix歸心
{時間:2003年3月4日}
{地點:加州-帕洛阿爾托}
無論哪個時候謙虛總是好的,但是過于謙虛有時候難免給人誤會,。所以面對Kaltix三人組,,寧子默并不謙虛。
Kaltix三人組說掌握的技術(shù),,確實是針對谷歌的PageRank去做的提升。但Bing同樣在網(wǎng)頁頁面權(quán)重方面有自己的專用算法,,搜索引擎本質(zhì)上的共性讓Kaltix技術(shù)的融入并不存在問題,。
問題在于,如何將Kaltix三人組納入旗下,。這可不是簡單地把Kaltix三人組挖過來那么簡單,,而是對谷歌和Bing相對此消彼長的“騷操作”。
既然是此消彼長,,寧子默不介意亮亮肌肉,。
用迅雷不及掩耳之勢,拿下三人!
于是,,這一番大數(shù)據(jù)搜索的延伸場景擺在2003年這個時代,,已經(jīng)不足以用驚艷來形容。
包括霍夫曼在內(nèi),,辦公室里呆著的四人一幅“懵逼”的樣子盯著寧子默,,讓寧子默一時間有種“說過了”的感覺。
確實,,剛剛講的東西對眼前的四人而言,。
太超前了!
他們的理解,,
或許還跟不上,。
沒想到賽普突然張了張嘴,小心翼翼地說,,“寧,,我們?nèi)嗽凸雀杷阉饕嬗懻撨^搜索引擎技術(shù)的發(fā)展。本以為我們的展望已經(jīng)十分超前,,沒想到你鋪開在我們面前的那副畫卷完全超越過我們曾經(jīng)的想象,。”
眼前這位叫做寧的年輕人,,不僅僅是大名鼎鼎的PaypalCOO,,竟然還是【領(lǐng)贏】和【MySpace】的聯(lián)合創(chuàng)始人。
他已經(jīng)在過去的數(shù)個項目中展現(xiàn)了他的創(chuàng)造力,,卻沒想到他在搜索引擎這么專業(yè)的領(lǐng)域竟然有著超越這個時代的獨到見解,。
他關(guān)注的不僅僅是技術(shù),更是科技,,或者說互聯(lián)網(wǎng)技術(shù)在人類文明未來的發(fā)展中所起到的關(guān)鍵作用,。
如果說以前很多人問自己-搜索引擎可以干什么,自己的回答最多會比寧給出的答案更好一些:
“搜索引擎可以幫你更快速找到更專業(yè),、更詳盡的答案,。”
但是今天過后,,賽普覺得他或許會給問出問題的人一個更好的答案,。
或者說,今天過后,,他突然給不出別人一個答案,。
搜索引擎可以做什么?
寧已經(jīng)講得清清楚楚,,
但那個未來,,
離現(xiàn)在確實還很遠。
想到這里,賽普鼓起勇氣問到,,“寧,,你說描繪的畫卷絕對是搜索引擎未來最值得去探索的發(fā)展方向?!?p> 抱歉地點了點頭,,賽普訕笑著說,“并不是說我不看好你所說的未來,,而是我意識到你所說的那個未來,,離我們有些遠。它一定會用到大量的新技術(shù)去實現(xiàn),,而那些技術(shù)并不是一個簡簡單單的團隊可以完成的,。
甚至就連目前在搜索引擎領(lǐng)域十分領(lǐng)先的谷歌,就算它有足夠的技術(shù)積累,,也不能在短期內(nèi)達成你所說的那個未來,。單單如何將網(wǎng)頁文件串聯(lián)成數(shù)據(jù),并以數(shù)據(jù)庫查詢的方式來實現(xiàn)搜索,,都是個目前短期內(nèi)難功課的難點,。”
“夢想總是要有的,,要不然怎么去一步一步實現(xiàn)它,?”
寧子默把有關(guān)夢想的話變了個說話,就在賽普表態(tài)的同時,,他已經(jīng)想到了更深層次的東西,。
寧子默明白,有一些人,,僅僅只靠畫餅是不能完全說服的,。
自己必須拿出完全體來對付這幫同樣有夢想的年輕人!
寧子默自信地笑笑,,乘著抿一口咖啡的時間在腦子里將谷歌搜索的關(guān)鍵技術(shù)匯集成冊,。
把杯子從嘴邊拿開的時候,寧子默腦子里有關(guān)谷歌搜索關(guān)鍵技術(shù)的封印,,
已然打開,!
“說到搜索,人們往往會簡單地認為搜索只是抓取爬蟲從網(wǎng)絡上抓取的結(jié)果,。但實際上,搜索并沒有人們想象的那么簡單,?!?p> 寧子默將杯子輕輕地放在桌上,笑著掃了三人一眼,細細地解釋到:
“我們談到大數(shù)據(jù)搜索,,其核心一定是體量極大的數(shù)據(jù)量,。這種體量的數(shù)據(jù)存儲、索引和檢索,,已經(jīng)不單單是數(shù)據(jù)庫結(jié)構(gòu)能去實現(xiàn)并解決的,。
大數(shù)據(jù)量的數(shù)據(jù)存儲和搜索一定要有對應的文件存儲檢索系統(tǒng),它必定是一個面向大規(guī)模數(shù)據(jù)密集型應用的,、可伸縮的分布式文件系統(tǒng),。
我們【Bing】除了在搜索和爬蟲上用心外,最核心的部分還是背后那套圍繞在BFS(Bing File System)文件系統(tǒng)的核心技術(shù)體,。這套系統(tǒng)的設(shè)計目標,,與許多傳統(tǒng)的分布式文件系統(tǒng)有很多相同之處。比如,,性能,、可伸縮性、可靠性以及可用性,。
但BFS的還是以應用負載情況和技術(shù)環(huán)境的分析為基礎(chǔ)著重考慮,,不管現(xiàn)在還是將來,BFS和早期的分布式文件系統(tǒng)的設(shè)想都有明顯的不同,。所以我們重新審視了傳統(tǒng)文件系統(tǒng)在設(shè)計上的折衷選擇,,衍生出了完全不同的設(shè)計思路。
首先,,組件失效被認為是常態(tài)而不是意外,。BFS需要管理成百上千存儲機器,同時被相當數(shù)量的用戶終端機訪問,。BFS組件的數(shù)量和質(zhì)量導致在事實上,,任何給定時間內(nèi)都有可能發(fā)生某些組件無法工作,某些組件無法從它們目前的失效狀態(tài)中恢復,。
當我們遇到過各種各樣的問題,,比如應用程序bug、操作系統(tǒng)的bug,、人為失誤,,甚至還有硬盤、內(nèi)存,、連接器,、網(wǎng)絡以及電源失效等造成的問題。所以,,持續(xù)的監(jiān)控,、錯誤偵測,、災難冗余以及自動恢復的機制必須集成在GFS中。
其次,,以通常的標準衡量,,我們的文件非常巨大。數(shù)GB文件都可能非常普遍,。每個文件通常都包含許多應用程序?qū)ο?,比如web文檔。
當我們未來需要處理快速增長并由數(shù)億個對象構(gòu)成的,、數(shù)以TB的數(shù)據(jù)集時,,采用管理數(shù)億個KB大小的小文件的方式是非常不明智的,盡管有些文件系統(tǒng)支持這樣的管理方式,。因此,,設(shè)計的假設(shè)條件和參數(shù),比如I/O操作和Block的尺寸都需要重新考慮,。
第三,,絕大部分文件的修改是采用在文件尾部追加數(shù)據(jù),而不是覆蓋原有數(shù)據(jù)的方式,。對文件的隨機寫入操作在實際中幾乎不存在,。一旦寫完之后,對文件的操作就只有讀,,而且通常是按順序讀,。
大量的數(shù)據(jù)符合這些特性,比如:數(shù)據(jù)分析程序掃描的超大的數(shù)據(jù)集,;正在運行的應用程序生成的連續(xù)的數(shù)據(jù)流,;存檔的數(shù)據(jù);由一臺機器生成,、另外一臺機器處理的中間數(shù)據(jù),,這些中間數(shù)據(jù)的處理可能是同時進行的、也可能是后續(xù)才處理的,。
對于這種針對海量文件的訪問模式,,客戶端對數(shù)據(jù)塊緩存是沒有意義的,數(shù)據(jù)的追加操作是性能優(yōu)化和原子性保證的主要考量因素,。
第四,,應用程序和文件系統(tǒng)API的協(xié)同設(shè)計提高了整個系統(tǒng)的靈活性。比如,,我們放松了對BFS一致性模型的要求,,這樣就減輕了文件系統(tǒng)對應用程序的苛刻要求,大大簡化了BFS的設(shè)計,。
BFS還引入了原子性的記錄追加操作,,從而保證多個客戶端能夠同時進行追加操作,,不需要額外的同步操作來保證數(shù)據(jù)的一致性,?!?p> 端起咖啡又喝了一口,寧子默已經(jīng)習慣了身邊這四人目瞪狗呆的狀態(tài),。
放下杯子,,寧子默再也懶得去解釋那些技術(shù)細節(jié),,但還是提點到:
“BFS一早就規(guī)劃了四大核心技術(shù)體,,其中涵蓋了第一個部分的分布式基礎(chǔ)設(shè)施,包含的模塊有文件系統(tǒng)(File),,分布式鎖服務(Chubby)和數(shù)據(jù)化序列協(xié)議(Protocol Buffer),。
而第二部分是分布式大規(guī)模數(shù)據(jù)處理模塊,其中包含分布式運算程序的編程框架和對應的數(shù)據(jù)查詢語言,。他們或許和SQL和類似,,但實際上它應該被稱之為DSL(Domain-Specific Language)。
第三部分則是分布式數(shù)據(jù)庫技術(shù),,它包含的模塊就有分布式數(shù)據(jù)存儲系統(tǒng)(BigTable)和數(shù)據(jù)庫分區(qū)系統(tǒng)(Sharding),。
最后一部分當然包含數(shù)據(jù)中心優(yōu)化技術(shù),這些技術(shù)中包括綜合考慮的數(shù)據(jù)中心高溫化,,還有電池與服務器相應整合技術(shù)等,。”
撇了撇嘴,,寧子默皺著眉頭說,,“搜索引擎是一個全盤技術(shù)的考慮,但我僅僅只舉了一個很簡單的例子,,并且其應用范圍還只是在網(wǎng)頁搜索結(jié)果當中,,并沒有提及一整個生態(tài)的整體考慮。
但我所說技術(shù)方面的內(nèi)容,,遠比我現(xiàn)在講給你們聽的內(nèi)容要復雜的多,。每一個單項里都會包含大量工作人員相應的工作成果,確實不是短期內(nèi)可以去實現(xiàn)的,。
但好在我們【Bing】團隊的目標明確啊,。”
“夢想還是要有的,,萬一實現(xiàn)了呢,?”寧子默撇著嘴挑了挑眉毛。
這個輕挑的動作,,在Kaltix三人組的眼里卻鄭重如斯,。
辦公室里鴉雀無聲,,除了必要的眨眼,好半天都沒有一個人有多余的動作,。
大概是忍受不住這種沉重的氣氛,,霍夫曼趕忙站起身來,去門口招呼人幫忙添上幾杯咖啡,。
霍夫曼也算看出來了,,寧子默今天多少都帶點“火氣”,所以平日里一沾即過的風格變得凌厲無比,。接連的前瞻和技術(shù)開誠布公地公示出來,,定然讓他斯坦福大學的三位學弟有些承接不住。
待人送來新的咖啡,,霍夫曼才趕忙招呼道,,“來,先喝點東西消化消化,。寧原來在Paypal帶團隊的時候就是這樣的風格,,每一次他有一個新的方向時,總是向著那個方向勇往直前,。
這么兩年來,,我從未見他失敗過。但為什么不會失敗,,相信你們剛剛也都看到了,。那是因為他在每一個細節(jié)的把控方面都已經(jīng)做到了極致,這才有我們步步為營的每一次勝利,?!?p> 賽普明顯是三人里邊拿主意的那一位,霍夫曼話音剛落,,賽普就點了點頭,。
雖然一直都是那位年輕的寧在說話,但是賽普總是覺得自己的嗓子有些癢,。
咳嗽一聲看了看身邊的同伴,,見他們都輕輕地點了點頭,賽普清了清嗓子說到,,“寧,,我們已經(jīng)清楚地看到你描繪的未來,也如同霍夫曼學長說的那樣,,明白你在計劃的每一個細節(jié)都十分重視,。
我想,經(jīng)過你這一番講述后,,我們就只剩下一個問題,。那就是,,如果我們加入【Bing】,那么在前期這段時間,,我們能為【Bing】做些什么,?”
成了!
沒有多余的感嘆,。
寧子默在做之前就篤定會是這樣的結(jié)果,,降維打擊不僅僅是讓人屈服,其實還可以是用能力去征服別人,。
要不然人馬星的艦隊開到地球的時候,為什么總有人類想要成為三體人呢,?
當然,,賽普他們并不是這樣的心思,而是他們被自己說的有些找不到自己的方向了,。
既然別人都已經(jīng)愿意加入團隊,,寧子默的態(tài)度自然溫和不少:
“對于整個Bing來講,從雅虎搜索引擎部門跳槽而來的陸奇先生有足夠的能力去掌控大局,。但在細枝末節(jié)方面,,我們需要足夠多的專家來實現(xiàn)技術(shù)。
和谷歌一樣,,Bing也有自己的PageRank算法,。但目前搜索引擎的優(yōu)化方面,我們需要專家,。這就是我讓霍夫曼幫我物色人選的主要目的,,而你們就是霍夫曼為我們【Bing】物色的技術(shù)專家。所以,,我想要聽聽你們在搜索領(lǐng)域有哪些特長,。”
盡管知道Kaltix的技術(shù)核心是一套包含三個技術(shù)的算法,,就算知道這三個技術(shù)是二次外推,,BlockRank和自適應PageRank。寧子默依舊要做出足夠的姿態(tài),。
賽普點了點頭,,笑著說,“好的,,寧,,那么由我來向你詳細的介紹一下我們的Kaltix?!?p> 搜索引擎并不是寧子墨擅長的范圍,,但前世對谷歌的崇拜驅(qū)使寧子默對谷歌的技術(shù)有過相當?shù)难芯?,這些積累的搜索知識讓寧子默在和賽普的溝通中并不吃力。
Kaltix是賽普三人基于谷歌核心Page Rank技術(shù)的新興搜索排序技術(shù),,它基于個人興趣的搜索結(jié)果排序方式,,可以講搜索引擎速度提升到原有速度的五倍。
它有三項核心技術(shù)……
就算知道這些,,寧子默細細聽完就覺得自己淡定不起來了,。
也難怪前世里的谷歌在2004年會有飛速的發(fā)展,完全是因為收購并消化了Kaltix的核心技術(shù),,而Kaltix對谷歌搜索的提升是顯而易見的,。
賽普的講解,讓寧子默覺得自己撿到寶了,,不由地夸贊到,,“你們的技術(shù)核心思想是基于用戶體驗的搜索排序方式,這與我重視旗下產(chǎn)品的“交互體驗”幾乎是一樣的要求,。你們技術(shù)的核心其實也是‘交互體驗’,,不僅是技術(shù)的提升更是站在用戶角度的‘交互體驗’的提升。
這樣的技術(shù)應用非常有理由客戶的便捷實用,,從此搜索不再是機器式的反饋結(jié)果,,而是個性化的反饋用戶的真正需求。你們做了一件了不起的事情,?!?p> “那你覺得,以我們的能力和技術(shù),,我們是否可以加入【Bing】呢,?”
看著賽普天真地望著自己,寧子默突然很想笑,。
無論如何,,這句話都昭示著一個結(jié)果。
自己又一次坑了谷歌,,
Kaltix小組歸心了,!