祝銘明:摸到邊界的方法是把體驗做到極致

人物

10-25 17:50

多年以后,祝銘明站在自己剛剛裝修好作為住宅的廠房里,一定會想起母親帶著他去機械廠里玩的日子。

當時,創業還是一個新鮮而陌生的詞語。身為工程師的母親和朋友一起創辦了一間機械加工廠,還在襁褓中的祝銘明,就在這間工廠濃重的機油味和隆隆的機床聲中一天天長大。

13 歲那年,祝銘明擁有了自己的第一臺電腦,寫下了人生中第一行代碼。

這一年,發生了很多大事。

萬維網(World Wide Web)誕生了,GPS 的第一顆衛星發射升空,IBM 的國際象棋機器人深思雖然敗給了棋王卡斯帕羅夫,卻展示了驚人的計算速度:每秒 200 萬步。

人們隱約感到,一些重要的變化正在發生,一個前所未有的時代就要來了。

順勢而為的首次嘗試

2007 年,祝銘明開始第一次創業,在杭州創辦了做手機操作系統的猛犸科技。那還是一個 MTK 平臺和山寨機大行其道的年代,祝銘明判斷未來的手機系統一定是一個開發方便、跨平臺、基于 JAVA 語言的操作系統。

剛開始,都大家感到不可思議,靠一個十幾個人的小團隊,就想做操作系統?祝銘明花了幾個星期時間把架構搭了起來,其他人隨后往里添加東西。猛犸 OS 的雛形竟然就這么做出來了。

但是全球金融危機也來了。

大環境一下子變得很冷,行業的發展速度驟降下來,手機硬件水準在一個算力明顯不夠的平臺上停留了很久。硬件上不去,操作系統也就無從發展,猛犸 OS 和祝銘明都進入了一個很難熬的階段。

作為創始人,他還得很淡定地見客戶,給團隊打雞血鼓舞士氣,用產品體驗和用戶的口碑來激勵他們。

這一熬,就是一年半。

后來是阿里巴巴伸出了橄欖枝,先是戰略投資,然后收購了猛犸科技。猛犸 OS 也逐漸變成了阿里 YunOS。

從這個項目開始,他展現出后來令投資人和創業伙伴們頗為稱贊的前瞻意識。

2013 年,看重祝銘明的技術前瞻性,阿里巴巴委任他為 M 工作室的領頭人,進行一些在當時頗為前沿的探索,包括機器人、圖形圖像識別、二維碼掃碼等,還有跟導航、車載相關的,以及最新的藍牙技術。

M 工作室更像一個實驗室,沒有太多的業務壓力,牛人很多,是所有厲害的程序員都夢想要去的地方。但這些并沒有讓他滿足。

比別人高十倍」的要求

2014 年,祝銘明離開阿里,創立了 Rokid。

這一次,他跟團隊說要做機器人和人工智能。

此時的人工智能行業正處在巨大的變革期,其中最具突破性的深度學習技術開始真正商業化。2014 年初,Google 花 6 億美金買下了人工智能初創企業 DeepMind。微軟也在這一年發布了「微軟小冰」。

祝銘明給 IDG 資本副總裁樓軍畫了一張產品草圖,是一個蛋形的音箱。

在杭州北部軟件園的 Rokid 辦公室里,這個蛋變成了一個快遞箱,上面插著電路板、攝像頭、燈珠,還有國內第一個實現遠場語音喚醒的的麥克風陣列。十幾個人圍在紙箱周圍,討論要給它加上什么新能力。

2014 年 11 月,這個插滿電路板的紙箱,進化成了 Rokid 的第一款產品:Alien 智能音箱。

▲ Rokid Alien 智能音箱。 圖片來自:Rokid

就在 Alien 研發的過程中,Rokid 團隊第一次領教了祝銘明的「苛刻」。

在設定音箱喚醒詞的時候,技術團隊給祝銘明提了三個選項:如果用 4 個字的喚醒詞,有現成的技術方案;3 個字的,大概一個月就能搞定;如果要 2 個字的喚醒詞,對不起,目前的技術水平還做不到。

祝銘明認為,只有用兩個字喚醒才符合中國人的習慣,他選了「做不到」的。

在算法上,隨著喚醒詞字數減少,要在保證喚醒率的同時降低誤喚醒,技術實現的難度會呈幾何倍數上漲:每減少一個字,難度翻倍。

為了減少這一個字,Rokid AI 實驗室的兩位博士被「虐」了整整一年。最終使 2 個字喚醒詞達到同類產品 3 個字、4 個字喚醒詞同等的喚醒率和誤喚醒水平。

直到現在,在眾多智能音箱中,只有 Rokid 實現了兩個字的喚醒詞。祝銘明認為這是 Rokid 賦予自己的使命,去做其他公司不愿意做的一件事:探索自己能力的邊界。

在做 TTS(語音合成)的時候,幾乎同樣的事情再次發生。

行業內做 TTS 的一般方法是,首先設定好語音的條件——性別、年齡、音色,然后找演員,選個報價合適的錄音,錄完了讓算法工程師一合成就行了。

Rokid 則先設定了「若琪」的人格,然后找了 50 多個人來,聽誰的聲音最像他們想象中若琪的聲音,第二步從中挑選了 5 個人分別錄音,再用算法合成,聽合成出來的聲音,挑選最接近「若琪」設定形象的,最終選了一個人。為了保證錄音音準,Rokid 專門找來一位音樂學博士,在北京的實驗室里一蹲就是一個多月。女演員在錄音棚里錄音, 博士在外面用耳機監聽,稍有音準不對,就重新來過。就這樣盯著把兩萬多句錄音一句一句錄完。

最終合成完之后,大家一聽效果非常明顯,這就是人聲,完全聽不出一般機器合成的卡頓、異樣的聲音。

如果說,喚醒詞和 TTS,都是用戶能直接感知到的,還值得花大代價去提升用戶體驗,另一件事看上去就有點過分了——

▲ Rokid Pebble 電路板。 圖片來自:Rokid

這是 Rokid Pebble 智能音箱的內部電路板實拍圖,同時也是 Rokid 公司高管用在電腦和手機上的壁紙。

電路板深藏在產品內部,普通用戶壓根沒有機會接觸到它,為什么要設計得如此精致?

Rokid 副總裁向文杰說,這塊特別設計的電路板,每一塊成本增加了 6-12 元,為了控制整體成本,他們在算法上進行優化,降低了對部分元器件的性能要求,這才把成本控制住。

寧可費力優化算法,也不在產品設計上妥協。祝銘明認為,這不僅僅是一個審美偏好的問題,還關系到一個產品從外到里都要堅持同樣嚴格的標準,哪怕在普通用戶看不見的地方。

他說:「我希望把團隊逼到邊界上。你永遠要求你的東西比別人能做到的高十倍,最后你將取得一個跳躍性的成果。」

祝銘明深知,進入人工智能這個行業里的玩家,大多是 Google、Apple、Facebook 這樣的巨頭們,要錢有錢,要人有人。和他們在同一個賽場上競爭,必須有一套完全不同的思考方式,這也逼得他反復地問自己三個問題:

有什么是別人做不到而我們做得到的?

有什么是別人做得到而我們做得更好的?

有什么是別人做得非常好了,而我們能做得不一樣的?

正是在追問這些問題的過程中,祝銘明堅定了「追求極致體驗」的信念;也正是這樣的思考,讓他越發清晰 Rokid 與同行們的不同之處。

極致并不是技術潔癖

喚醒詞也好,TTS 也好,像畫作一樣的電路板也好,背后都映射著祝銘明對 Rokid 的定位:

Rokid 是一家人機交互公司。我的追求是一定要逼著團隊去摸到行業的邊界,既然是交互公司,最簡單的摸到邊界的方法就是把功能做到極致、把體驗做到極致。這不是我的潔癖,而是一種手段。

從 2014 年創辦以來,這個定位就沒變過。

在此之前,還沒有哪家公司把自己叫作「人機交互公司」。曾經,「交互」兩個字是用在鼠標、鍵盤乃至觸屏之類的硬件上的,那時它還有另一個名字叫「輸入輸出」。而到了 AI 時代,祝銘明看到了交互的更大可能性。鼠標鍵盤也好,觸屏也好,并不真正知道你在做什么,它也不干預你的任何決策。但有了 AI 之后就不一樣了:

你對著音箱、眼鏡、電視,對所有東西講出你的意圖時,實際上在你獲取內容之前,你的意圖先在交互這個層面被理解,這個時候交互公司就變得有厚度了。

機器進化了,人和機器之間的關系也悄然改變。

作為人和機器之間的一座橋梁,「交互公司」的重要性正日益凸顯。從某種角度看,我們今天之所以能容忍人工智能不時地以「人工智障」的水平給出一些令人啼笑皆非的答案,正是因為我們對它的未來充滿了期待,我們像看一個孩子一樣看待今天的 AI——它還很幼稚,但它正在以驚人的速度成長起來。

或者,用祝銘明的話說:AI 現在還太早,要做一百年。

在祝銘明看來,未來的人機交互一定會越來越自然,越來越多模態、全方位。AR 把感知、體態、語音和視覺全部整合在一起,可以看作是人機交互的最后一次革命。至少,在實現腦機接口之前是這樣。

2013 年,祝銘明在美國第一次拿到 Google Glass,對身邊的人說:「這個東西是未來,但是 Google 做得不夠好。我們一定可以做得更好。」然后,他發了一條朋友圈:「誰懂這個技術來找我,我們一起來做 AR 眼鏡。」

2016 年,祝銘明跟團隊說要做 AR 眼鏡,團隊都不理解。

當時看起來也不是一個好時機。Google Glass 的體驗遠低于預期,得了一個「Google 史上最差產品」的稱號,HoloLens 笨重且昂貴,MagicLeap 還沒拿出第一款產品。

祝銘明堅定地認為 AR 是未來。

接下來,他在美國組建了專門的 AR 研發團隊。

▲ Rokid AR 研發團隊. 圖片來自:Rokid

像做音箱一樣,祝銘明對 AR 眼鏡的「體驗」仍然要求到極致:要做到跟普通眼鏡一樣的佩戴感。

技術人員發現,要滿足這個要求,結構上必須選擇「側出」式設計,也就是光機位于鏡腿的一側;如果采用光機位于鏡框上方的「上出」式設計,就會讓整個眼鏡看起來像一個厚重的機器,完全達不到「普通眼鏡的佩戴感」這個要求。

不僅如此,為了盡可能貼近普通眼鏡,就要在做到大視場(FoV)的同時盡可能減小體積,還要控制發熱量。市場上能買到的的現成部件大、重、粗,根本滿足不了要求。他們只剩下一個選擇:對幾乎所有部件作特別定制。

▲ Rokid Glass。 圖片來自:Rokid

2018 年 CES 消費電子展上,Rokid Glass 面世。整機重量 150 克,外觀看起來就像一只普通的墨鏡。外媒對這只眼鏡的評價相當高,Wired 稱它是當年十佳電子產品之一。The Verge 則說 Rokid Glass 預見到了未來。

探索突破讓人上癮

Rokid 的愿景是「Leave Nobody Behind」,不落下任何一個人。這句乍聽之下有些費解的話,背后是祝銘明對科技另一面的思考。

2018 年,公司中高層在千島湖培訓,祝銘明跟大家講了一件發生在自己身上的事。

一天,祝銘明的父親突然打電話給他,問他:「任意鍵是哪個鍵?」

這個故事引起了共鳴,父母那一代人大多不會用最新的科技產品,而當這些產品建構起來的生活方式成為主流時,他們就被邊緣化、被時代落下了。

祝銘明把這叫作「科技的黑暗面」。就像他最喜歡的電影《星球大戰》里的 Hoth 一樣,科技天然就有光明的一面和黑暗的一面,怎樣才能找到一個平衡,在一定的場景下讓光明面發揮出來而讓黑暗面隱藏起來?或者,用他自己的話說是如何「把科技關起來」?

祝銘明認為 AI 是個可能的解決辦法:「在 AI 之前,所有科技都要付出一個隱形的學習成本,一旦你不學習你就會被拋棄。AI 讓機器真正開始理解你,而不是讓你學習它,這就可能普惠每個人。」

在這樣的思考之下,祝銘明找到了交互公司的真正使命:讓每個人都能享受科技的進步,而不是被它拋棄。

每個人都能看到問題,但不是每個人都愿意去問背后的問題是什么。我愿意去問,一直問到自己答不出來為止。

從祝銘明寫下第一行代碼,已經過去了 30 年。現在,雖然公司的項目已經不需要他編程,他仍然堅持每天寫寫代碼。

▲ 祝銘明的辦公室。 圖片來自:Rokid

這一方面是在保持對技術的感受力,讓自己始終和前沿的技術在一起。另一方面則出于他對自己的要求:不斷學習,保持好奇心。

這大概也是祝銘明能不斷探索邊界的原因之一。

事實上,他們所做的嘗試都是在打破機器世界和物理世界之間的邊界,為我們的感知重構一個更豐富、更超現實的世界。

在這個世界的各個角落,還有無數人夙夜匪懈、殫精竭慮,去探索自己的邊界,突破那些既定規則。

正是在這種突破邊界的努力之下,今天我們才能和機器說話,可以在海量的內容中瞬間獲得自己最想要的東西,家中的電器可以認出我們的面孔,我們可以見識到遠超人類棋手的人工智能棋手,擁有了比人類更準確地診斷病情的人工智能「放射科醫生」,找到了快速試驗新疫苗的人工智能算法,以及更多可以提升生活質量、拓展我們生命邊界的事物。

也許有一天,這些人工智能還會幫助我們突破進化的藩籬,成為此刻的我們無法想象的新物種。誰敢說一定不會呢?

未來,遙遠而未知。

正因為如此,它才令人著迷。

登錄,參與討論前請先登錄

評論在審核通過后將對所有人可見

正在加載中
福彩3d组3和组6的区别