别笑(xiào) 雅虎也(yě)有人(rén)工智能的(de)秘密武器
發表日期:2016.02.29 訪問人(rén)數:666
又一個(gè)科技巨頭與世界分(fēn)享它的(de)人(rén)工智能成果了(le)。2月(yuè)24日,雅虎公布了(le) CaffeOnSpark 人(rén)工智能引擎的(de)源代碼,從學術研究者到大(dà)公司員(yuán)工都可(kě)以使用(yòng)或修改。
也(yě)許近年來(lái)很少人(rén)了(le)解雅虎在科技界的(de)實力。它孵化(huà)了(le)開源項目 Hadoop被 Facebook、Twitter 和(hé)許多(duō)其他(tā)公司廣泛使用(yòng)的(de)數據分(fēn)析平台。Hadoop 對(duì)于人(rén)工智能有特别的(de)價值。數據和(hé)算(suàn)法對(duì)訓練人(rén)工智能系統同樣重要,而雅虎擁有最有意思的(de)數據庫之一圖片站點 Flickr。
和(hé)許多(duō)新的(de)開源人(rén)工智能項目一樣,CaffeOnSpark 以深度學習(xí)爲基矗深度學習(xí)是人(rén)工智能的(de)一項分(fēn)支,對(duì)幫助機器識别人(rén)類講話(huà)、圖像和(hé)視頻(pín)内容用(yòng)處尤其大(dà)。比如雅虎利用(yòng)它測定不同圖片的(de)内容,來(lái)優化(huà) Flickr 的(de)搜素結果。雅虎不是依賴上傳圖片的(de)人(rén)所輸入的(de)描述和(hé)關鍵詞,而是教會計算(suàn)機識别圖片的(de)某些特點,比如特定的(de)顔色、甚至動物(wù)和(hé)物(wù)體。
幾個(gè)月(yuè)來(lái),谷歌(gē)開源了(le)它的(de)深度學習(xí)框架TensorFlow,微軟開源了(le)它的(de)類似框架CNTK,臉書(shū)開源了(le)它的(de)人(rén)工智能硬件設計,中國搜索引擎巨頭百度開源了(le)它的(de)深度學習(xí)訓練軟件代碼。
這(zhè)些開源各有側重。雅虎想在現有的(de)系統上運行深度學習(xí)進程,不必把數據從一個(gè)地方移到另一個(gè)地方。雅虎的(de)構架副總裁 Andy Feng 解釋,訓練一個(gè)深度學習(xí)系統識别圖片需要巨大(dà)的(de)數據量。比如你把大(dà)量貓的(de)圖片交給算(suàn)法處理(lǐ),最終機器會 “學到” 貓的(de)共同特征,從而有能力分(fēn)辨包含貓的(de)照(zhào)片和(hé)不包含貓的(de)照(zhào)片。
Flickr 擁有幾十億張照(zhào)片,有充足的(de)圖片類别來(lái)訓練人(rén)工智能。但團隊不想把所有 Flickr 主服務器的(de)圖片複制到新的(de)運行深度學習(xí)軟件的(de)服務器集群中。因此他(tā)們發明(míng)了(le)在現有的(de)基礎架構中運行深度學習(xí)軟件的(de)途徑。
CaffeOnSpark,從名字可(kě)以看出,它将兩種現有技術結合起來(lái):廣泛流行的(de)深度學習(xí)框架Caffe和(hé)後起之秀數據分(fēn)析系統 Spark。雅虎創造了(le)一種可(kě)以在Spark集群上運行 Caffee 的(de)方式。它可(kě)以在 Spark 上單獨運行,也(yě)可(kě)以在 Hadoop 上運行。Feng 說,除了(le)簡化(huà)人(rén)工智能開發者對(duì)類似工具的(de)操作,避免把數據搬來(lái)搬去,CaffeOnSpark 還(hái)使在多(duō)個(gè)服務器上分(fēn)配深度學習(xí)進程變得(de)相對(duì)容易,這(zhè)是谷歌(gē)的(de) TensorFlow 所做(zuò)不到的(de)。
Feng 表示在團隊發布一條關于軟件的(de)長(cháng)文後,很多(duō)公司要求雅虎開源 CaffeOnSpark。看來(lái)有許多(duō)機構都不想把服務器集群上的(de)數據移來(lái)移去。