說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732
全網(wǎng)監(jiān)測海量數(shù)據(jù)按需發(fā)布監(jiān)測預(yù)警
實(shí)時(shí)把握輿情動(dòng)態(tài)精準(zhǔn)追溯信息源頭
在《展望3B大戰(zhàn)之后的搜索變數(shù)》一文中,我曾分析過移動(dòng)搜索與傳統(tǒng)搜索的不同——搜索訴求從獲取信息變?yōu)楦颖镜鼗?、生活化的?shí)體搜索;搜索方式從WEB網(wǎng)頁變?yōu)锳PP;輸入方式也因?yàn)槭褂脠鼍暗囊苿?dòng)性、移動(dòng)設(shè)備的特征和網(wǎng)絡(luò)環(huán)境而發(fā)生了巨大變化,從文字輸入變?yōu)槲淖帧D像、聲音、體感、位置的綜合輸入;輸出結(jié)果因?yàn)橐苿?dòng)設(shè)備的特征而變得更自然、智能和互動(dòng),如語音和圖片。另外,廣告模式則從“展示廣告+超鏈接”向基于位置的精準(zhǔn)營銷、O2O和電話撥打廣告等方式轉(zhuǎn)變。
上面提到的各種移動(dòng)搜索技術(shù)現(xiàn)在還在探索中。地圖、語音搜索相對成熟,而下一個(gè)正在爆發(fā)的則是視覺搜索。人類既然可以通過聲音來驅(qū)動(dòng)設(shè)備,又怎會(huì)忽略另一個(gè)人類與外部環(huán)境的核心交互能力——視覺呢?相關(guān)科學(xué)統(tǒng)計(jì)顯示,人類有近80%的信息獲取來自于雙眼。移動(dòng)設(shè)備的攝像頭已是標(biāo)配,視覺搜索想象空間,Google Glass被認(rèn)為是一個(gè)基于視覺搜索的可穿戴設(shè)備。
什么是視覺搜索?
視覺搜索簡單的說法是“以圖搜圖”。
圖像識(shí)別技術(shù)已經(jīng)發(fā)展有近30年歷史。從初的指紋識(shí)別,到現(xiàn)在隨處可見的人臉識(shí)別。它們都是將指紋圖譜或者人臉圖片轉(zhuǎn)換提取出特征,與設(shè)備中存儲(chǔ)的已有特征照片進(jìn)行比對。如果相似度達(dá)到某個(gè)閾值,則匹配成功,這被廣泛應(yīng)用于日??记?、安保、電腦解鎖中。網(wǎng)易近期還推出了“人臉郵箱”是這樣的舊技術(shù)搭上新應(yīng)用。
不過,上面說的圖像識(shí)別技術(shù)還只是一種一對一匹配技術(shù),遠(yuǎn)遠(yuǎn)還沒發(fā)展到搜索的程度,如同雅虎時(shí)代的“網(wǎng)址索引”階段,而視覺搜索則到了Google和百度為代表的第二代搜索的階段。與簡單的匹配不同,視覺搜索是基于算法和數(shù)據(jù)的。首先需要搜索引擎擁有大量圖片庫,然后提取特征值,聚類建索引。在用戶搜索時(shí),將搜索照片進(jìn)行解析,去繁存真,檢索并根據(jù)相關(guān)性排序,返回結(jié)果。這個(gè)結(jié)果可能是一堆圖片,也可能是與圖片相關(guān),結(jié)合用戶特征和搜索場景的相關(guān)信息。這個(gè)過程與現(xiàn)在的主流搜索引擎的過程比較接近。
這個(gè)技術(shù)的應(yīng)用場景在哪里?如果夠智能,它可以成為一雙幫你變得更聰明的眼睛。思維過程也是到大腦的記憶存儲(chǔ)區(qū)域去匹配相似場景,與一些信息概念映射,并作出行動(dòng)反饋。如果你看到一個(gè)人,似曾相識(shí)但想不起來名字,這個(gè)思維過程可以被比作整個(gè)視覺搜索的慢動(dòng)作了。這時(shí)候或許視覺搜索可以幫你。不過,這得你大腦存儲(chǔ)的記憶全部數(shù)字化,能傳遞到電腦才行。
從全球范圍看,在視覺搜索技術(shù)的探索方面,走在前面的當(dāng)然是Google。Google在2009年分別推出網(wǎng)頁版Google相似圖片搜索和Google Goggles,后者是一款安卓版APP,可以拍照并搜索相似照片。2010年,Google特意收購英國視覺搜索公司Plink,以加強(qiáng)Goggles。Google這套東西除了相似圖片搜索技術(shù)應(yīng)用于其購物搜索外,其他的并未帶來商業(yè)價(jià)值。直到Google Glass的出現(xiàn)才讓其積累多年的視覺搜索技術(shù)有了爆發(fā)的空間。
百度的發(fā)力也并不算晚,它在2010年推出百度識(shí)圖搜索(shitu.baidu.com)開始涉水視覺搜索的。不過當(dāng)時(shí)因?yàn)槭褂脠鼍坝邢?,這款產(chǎn)品并未被大眾熟知。更多是滿足了一種新鮮感。
即便如此,百度仍然投入了大量資源來研究視覺搜索。這樣的判斷應(yīng)該與技術(shù)出身的李彥宏喜歡研究技術(shù)趨勢有關(guān)。兩年前李彥宏宣稱互聯(lián)網(wǎng)“讀圖時(shí)代”到來,在去年的KDD(知識(shí)發(fā)現(xiàn)年會(huì))上,他提出的待解9大技術(shù)問題中,“基于內(nèi)容的的視覺搜索”排在第三位。
李彥宏在去年底的百度年會(huì)上宣布了百度2012年的壓軸之作:全“全網(wǎng)人臉?biāo)阉鳌薄_@是一款通過用戶上傳照片,能在互聯(lián)網(wǎng)上找到相似照片的產(chǎn)品。圖像識(shí)別技術(shù)應(yīng)用于全網(wǎng)搜索后,以圖搜圖的準(zhǔn)確率一下子從20%提升到80%。正是應(yīng)了那句話,技術(shù)積累的先發(fā)投入,往往會(huì)體現(xiàn)在產(chǎn)品的后來居上。
這款產(chǎn)品的識(shí)別準(zhǔn)確率依賴于被搜索的人臉在網(wǎng)上的照片數(shù)量:百度的大規(guī)模并行計(jì)算機(jī)器群會(huì)將爬取的照片(不會(huì)抓取未開放的私人相冊)進(jìn)行特征提取和聚類。在這個(gè)過程中,會(huì)用機(jī)器學(xué)習(xí)算法對人的面部表情喜怒哀樂進(jìn)行識(shí)別學(xué)習(xí)。照片越多,機(jī)器學(xué)的材料越多,進(jìn)而識(shí)別率也越高。據(jù)說普通照片識(shí)別率已達(dá)90%。明星甚至高達(dá)99%,百度的大數(shù)據(jù)優(yōu)勢有關(guān)系。
視覺搜索于“移動(dòng)”的意義
百度愿意為這個(gè)目前尚處研究階段的視覺搜索技術(shù)傾注資源,可以解釋為一切都是為了移動(dòng)互聯(lián)網(wǎng)布局。去年在其移動(dòng)互聯(lián)網(wǎng)策略和成果不明朗的情況下,外界甚至猜測百度在移動(dòng)互聯(lián)網(wǎng)時(shí)代是不是已經(jīng)失去了昔日位置。不過今年又逐漸明朗起來,地圖、語音、APP及APP內(nèi)搜索,后發(fā)而至。尤其是現(xiàn)在百度在視覺搜索方面的成果,更讓我確信百度的下一個(gè)移動(dòng)互聯(lián)網(wǎng)發(fā)力點(diǎn)將是移動(dòng)視覺搜索。
在移動(dòng)互聯(lián)網(wǎng)上視覺搜索的空間甚至比語音搜索還要大。語音搜索的瓶頸除了識(shí)別率趕不上圖片識(shí)別外,對使用者的說話語氣、語速、口音等要求頗高。的問題是使用場景的局限性:跟手機(jī)說話會(huì)干擾周圍的人;容易會(huì)被周圍的環(huán)境干擾。也是說,語音搜索適合相對獨(dú)立和安靜的空間使用。
而對于移動(dòng)場景下對“線下實(shí)體”的搜索,比如商鋪、商品、餐廳、菜品、圖書、環(huán)境、招牌、景點(diǎn)甚至地鐵對面的美女。這些場景顯然不是“安靜”和“獨(dú)立”的,視覺搜索可以避開上述問題。
視覺搜索除了能與移動(dòng)設(shè)備的攝錄能力天然結(jié)合外,它也很好地滿足線下的搜索場景和訴求。條形碼和二維碼在這方面開了個(gè)先河,除了商品,你可以對著海報(bào)、朋友的名片、甚至芒果臺(tái)節(jié)目上的二維碼“掃一掃”,然后匹配信息并建立聯(lián)系。
不過條形碼、二維碼也只是在某些特定類型的物品上。我們的不可能會(huì)充滿二維碼,它天生是給機(jī)器讀的。而視覺搜索呢?人眼所見即所得。只要人類能看到的,它都可以幫你進(jìn)行抓取并搜索。
未來的視覺搜索是什么樣呢?類Google Glass的智能眼鏡的普及會(huì)成為一個(gè)里程碑。在這之后,無論是物體、圖片、二維碼,對視覺搜索引擎來說,都是將真實(shí)的物理信息映射為互聯(lián)網(wǎng)信息的方式。攝像頭是移動(dòng)互聯(lián)網(wǎng)時(shí)代的入口,像PC時(shí)代的搜索框一樣。這是Google和百度等搜索巨頭都對視覺搜索投入大量資源的原因——流量入口是搜索引擎的生命之源。
現(xiàn)實(shí)遠(yuǎn)非完美
視覺搜索未來很豐滿,但是現(xiàn)實(shí)仍有些殘酷。如同李彥宏在去年KDD大會(huì)提出來的,視覺搜索仍然是待解的技術(shù)難題。百度人臉?biāo)阉髦阅苋〉贸晒?,除了百度有海量的人臉照片外,還與人臉是常規(guī)圖像有關(guān)系。技術(shù)上,業(yè)界包括谷歌和百度在探索方面既有進(jìn)展也有挑戰(zhàn):在對平面或剛體(書籍、CD、建筑物、油畫、明星照片等)的搜索方面,召回率已超過90%;但對“非剛體”圖像的識(shí)別,對機(jī)器算法有更高的要求(比如動(dòng)物)。
在常規(guī)圖像上,視覺搜索的識(shí)別率肯定會(huì)低于二維碼和條形碼掃描。不過,如果視覺搜索可以實(shí)現(xiàn)百度人臉?biāo)阉髂菢拥木壬踔粮?,以及隨著4G到來WIFI覆蓋加強(qiáng),網(wǎng)絡(luò)環(huán)境變得更好,當(dāng)李彥宏說的2.9秒搜索時(shí)長變?yōu)?.1秒后,視覺搜索將迎來大規(guī)模應(yīng)用。
視覺搜索被詬病的還有交互的自然性,所以有戴著Google眼鏡去酒店被打的,扎克伯克也說帶著它很囧。Siri是在和我們對話,而現(xiàn)在的視覺搜索仍然是“我們使用這款設(shè)備拍照并進(jìn)行搜索,來完成任務(wù)”的過程。Google Glass的出現(xiàn)讓我們的眼睛多了一個(gè)視覺搜索功能,以前我們看到環(huán)境搜索大腦,現(xiàn)在我們看到環(huán)境搜索大腦+云端信息。
視覺搜索仍然存在很多瓶頸以及風(fēng)險(xiǎn)。隱私問題,以及人類自我的問題。筆者《不矯情,明天成賤人》提出過科技越進(jìn)步,人類越暴露的觀點(diǎn)。你無法判斷你對面的人是否在用他的第三只眼睛拍攝記錄你,以及搜索你。除了隱私外,越來越聰明的技術(shù)和設(shè)備,與人類自身的位置如何協(xié)調(diào)?我們是不是終有會(huì)被設(shè)備奴役?當(dāng)這“第三只眼”真正進(jìn)化成隱形眼鏡,是我們的身體開始被設(shè)備奴役的開端了。你不用擔(dān)心對別人造成干擾了,或者說是你永遠(yuǎn)不用擔(dān)心別人知道你的干擾。
說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732