人機交互:讓你識別"空中手書"
2009-05-09 23:26:36 挖貝網(wǎng)
不需要鼠標(biāo)、鍵盤,甚至接觸,計算機會“看到”你想告訴它的一切—在微軟的“未來科技”布局里,識別空中手書是一幕關(guān)于人機互動的奇幻片段。
在2054年的華盛頓,湯姆·克魯斯飾演的安德頓戴著他有觸點的手套,邊打電話邊用雙手令人眼花繚亂地在透明顯示器上操作程序和窗口,酷勁十足。即使不是科幻迷和游戲迷,也會有很多人憧憬電影《少數(shù)派報告》里科幻般的生活。
事實上,你很有可能比湯姆·克魯斯更酷:當(dāng)你在空中對著機器比劃的時候,已經(jīng)不再是“對牛彈琴”。微軟亞洲研究院的識別空中手書技術(shù)使得計算機、智能家電、游戲機能夠認(rèn)識我們所比劃的文字,識別內(nèi)容包括了漢字、日文、韓文,數(shù)字和英文單字。就像“我來比劃你來猜”游戲,不同的是,猜測我們比劃內(nèi)容的對方,現(xiàn)在變成了和人一樣“聰明”的機器。識別空中手書技術(shù),只需要一臺普通的電腦、一個攝像頭、一個游戲機手柄,就可以實現(xiàn),脫離鼠標(biāo)、鍵盤,甚至代替像iPhone那樣觸控技術(shù)的人機互動。
如果說鍵盤鼠標(biāo)輸入和手寫觸控分別代表人機交互的兩個階段,那么,識別空中手書可以說使這種交互進(jìn)入了3.0時代。“對于這項基礎(chǔ)的創(chuàng)新技術(shù),想到在上面開發(fā)出的無數(shù)最具有想象力的應(yīng)用就令人激動。這也是作為研究員最值得期待的時刻。沒有人能預(yù)見,軟件開發(fā)商和應(yīng)用微軟平臺的開發(fā)人員會在識別空中手書技術(shù)上面開發(fā)怎樣的應(yīng)用??梢哉f,能想多遠(yuǎn)就有多遠(yuǎn)。”微軟亞洲研究院語音組主任研究員霍強在說這些話的時候,識別空中手書項目的主要負(fù)責(zé)人馬磊正在旁邊拿著一顆橘子給記者演示微軟的“軟”字。
IT的太極之舞
讓機器“懂得”人類的想法并“表達(dá)”出來,并不容易。傳統(tǒng)的使用鍵盤輸入和現(xiàn)在智能手機上流行的觸控輸入,把信息明確地“灌輸”給計算機。然而,空中手寫識別技術(shù),更像是中國傳統(tǒng)的太極拳法,動作不僅像太極拳一樣行云流水,而且能夠“手隨心動”。
識別空中手書項目組設(shè)計了兩種解決方案來做演示:最廉價的方式是使用一個網(wǎng)絡(luò)攝像頭來觀察用戶手的運動;或者使用一種帶有被稱作“陀螺儀”和“加速度儀”的傳感器的設(shè)備來捕捉用戶手的運動。當(dāng)用戶手的運動被捕捉到之后,對其進(jìn)行補償,增強后,手寫識別模塊就能認(rèn)出用戶在空中寫的文字。
“機器從捕捉、映射、識別到顯示,整個過程涉及兩方面的技術(shù)。一是動態(tài)運動物體捕捉;二是手寫識別。”馬磊向記者介紹道。選擇一個能夠與周圍環(huán)境的顏色區(qū)分開來的物體,放在視頻捕捉框的中心位置,按動游戲手柄的按鈕開始準(zhǔn)備書寫。在這個對運動物體的捕捉過程中,就要教會計算機該捕捉的目標(biāo)物體,計算機知道了所選擇的運動目標(biāo),周圍環(huán)境里其他物體的運動就不會產(chǎn)生干擾。
目標(biāo)物體在空中運動的過程中,產(chǎn)生了一個三維的圖像軌跡,映射到二維的攝像機里的是一個平面化的軌跡圖形,這個平面化的運動軌跡要求對模糊、抖動都能很好的處理。而當(dāng)計算機獲得了清晰的運動軌跡后,后臺的手寫識別就可以進(jìn)行分析,從而得到用戶想要書寫的文字。“這個看似簡單的圖像分析和文字識別在相應(yīng)的領(lǐng)域里都做了幾十年,絕對可以稱得上是高科技。”霍強對記者說,“比如數(shù)字3,會有像‘了’等相近的文字,這無疑增加了識別的難度。”最后的識別結(jié)果綜合了機器對書寫動作和圖像結(jié)果的分析,“形狀信息很重要,首先要像;另一方面,動態(tài)信息也是個很重要的參考。”
馬磊對記者表示,空中手寫識別與在手寫板書寫不同在于,手寫板一筆一劃,折點尖銳。而空中寫字需要一筆完成,沒有虛實的概念,不會提筆。在空中書寫的過程中,“類似于中國的太極,相對圓滑,行云流水。在速度變成零的時候不可能出現(xiàn)相應(yīng)的折點,需要對這種字體情況進(jìn)行特殊處理。”
交互的未來
蓋茨曾說,人與計算機的交互將變得越來越像人與人之間的互動。蘋果公司的iPhone手機和任天堂的Wii游戲機,在用戶互動界面的出色表現(xiàn)獲得了消費者的青睞。而微軟的下一代操作系統(tǒng)Windows7,作為自然的用戶界面,也內(nèi)置了觸摸支持功能;微軟智能觸控桌面電腦Microsoft Surface,看上去更像是一張多功能的桌面屏幕。
談到識別空中手書這項技術(shù)的最初想法,微軟亞洲研究院首席研究員兼語音組負(fù)責(zé)人宋平表示,“這個想法是為了解決在沒有鍵盤或手寫板的特定環(huán)境里如何用手勢輸入字符的問題。識別空中手書從技術(shù)和提升用戶體驗方面都是一項很杰出的創(chuàng)新。我相信這項創(chuàng)新將有可能被應(yīng)用到微軟目前和未來的很多產(chǎn)品及服務(wù)中。”
而從研發(fā)的角度,脫離了鍵盤鼠標(biāo)的識別空中手書技術(shù)將想象力更拉近一步,抑或是對未來主流交互式體驗的提前預(yù)演。而這,將為微軟在人機交互體驗上培養(yǎng)越來越多的“手語者”。
對于識別空中手書在未來應(yīng)用的三個場景,馬磊向記者介紹道,在交互式游戲環(huán)境下,用戶在空中輸入一些文字,如名字,答案,甚至是解密類游戲的符號,以獲取不同的游戲體驗;而在可聯(lián)網(wǎng)設(shè)備上,比如網(wǎng)絡(luò)電視(IPTV)和Xbox,甚至還有智能家電,需要輸入文字信息時用遠(yuǎn)距離“比劃”都很方便。比如在網(wǎng)絡(luò)電視上搜索視頻,在Xbox上搜索游戲動畫等等;而對于家長來說,采用手勢這種寓教于樂的方式,更適合好動且喜歡視覺沖擊的小孩。由于遠(yuǎn)距離輸入更能體現(xiàn)脫離鍵盤鼠標(biāo)輸入信息的優(yōu)勢,未來,微軟亞洲研究院希望識別空中手書技術(shù)能夠為用戶解決更多的實際問題,能夠使能其他有趣有意義的事情發(fā)生。而且,將不限定只用一個跟蹤點,未來將會有多個跟蹤點來應(yīng)用到微軟地圖搜索服務(wù)的查找、縮放等。
“我們做研發(fā)的目的是為了提升用戶體驗,微軟亞洲研究院在與產(chǎn)品部門的互動和溝通過程中,來共同探討把這些創(chuàng)新技術(shù)應(yīng)用到產(chǎn)品里或者技術(shù)轉(zhuǎn)移出去的時間。但是,作為一個研究人員,能夠讓千家萬戶應(yīng)用到自己的創(chuàng)新想法是最令我們激動的事情。”霍強對記者說。
霍強和馬磊最近剛從微軟雷德蒙總部回來,他們在微軟研究院一年一度的技術(shù)節(jié)上展示了識別空中手書技術(shù),吸引了包括微軟產(chǎn)品部門,微軟全球其它研究院同事以及媒體的關(guān)注。著名博客人Chris Pirillo 在他博客中寫道:“雖然這個軟件目前還只是個技術(shù)原型,沒有被應(yīng)用,但是我很看好它,這是一項驚人的研究。你能想像這個軟件什么時候能被應(yīng)用嗎?我們所有的Xbox迷都拭目以待吧!”
這些充滿無限可能性的基礎(chǔ)創(chuàng)新是最具能量的。它本身可能不是一個成熟的應(yīng)用,但是一旦與現(xiàn)實生活中有趣的想法相結(jié)合,就可以催生出無數(shù)的精彩成果。微軟擅長于調(diào)動豐富的研發(fā)資源做些“打地基”的事情,識別空中手書就拓展了更多豐富應(yīng)用的可能性。而這,或者就是微軟亞洲研究院“研發(fā)之美”的魅力所在。
相關(guān)閱讀