3D視覺技術的發展
近年來(lai),隨著芯片技(ji)術的(de)(de)(de)發(fa)展以及相(xiang)關(guan)軟硬件(jian)系統的(de)(de)(de)深入(ru),視覺(jue)傳(chuan)感器(qi)得到了極為廣泛(fan)的(de)(de)(de)應(ying)用(yong)。社會越來(lai)越智能(neng),可以使(shi)用(yong)人工(gong)智能(neng)和(he)大數據技(ji)術將(jiang)人們記錄下來(lai)的(de)(de)(de)圖像智能(neng)地利用(yong)起(qi)來(lai),而不是用(yong)一(yi)個(ge)個(ge)柜子將(jiang)圖像、視頻束之高閣。
從膠卷(juan),到CCD 再到現在特別成(cheng)熟、隨處可見的(de)(de)CMOS,我們對圖像(xiang)傳感(gan)器的(de)(de)性能追求也(ye)(ye)逐(zhu)漸發生(sheng)了改(gai)變。手機上開始出現前攝(she)、后攝(she),后攝(she)也(ye)(ye)出現了俗(su)稱(cheng)的(de)(de)“浴霸”、“加(jia)特林”。在算法的(de)(de)加(jia)持(chi)下,每顆攝(she)像(xiang)頭的(de)(de)用處都不一樣。

而18、19年(nian)將是(shi)3D圖(tu)像傳感器起飛與騰飛的(de)兩(liang)年(nian)。有了3D傳感器,我們(men)就更容(rong)易(yi)做(zuo)(zuo)基于事件的(de)分析并直接指導我們(men)身邊圖(tu)像的(de)優化做(zuo)(zuo)出體感游戲(xi)、人(ren)臉支付、機(ji)器人(ren)自動(dong)避障、工業(ye)自動(dong)分揀等應用。
2016年,AlphaGo成為(wei)個(ge)不借助讓(rang)子而(er)擊敗圍棋職業九段棋手李世石的(de)計算機圍棋程(cheng)序,這(zhe)件事(shi)引(yin)起(qi)了人(ren)類的(de)轟動,也展開了各種討論。隨之而(er)來的(de)是人(ren)工智能(neng)鋪(pu)天(tian)蓋(gai)地(di)的(de)宣傳,這(zhe)給了無數人(ren)信心,機器智能(neng)化的(de)大浪(lang)潮撲(pu)面而(er)來。
現在AI是(shi)一個很火的(de)(de)詞。很多人都想做AI,也有很多人想往AI上面靠,AI的(de)(de)出現就相當于(yu)我們有了(le)一個聰明的(de)(de)大腦。以(yi)前的(de)(de)處(chu)理器,只能(neng)處(chu)理一個特(te)定場景的(de)(de)問題,AI給(gei)這個世界(jie)帶來了(le)可以(yi)自(zi)我學(xue)習(xi)、自(zi)我改進的(de)(de)功能(neng),特(te)別是(shi)對復雜(za)場景的(de)(de)處(chu)理,AI更“聰明”。
可是只有AI,自動駕駛也(ye)做不起來(lai),它還需要攝(she)像頭、激光(guang)雷(lei)達、毫米(mi)波雷(lei)達等(deng)各類傳感器(qi)。
人臉識別也是非常好的一項技術,可以用來做人臉識別閘機、人臉無感支付,但是現在很多時候人臉識別還是容易受到環境干擾、hei客攻擊。
所以,想把(ba)AI做好(hao),傳(chuan)感器對(dui)我們進入智能時代至關重要(yao)。有了3D傳(chuan)感器,掃(sao)地(di)機(ji)不會跌(die)跌(die)撞撞,僅憑一張照(zhao)片(pian)一個視頻也(ye)(ye)騙不開手機(ji)解鎖,自動駕駛也(ye)(ye)能檢測到來往行人、車輛(liang),變(bian)得更安全。
3D傳感器在AI幾乎所(suo)有(you)的領域都(dou)有(you)廣泛(fan)的應(ying)用(yong),比如新零(ling)售,自動駕駛,個(ge)性化教育,智(zhi)慧醫(yi)療,智(zhi)能(neng)(neng)安(an)防,智(zhi)能(neng)(neng)監護,智(zhi)能(neng)(neng)機器人等等。 2019年,我們也將迎來(lai)3D視覺技(ji)術在各個(ge)領域的廣泛(fan)應(ying)用(yong)。
1、 雙目視覺
談到3D視覺,主要就是指圖像不僅僅是二維的XY坐標,還要感受被拍照物體的距離遠近,大小尺寸,也就是空間坐標Z。
我(wo)們(men)人(ren)(ren)靠著左右兩只眼可(ke)(ke)以估計出(chu)前(qian)(qian)方的(de)門在(zai)(zai)3m處,桌(zhuo)子上的(de)茶杯在(zai)(zai)1.5m處,遠處的(de)樹大概(gai)在(zai)(zai)10m。仿生(sheng)學是(shi)被(bei)應(ying)(ying)用(yong)得非常好的(de),通過兩只攝(she)像頭(tou),無人(ren)(ren)機(ji)可(ke)(ke)以分辨前(qian)(qian)方障礙(ai)物(wu)(wu)一根(gen)電線桿的(de)距離。因(yin)為(wei)在(zai)(zai)它(ta)的(de)左眼中,物(wu)(wu)體坐標為(wei)A,相(xiang)應(ying)(ying)的(de)視(shi)場角度α, 右眼坐標為(wei)B,相(xiang)應(ying)(ying)的(de)視(shi)場角度β,而基線距離x是(shi)早(zao)先(xian)就(jiu)在(zai)(zai)機(ji)械結構上確定的(de)。這樣通過下面的(de)公式,我(wo)們(men)就(jiu)可(ke)(ke)以得到空(kong)間(jian)點的(de)z軸(zhou)距離。
這(zhe)(zhe)個(ge)(ge)方法已經沿用(yong)了很多年,從技術(shu)上來(lai)說,視野里面(mian)所有的(de)(de)(de)(de)點(dian)都不(bu)可靠了,不(bu)能確定左(zuo)右眼中的(de)(de)(de)(de)兩個(ge)(ge)點(dian)是(shi)(shi)不(bu)是(shi)(shi)同一(yi)個(ge)(ge)點(dian)。它(ta)的(de)(de)(de)(de)優點(dian)就(jiu)是(shi)(shi)觀測(ce)距離遠,精度(du)高,成(cheng)本(ben)相對較低。缺(que)點(dian)就(jiu)是(shi)(shi)面(mian)對單(dan)一(yi)場景,例如(ru)一(yi)面(mian)白墻,波(bo)動的(de)(de)(de)(de)水面(mian),皚皚的(de)(de)(de)(de)白雪(xue),綠油(you)油(you)的(de)(de)(de)(de)草地,我們人(ren)都會失去參考點(dian),這(zhe)(zhe)時候無(wu)人(ren)機(ji)或處(chu)理器(qi)就(jiu)無(wu)法計算出深度(du)。
這也就是為什么雙(shuang)目(mu)攝像頭鮮少應用在手機、人臉識別、人臉解鎖等方面。
另外一個問題是(shi),如果(guo)我(wo)們要(yao)將物(wu)體表面(mian)做(zuo)(zuo)一個高(gao)分辨率深度探測,那(nei)么(me)處理器先要(yao)做(zuo)(zuo)多(duo)點的圖像(xiang)數據匹(pi)配,這個匹(pi)配算法的算力要(yao)求就(jiu)超乎一般人想象(xiang),然后再執行圖中公式的計算,而這個運(yun)算是(shi)三(san)角函數級別,比較復(fu)雜。可以(yi)想象(xiang)如果(guo)需要(yao)將人臉表面(mian)做(zuo)(zuo)1000個點的深度信(xin)息建(jian)模,那(nei)么(me)所(suo)需要(yao)的運(yun)算量是(shi)多(duo)么(me)的復(fu)雜。
2、結構光
2017年iPhone X面世(shi),它采(cai)用3D結(jie)構光的方(fang)式,將我們人(ren)臉的3D數據測算出來,又一次了技術(shu)潮流。
對于結構(gou)光(guang),其實也是(shi)(shi)一個很(hen)古老的(de)技術(shu),只不過蘋果(guo)可以(yi)把它做到手機里(li)面,還是(shi)(shi)比較讓大(da)家(jia)吃驚的(de)。
左(zuo)圖(tu)是一(yi)個(ge)(ge)3d結構光(guang)的(de)簡單實驗版。通過右(you)邊的(de)投影儀可(ke)以投影出黑白相(xiang)間的(de)條(tiao)紋(wen)狀(zhuang)圖(tu)案,打在(zai)一(yi)個(ge)(ge)狐貍面具上面這(zhe)些條(tiao)紋(wen)狀(zhuang)的(de)圖(tu)案就會(hui)產生一(yi)定(ding)的(de)畸變。通過CCD相(xiang)機將這(zhe)個(ge)(ge)畸變的(de)形(xing)狀(zhuang)拍下來之后,便(bian)可(ke)以通過這(zhe)個(ge)(ge)畸變的(de)狀(zhuang)態,去計算(suan)出這(zhe)個(ge)(ge)面具相(xiang)應的(de)凹凸(tu)不平(ping)的(de)3D信息。比如條(tiao)紋(wen)向左(zuo)彎(wan)(wan)曲,就代表(biao)凸(tu)起,向右(you)彎(wan)(wan)曲代表(biao)凹陷。
單點(dian)結構(gou)光(guang)(guang)的(de)三角測距法基本原理如右圖,激光(guang)(guang)光(guang)(guang)源打出(chu)一(yi)個(ge)很小很亮(liang)的(de)紅(hong)點(dian),傳感(gan)器(qi)接收到之后,就(jiu)可以在sensor表面找到這個(ge)特別亮(liang)的(de)點(dian)的(de)坐標(x’,y’)。結合光(guang)(guang)源的(de)投(tou)影角,基線距離b,鏡頭焦距f,就(jiu)可以通過上面的(de)公式(shi)解析出(chu)三軸(zhou)坐標(x,y,z)了(le)。
而IPHONE X使用了3萬個(ge)(ge)點(dian)的(de)(de)投(tou)射器,然后通過(guo)一百四十萬像素的(de)(de)紅外(wai)攝像頭,將這(zhe)些(xie)投(tou)射點(dian)的(de)(de)信(xin)息全(quan)部都采集回來,這(zhe)中間一個(ge)(ge)復雜的(de)(de)問題,就(jiu)是要(yao)將這(zhe)3萬個(ge)(ge)點(dian)每一個(ge)(ge)點(dian)匹(pi)配。這(zhe)里面難的(de)(de)就(jiu)是要(yao)找(zhao)到打在臉上的(de)(de)點(dian)的(de)(de)ID,也(ye)就(jiu)是得知道(dao)打出(chu)點(dian)的(de)(de)投(tou)射角,基(ji)線(xian)距離(li)。這(zhe)個(ge)(ge)匹(pi)配算法是需要(yao)非常大量的(de)(de)計(ji)算的(de)(de)。而且為了降低計(ji)算量,這(zhe)3萬個(ge)(ge)點(dian)的(de)(de)排布在我(wo)們看(kan)來是隨(sui)機的(de)(de),實際(ji)是符合某種(zhong)數學幾何規(gui)律的(de)(de)。
可(ke)以看到這個計算公(gong)式里面包含了(le)各項幾何參數,所以對組裝工藝要求很(hen)高,而且后期客戶將手機摔倒了(le)或者震動,都可(ke)能會影響3D測(ce)量精度。
另外這塊由于(yu)專(zhuan)li的(de)保護(hu),別人很(hen)難進入。所以(yi)業內(nei)對于(yu)蘋果(guo)能推出這個方案,還是(shi)很(hen)佩服的(de),蘋果(guo)還是(shi)具備相(xiang)當強大的(de)工程能力。因(yin)為IPHONE X的(de)利潤率不錯,蘋果(guo)可以(yi)做這塊的(de)事情。而別的(de)廠(chang)商做這個就挺痛苦的(de),受(shou)限(xian)于(yu)成本(ben)和技術難度。
來源(yuan):光電微課堂(tang)
電話
微信掃一掃