根據(jù)一幅人臉圖像,就能估計一個人的年齡,這一計算機(jī)視覺識別領(lǐng)域有關(guān)深度學(xué)習(xí)技術(shù)的研究,最近有了新的進(jìn)展。
西安電子科技大學(xué)電子工程學(xué)院大三學(xué)生周默作為第二作者,與指導(dǎo)老師牛振興副教授共同完成了一篇題為《基于多輸出卷積神經(jīng)網(wǎng)絡(luò)的排序回歸模型及其在年齡估計中的應(yīng)用》(Ordinal Regression with Multiple Output CNN for Age Estimation)的論文,這篇論文提出的人臉年齡識別算法,有效地將人臉年齡估計的正確率,從4歲以上縮小到了3.2歲的誤差之內(nèi)。
這一結(jié)果已經(jīng)在主流的年齡估計公共評測數(shù)據(jù)庫得到驗證,是現(xiàn)階段最好的研究結(jié)果之一。同時,該研究結(jié)果也得到了國際同行的普遍認(rèn)可,這篇論文已被IEEE國際計算機(jī)視覺與模式識別會議(CVPR2016)正式接收。今年6月份,周默將和指導(dǎo)教師一起前往美國,參加一年一度的IEEE國際計算機(jī)視覺與模式識別會議。
人臉年齡識別的新進(jìn)展
今年3月份,人工智能軟件Alpha Go和韓國棋手李世石的人機(jī)大戰(zhàn)引爆了整個IT界。隱藏在Alpha Go身后的就是近些年有突破性進(jìn)展的深度學(xué)習(xí)技術(shù)(Deep Learning)。自從2006年多倫多大學(xué)的Hinton教授發(fā)表了一篇關(guān)于深度學(xué)習(xí)的論文開始,大量的學(xué)者加入到深度學(xué)習(xí)的研究中,包括許多美國常青藤學(xué)校和諸多高科技公司,Alpha Go只是深度學(xué)習(xí)技術(shù)一個代表。
周默參與完成的這篇論文也是在討論深度學(xué)習(xí)技術(shù),特別關(guān)注于如何利用深度學(xué)習(xí)技術(shù)更好的完成計算機(jī)視覺領(lǐng)域中的一個有趣問題——人臉年齡估計,即根據(jù)一幅人臉圖像估計用戶的年齡。該問題屬于計算機(jī)視覺與生物信息學(xué)的交叉課題,在學(xué)術(shù)界和工業(yè)界都受到普遍關(guān)注。例如,微軟在2015年推出的應(yīng)用軟件“How Old”就曾風(fēng)靡一時,被稱之為“全球最火測試年齡APP”。然而受到諸多限制,該方向的基礎(chǔ)研究一直未有顯著突破。
他們的研究,創(chuàng)新性地將年齡估計問題轉(zhuǎn)化為排序回歸(ordinal regression)問題,然后首次利用深度學(xué)習(xí)技術(shù)(卷積神經(jīng)網(wǎng)絡(luò)CNN)提出了一個解決排序回歸的模型(OR-CNN),并將提出的模型應(yīng)用于人臉年齡估計。
“我們的算法在主流的年齡估計公共評測數(shù)據(jù)庫上,取得了現(xiàn)階段最好的效果,平均誤差達(dá)到3.2歲,而之前學(xué)術(shù)界的所有實驗數(shù)據(jù)誤差均在4歲以上。而且,我們的算法具有一定的通用性,一般的排序回歸問題,都可以用我們的算法去計算。”周默介紹說。
從碼工到科研新秀的華麗轉(zhuǎn)身
“悲喜是風(fēng)雨,信念是常青樹,信念越強(qiáng)大,越不會為風(fēng)雨所動搖”。得知自己的論文被國際會議CVPR2016正式錄用,周默更新了自己已經(jīng)半年沒有更新的QQ簽名。
這個覺得自己信念足夠強(qiáng)大的本科生,還有一個頗為“神秘”的身份,西安電子科技大學(xué)開源社區(qū)的現(xiàn)任負(fù)責(zé)人?!拔覀冞@個社團(tuán)活躍的人數(shù)不多,也就七八個。”
說它神秘,是因為開源社區(qū)的小伙伴是校園傳說中的技術(shù)大牛。他們是一群癡迷計算機(jī)和網(wǎng)絡(luò)技術(shù)的人,參與開發(fā)并維護(hù)西電校園內(nèi)的Linux軟件源。正是由于對開源操作系統(tǒng)開發(fā)的熱衷和喜愛,周默鍛煉出了很扎實的代碼編寫能力。
談及同樣是本科生階段就在CVPR發(fā)表文章的清華學(xué)霸吳佳俊,周默不無自嘲地說,“我不是學(xué)霸,其實還是個‘學(xué)困生’。我的成績在全班排名并不是最好,獎學(xué)金、數(shù)模大賽之類雖也拿過獎,但都是三等獎。每逢考試來臨,我也是狂啃書本才能過關(guān)?!?/p>
一個只偏愛寫代碼的普通本科生,如何加入了深度學(xué)習(xí)的科研工作中。這一切要從半年前說起,基于對Linux系統(tǒng)的共同熱愛,周默有機(jī)會認(rèn)識了電子工程學(xué)院青年教師牛振興副教授,周默較強(qiáng)的代碼編寫能力,迅速受到牛振興的重視,正是在他的帶領(lǐng)下,周默走上了計算機(jī)視覺和模式識別的探索之路。
勤奮和努力是開展科學(xué)研究的唯一通行證
從每天埋頭做實驗到即將去美國參加國際會議,周默笑著說道,“幸福來得有點突然?!?/p>
從正式接觸深度學(xué)習(xí)技術(shù)到論文被國際會議接收,前后不過半年左右的時間,這其間一定有著不為人知的艱辛和努力。
因為大三的課程安排比較滿而且全部在南校區(qū),指導(dǎo)教師的實驗室又在北校區(qū),周默每周都要多次往返于南北校區(qū)之間,他已經(jīng)數(shù)不清坐了多少次校園末班車了。就這樣,周默度過2015年的整個冬天。
硬啃大量的學(xué)術(shù)前沿文獻(xiàn),快速地完成代碼編寫任務(wù),準(zhǔn)確地搭建模型,實驗數(shù)據(jù)在他的手下開始快速運(yùn)轉(zhuǎn)起來。
“看著計算機(jī)上24小時不停跑動的數(shù)據(jù),你的心也會跟著跑動起來,因為你不知道運(yùn)行后的實驗數(shù)據(jù)是否成功。實驗數(shù)據(jù)沒有成功,尋找漏洞,重新改寫代碼,重新運(yùn)算。每一次實驗,無論成功與失敗,都需要認(rèn)真做好記錄,這樣我們才能從中發(fā)現(xiàn)一些潛在的規(guī)律,為我們提升模型效果創(chuàng)造機(jī)會?!?/p>
周默介紹說:“我們實驗室的計算機(jī)那真是勞苦功高,一年365天,全年無休。在實驗數(shù)據(jù)運(yùn)行上,指導(dǎo)教師絕不允許有任何虛假成分。牛老師總是提醒說,科研必須也只能老老實實地做?!?/p>
實驗數(shù)據(jù)的獲得總是那么的漫長和辛苦,實驗沒有成功,數(shù)據(jù)沒有跑出來,論文就無法繼續(xù)撰寫。半年間,前后共做了200多次實驗,實驗數(shù)據(jù)也從剛開始的2GB到現(xiàn)在的100GB。一篇文章就是半年的實驗數(shù)據(jù)?!坝浀迷谧詈笸陡宓那耙粋€月,我和老師在實驗室連續(xù)加班,每天都工作到凌晨三、四點,終于在deadline之前,遞交了我們最滿意的版本?!?/p>
“論文投出去的那個早晨,已經(jīng)身經(jīng)百戰(zhàn)的牛老師說,我對這篇文章有信心,但是我也依然無法掌控它的命運(yùn)?!睋?jù)了解,每年CVPR會收到來自全球各地1700多篇的投稿,最終會收錄300篇左右的文章,錄取率保持在25%左右。每年大約吸引3000名左右的參加者,CVPR也是一場計算機(jī)視覺學(xué)術(shù)界研究者的大聚會。
(文/西電新聞中心·趙玉娟)