
Microsoft、QQ和Baidu三個例子在4個角度上的方向濾波和組合
“這是首次將方向濾波器運用到驗證碼的識別中。方法很簡單,但效果也驚人地好。”用這種方法,無論文本驗證碼如何扭曲、傾斜、重疊、空心、粘連或加入噪音,即便是使用普通PC,也可以在數秒內迅速破解。經檢測,世界排名前二十的網址的文本驗證碼均可通過此方法識別,識別率最高可達77%,準確率超過現有所有進行文本驗證碼研究的團隊。在業界,當識別率達到0.01%便算破解成功。

Baidu的14個筆畫塊進行動態規劃求最優解
“除了K近鄰算法,也可以使用深度學習中的卷積神經網絡算法來進行識別。隨著字符樣本庫越來越大,計算機深度學習的程度越深,計算機對文本驗證碼的識別率會不斷提高,時間也將不斷縮短。我們還對某些較少被研究的復雜驗證碼進行了測試,一些人類都難以識別的驗證碼,用此種方法也可得以破解。”
此研究成果被信息系統安全頂級國際會議NDSS’2016正式全文接收。據了解,NDSS是信息系統安全領域國際公認的四大頂級會議之一(ACM CCS、IEEE Security & Privacy、USENIX Security和ISOC NDSS),創辦于1994年。西電是繼北大清華之后,第三家在這個會議上發表論文的大陸科研機構。
黑客(Hacker)一詞,最初曾指熱心于計算機技術、水平高超的電腦專家,尤其是程序設計人員,后來逐漸區分為白帽、灰帽、黑帽等。利用公共通訊網路,如互聯網和電話系統,在未經許可的情況下,攻入對方系統的被稱為黑帽黑客(black hat);調試和分析計算機安全系統的稱為白帽黑客(white hat)。
“破解驗證碼的目的,不是為了破壞,而是找出現有驗證碼的缺陷,尋求解決方法,推動驗證碼研究不斷發展。”高海昌稱自己屬于白帽黑客。
驗證碼:網絡安全的第一關
驗證碼的存在,就是需要由用戶肉眼識別其中的驗證碼信息,防止一些人利用程序自動注冊、登錄、灌水等等。“對驗證碼的研究,其實就是對其魯棒性和可用性的研究。”高海昌說。
在驗證碼的領域中,魯棒性就是要求驗證碼機制防破解能力強,不會輕易被計算機程序自動識別。可用性就是要求驗證碼機制對于人類的使用交互友好,既不能識別困難,也不能讓識別時間過長。“驗證碼研究向前推動,難點就在于不斷尋找這兩者間的最佳平衡點——畢竟可用性高,就要求驗證碼簡單,安全性便可能因此降低;而魯棒性強,安全性大大提升,使用的方便度便不那么高。”
“最近頻遭質疑的12306網站的圖片驗證碼,人類的通過率只有8%。相反,機器通過卻易如反掌。12306后臺目前有581種生活中常見物體圖片的驗證碼,包括動植昆蟲、食品果蔬等12大類。數量雖不多,但考慮到圖片大小、清晰度等問題,要想在短時間內予以識別,確實困難。”高海昌介紹說。對于計算機來說,581種圖片的學習量再小不過——破解程序經多次嘗試,建立圖片答案庫,不到一秒便可輕松通過驗證碼程序,驗證碼的可用性和安全性都差強人意。高海昌團隊也曾就火車票售賣網站驗證碼問題向有關部門提出了自己的建議。