2006 年Hinton 提出深度置信網路(deep belief network,DBN),解決了深度神經網路訓練過程中容易陷入局部最優的問題,為深度學習技術開啟新方向。2009 年,Hinton 和他的學生Mohamed D 將DBN 應用在語音辨識聲學建模中,並且在TIMIT 這樣的小詞彙量連續語音辨識資料庫上獲得成功。
2011 年DNN 在大詞彙量連續語音辨識上獲得成功語音辨識效果取得了近10 年來最大的突破,並從此成為主流的語音辨識建模方式。
3 年以後的2014 年11 月,以DNN 技術為基礎的亞馬遜憑藉Echo 一舉開創出了智慧音箱這個全新的市場。
在語音辨識技術方向中,具有更強的長時建模能力的迴圈神經網路(recurrent neural network,RNN),卷積神經網路 (convolutional neural network,CNN),以及在語音辨識領域獨樹一幟的科大訊飛公司提出的DFCNN 技術相繼出現,從而使得人機語音交互的體驗越來越好,以智慧音箱為代表的語音交互設備開始受到越來越多消費者的歡迎。