Вэбсайтын цэс
ХЯЗГААРЛАГДМАЛ ҮГИЙН САН БҮХИЙ ЯРИА ТАНИХ ТУРШИЛТ ЯВУУЛЛАА
ХЯЗГААРЛАГДМАЛ ҮГИЙН САН БҮХИЙ ЯРИА ТАНИХ ТУРШИЛТ ЯВУУЛЛАА

Яриа таних процесс сүүлийн 50 гаруй жилийн турш эрчимтэй судлагдаж байгаа бөгөөд Amazon, Apple болон Google фирмүүдийн гаргасан Alexa, Siri, Assistant гэх мэт яриа таних олон системүүд бидний энгийн амьдралд өргөнөөр нэвтэрч байна. Яриа таних гэдэг нь хэлсэн үгийг бичвэр эсвэл команд болгон хувиргах процесс юм. Манай орны эрдэмтэн судлаачид Монгол хэлний яриа таних чиглэлээр эрчимтэй ажиллаж байна.   

Бид интернет, серверт холбогдохгүйгээр биеэ даан ажиллах, хязгаарлагдмал үгийн сан бүхий яриа таних систем зохион бүтээхийг зорьж байна.  Энэхүү зорилгын хүрээнд “Ас”, “Унтар”, “Тод” болон “Бүдэг” гэсэн 4 үгийг таньж, гэрлийг удирдах систем хийсэн. Нейрон сүлжээ (НС) ашиглан яриаг сургах, таниулах ажлыг гүйцэтгэсэн ба НС загварыг компьютер дээр гаргасан.

Яриа таних процесс нь ярианы сигналын урьдчилсан боловсруулалтаар эхэлнэ. Сигналын урьдчилсан боловсруулалт нь микрофон болон soundcard ашиглан яриаг тоон сигнал болгон хувиргана. Үүний дараа сигналаас ярианы хэсгийн эхлэл, төгсгөлийг ялгана. Бид богино хугацааны энерги болон тэг цэгийн огтлолын аргуудыг хослуулах замаар эхлэл, төгсгөлийг ялгах процессыг гүйцэтгэсэн. Түүнчлэн нормчлол хийгдэх ба нам болон өндөр давтамжийн энергийг баланслахын тулд сигналыг “pre-emphasis” шүүлтүүрээр гаргана. Ярианы сигналыг 10-30 мсек урттай фреймийн цуваанд задлах ба эцэст нь фрейм бүрийг цаашид фурье хувиргалт авахын тулд цонхны функцээр гаргана.   

Үүний дараа ярианы сигналаас онцгой шинжийг ялгах процесс гүйцэтгэгдэнэ. Бид мел давтамжийн кепстраль коэффициентыг (MFCC) хэрэглэсэн. MFCC-н гүйцэтгэх дарааллыг зураг 1-т үзүүлэв.




Зураг.1 Мел давтамжийн кепстраль коэффициентийг гарган авах дараалал.

Зураг 2-т богино хугацааны энерги болон тэг цэгийн огтлолын, сигналын эхлэл төгсгөлийг ялгасан байдал болон MFCC-н үр дүнг харуулав.







Зураг.2 а) богино хугацааны энерги болон тэг цэгийн огтлолын,  б) ярианы сигналын эхлэл, в)төгсгөлийг ялгасан байдал болон MFCC-н үр дүнг.

Ярианы сигналын уртаас хамаарч MFCC-н урт тогтмол байдаггүй харин нейрон сүлжээний оролтын нейроны тоо тогтмол байдаг. Тиймээс үүнийг зохицуулахын тулд Kmean алгоритмыг ашигласан. Нейрон сүлжээний оролтын нейроны тоог 325 харин гаралтын тоо нь 4 байна. “Levenberg-Marquardt (LM)”-н сургалтын алгоритм хэрэглэгдсэн. Сургалтын өгөгдлөөр 11 хүн үг тус бүр 10 удаа хэлсэн бөгөөд нийт 440 дууны бичлэг хэрэглэгдсэн. Зураг 3-т сурах процессын дүнг “confusion” матрицаар үзүүлэв. Үр дүнгээс харахад нейрон сүлжээ Монгол хэлний дээрх 4 үгийг 99.1%-иар таньсан байна.















Зураг.3 Сурах процессийн дүн

Бид дараах схемийг угсран туршилтыг явуулсан (Зураг 4).









Зураг.4 Туршилтын схем

“Ас” гэж хэлэхэд гэрэл 100%-н чадлаар асна. “Тод” гэж хэлэхэд гэрэл 10%-иар чадлаа нэмнэ. “Бүдэг” гэж хэлэхэд гэрэл 10%-иар чадлаа багасгана. Эцэст нь “Унтар” гэж хэлэхэд гэрэл бүрэн унтарна.  

Мэдээ бэлтгэсэн:

Хэрэглээний Физикийн салбар, ЭШДэА Б.Зандан

Судалгааны ажлын дэлгэрэнгүй:

Б.Зандан, А.Г.Ченский, О.Бөхцоож, Т.Галбаатар, “Применение искусственной нейронной сети для распознавания речевых команд на монгольском языке”, EUROPEAN SCIENTIFIC CONFERENCE» XIII Международная научная конференция, 2019.


Бусад мэдээлэл