ГҮН МАШИН СУРГАЛТ АШИГЛАН ЯРИАНЫ ЭМГЭГИЙГ ИЛРҮҮЛЭХ, АНГИЛАХ
Өнөөдөр дуу хоолой ашиглан яриа таних эсвэл бичвэрийг яриа болгох технологи
хурдацтай хөгжиж байгаа билээ. Түүнчлэн хүн-машины харилцааг илүү бодитой
болгох үүднээс ярианаас сэтгэл хөдлөлийг таних судалгаа эрчимтэй хийгдэж
тодорхой амжилтад хүрч байна. Үүнээс гадна бусад олон салбарт ярианы технологи
өргөнөөр хэрэглэгдэж байна.
Сүүлийн үед эрүүл мэндийн салбарт оношилгоо хийхэд эмчид туслах системүүд
нэвтэрч байна. Ийм судалгаануудын нэг ньдуу хоолой, ярианы эмгэгийн оношилгоонд
яриа таних технологийг ашиглахсудалгаа юм.Энэ нь оношилгооны хугацааг, оношилгооны
үед өвчтөнд үзүүлэх хүндрэл зэргийг багасгах давуу талтай байдаг. Энэ удаад шинжлэх ухаан, технологийн чиглэлээр
олон улсын сэтгүүлд хэвлэгдсэн Доктор С.Сантана Мегала тэргүүтэй эрдэмтдийн
гүйцэтгэсэн “Гүн машин сургалт ашиглан ярианы эмгэгийг илрүүлэх, ангилах” ажлыг
товчлон хүргэж байна.
Ярианы дохиог ашиглан дуу хоолой, ярианы эмгэгийг илрүүлэх аргыг
боловсруулахдаадохионы урьдчилсан боловсруулалт, ярианы дохионоос онцгой шинж
чанарыг ялгах болон шинж чанаруудыг ангилах гэсэн 3 шаттай гүйцэтгэжээ.
Дохионы урьдчилсан боловсруулалтын шатанд дохионоос шуугианыг хасах болон
дохионы цонх тавих процессууд гүйцэтгэгдэнэ.
Үүний даараа ярианы дохионоос эмгэгийг илрүүлж болох шинж чанаруудыг ялган
авах шат гүйцэтгэгдэнэ. Энэ ажилд хамгийн чухал параметрээр “Мел” давтамжийн коэффициентыг
сонгон авсан байна. Дуу хоолой, ярианы эмгэгийг үүсгэгч нь ярианы дохионы
давтамжид хамгийн ихээр нөлөөлдөг учраас энэхүү параметр нь нэлээд чухал юм.
Эцсийн шат буюу шинж чанарыг ангилах шатанд Левенберг-Марквардтын сурах
алгоритм бүхий нейрон сүлжээ болон хязгаарлагдмал Больцманы машин алгоритм болох
гүн сургалт гэсэн 2 аргыг хэрэглэсэн. Эдгээр сүлжээг сургахдаа “MEEI” өгөгдлийн
санг ашигласан. Энэ сангаас “а” эгшиг болон "rainbow passage" хэлсэн үгүүдийн
дууны файлыгашигласан байна.
Энэ ажлын үр дүнд ярианы дохионоос дуу хоолойн, ярианы эмгэгтэй эсэхийг
хязгаарлагдмал Больцманы машин алгоритм нь 98% -ийн нарийвчлалтай ялгасан бол
Левенберг-Марквардтын сурах алгоритм бүхий нейрон сүлжээ нь 92% -ийн
нарийвчлалтай ялгасан байна.
Үр дүнгээс харахад дуу хоолой, ярианы эмгэгийг ялгах боломж нэлээд өндөр болох
нь харагдаж байна. Эдгээр техникүүд нь бие даан оношилгоо хийх гэхээс
илүүтэйгээр эмчид оношилгоо хийхэд нь туслах үүрэгтэй юм.
Эх сурвалж:
http://www.ijstr.org/final-print/dec2019/Detection-And-Classification-Of-Speech-Pathology-Using-Deep-Learning-.pdf
Мэдээ бэлтгэсэн: ФТХ, Технологи
хөгжүүлэлтийн лаборатори