یادگیری ماشینی تشخیص گفتار انسان را بهبود می بخشد
کم شنوایی یک حوزه تحقیقات علمی است که به سرعت در حال رشد است زیرا با افزایش سن، تعداد افرادی که با کم شنوایی سروکار دارند همچنان در حال افزایش است.
برای درک اینکه کاهش شنوایی چگونه بر افراد تأثیر می گذارد، محققان توانایی افراد در تشخیص گفتار را مطالعه می کنند. در صورت وجود طنین، اختلالات شنوایی، یا سر و صدای قابل توجه پس زمینه، مانند صدای ترافیک یا چندین بلندگو، تشخیص گفتار انسان برای افراد دشوارتر است. در نتیجه، الگوریتم های سمعک اغلب برای بهبود تشخیص گفتار انسان استفاده می شود.
برای ارزیابی چنین الگوریتمهایی، محققان آزمایشهایی را انجام میدهند که هدف آن تعیین نسبت سیگنال به نویز است که در آن تعداد خاصی از کلمات (معمولاً 50٪) تشخیص داده میشود. با این حال، این آزمایش ها زمان بر و هزینه بر هستند.
محققان آلمانی یک مدل تشخیص گفتار انسان مبتنی بر یادگیری ماشین و شبکههای عصبی عمیق را بررسی میکنند.
نویسنده Jana Roßbach میگوید: «جدید بودن مدل ما این است که پیشبینیهای خوبی برای شنوندگان کمشنوا برای انواع نویز با پیچیدگی بسیار متفاوت ارائه میکند و هم خطاهای کم و هم همبستگی بالایی را با دادههای اندازهگیری شده نشان میدهد.»
محققان با استفاده از تشخیص خودکار گفتار (ASR) تعداد کلمات را در هر جمله محاسبه کردند. اکثر مردم از طریق ابزارهای تشخیص گفتار مانند الکسا و سیری با ASR آشنا هستند.
این مطالعه شامل هشت شنونده عادی و 20 شنونده کم شنوا بود که در معرض انواع صداهای پیچیده ای قرار گرفتند که گفتار را پنهان می کرد. افراد کم شنوا به سه گروه با سطوح مختلف کم شنوایی مرتبط با سن تقسیم شدند. این مدل به محققان اجازه داد تا عملکرد تشخیص گفتار انسانی شنوندگان کم شنوایی با درجات مختلف کاهش شنوایی را برای انواع پوششدهندههای نویز با افزایش پیچیدگی در مدولاسیون زمانی و شباهت به گفتار واقعی پیشبینی کنند.
این مدل پیش بینی هایی را برای شنوایی تک گوش ایجاد کرد. در آینده، محققان یک مدل دوگوشی ایجاد خواهند کرد زیرا درک گفتار تحت تأثیر شنوایی دو گوش قرار می گیرد. علاوه بر پیشبینی درک گفتار، این مدل همچنین میتواند به طور بالقوه برای پیشبینی تلاش گوش دادن یا کیفیت گفتار مورد استفاده قرار گیرد زیرا این موضوعات بسیار مرتبط هستند.
201001211.055