یادگیری ماشینی تشخیص گفتار انسان را بهبود می بخشد

شماره :
41206
آخرین به روزرسانی :
سه شنبه 1402/06/28 ساعت 16:36
دسته بندی

یادگیری ماشینی تشخیص گفتار انسان را بهبود می بخشد

کم شنوایی یک حوزه تحقیقات علمی است که به سرعت در حال رشد است زیرا با افزایش سن، تعداد افرادی که با کم شنوایی سروکار دارند همچنان در حال افزایش است.

برای درک اینکه کاهش شنوایی چگونه بر افراد تأثیر می گذارد، محققان توانایی افراد در تشخیص گفتار را مطالعه می کنند. در صورت وجود طنین، اختلالات شنوایی، یا سر و صدای قابل توجه پس زمینه، مانند صدای ترافیک یا چندین بلندگو، تشخیص گفتار انسان برای افراد دشوارتر است. در نتیجه، الگوریتم های سمعک اغلب برای بهبود تشخیص گفتار انسان استفاده می شود.

برای ارزیابی چنین الگوریتم‌هایی، محققان آزمایش‌هایی را انجام می‌دهند که هدف آن تعیین نسبت سیگنال به نویز است که در آن تعداد خاصی از کلمات (معمولاً 50٪) تشخیص داده می‌شود. با این حال، این آزمایش ها زمان بر و هزینه بر هستند.

محققان آلمانی یک مدل تشخیص گفتار انسان مبتنی بر یادگیری ماشین و شبکه‌های عصبی عمیق را بررسی می‌کنند.

نویسنده Jana Roßbach می‌گوید: «جدید بودن مدل ما این است که پیش‌بینی‌های خوبی برای شنوندگان کم‌شنوا برای انواع نویز با پیچیدگی بسیار متفاوت ارائه می‌کند و هم خطاهای کم و هم همبستگی بالایی را با داده‌های اندازه‌گیری شده نشان می‌دهد.»

محققان با استفاده از تشخیص خودکار گفتار (ASR) تعداد کلمات را در هر جمله محاسبه کردند. اکثر مردم از طریق ابزارهای تشخیص گفتار مانند الکسا و سیری با ASR آشنا هستند.

این مطالعه شامل هشت شنونده عادی و 20 شنونده کم شنوا بود که در معرض انواع صداهای پیچیده ای قرار گرفتند که گفتار را پنهان می کرد. افراد کم شنوا به سه گروه با سطوح مختلف کم شنوایی مرتبط با سن تقسیم شدند. این مدل به محققان اجازه داد تا عملکرد تشخیص گفتار انسانی شنوندگان کم شنوایی با درجات مختلف کاهش شنوایی را برای انواع پوشش‌دهنده‌های نویز با افزایش پیچیدگی در مدولاسیون زمانی و شباهت به گفتار واقعی پیش‌بینی کنند.

این مدل پیش بینی هایی را برای شنوایی تک گوش ایجاد کرد. در آینده، محققان یک مدل دوگوشی ایجاد خواهند کرد زیرا درک گفتار تحت تأثیر شنوایی دو گوش قرار می گیرد. علاوه بر پیش‌بینی درک گفتار، این مدل همچنین می‌تواند به طور بالقوه برای پیش‌بینی تلاش گوش دادن یا کیفیت گفتار مورد استفاده قرار گیرد زیرا این موضوعات بسیار مرتبط هستند.

201001211.055

X