یادگیری ماشینی تشخیص گفتار انسان را بهبود می بخشد

شماره :

41206

آخرین به روزرسانی :

سه شنبه 1402/06/28 ساعت 16:36

دسته بندی

اخبار

پیوند کوتاه :

http://itrc.ac.ir/fa/node/41206

پیوند کوتاه کپی شد

یادگیری ماشینی تشخیص گفتار انسان را بهبود می بخشد

کم شنوایی یک حوزه تحقیقات علمی است که به سرعت در حال رشد است زیرا با افزایش سن، تعداد افرادی که با کم شنوایی سروکار دارند همچنان در حال افزایش است.

برای درک اینکه کاهش شنوایی چگونه بر افراد تأثیر می گذارد، محققان توانایی افراد در تشخیص گفتار را مطالعه می کنند. در صورت وجود طنین، اختلالات شنوایی، یا سر و صدای قابل توجه پس زمینه، مانند صدای ترافیک یا چندین بلندگو، تشخیص گفتار انسان برای افراد دشوارتر است. در نتیجه، الگوریتم های سمعک اغلب برای بهبود تشخیص گفتار انسان استفاده می شود.

برای ارزیابی چنین الگوریتم‌هایی، محققان آزمایش‌هایی را انجام می‌دهند که هدف آن تعیین نسبت سیگنال به نویز است که در آن تعداد خاصی از کلمات (معمولاً 50٪) تشخیص داده می‌شود. با این حال، این آزمایش ها زمان بر و هزینه بر هستند.

محققان آلمانی یک مدل تشخیص گفتار انسان مبتنی بر یادگیری ماشین و شبکه‌های عصبی عمیق را بررسی می‌کنند.

نویسنده Jana Roßbach می‌گوید: «جدید بودن مدل ما این است که پیش‌بینی‌های خوبی برای شنوندگان کم‌شنوا برای انواع نویز با پیچیدگی بسیار متفاوت ارائه می‌کند و هم خطاهای کم و هم همبستگی بالایی را با داده‌های اندازه‌گیری شده نشان می‌دهد.»

محققان با استفاده از تشخیص خودکار گفتار (ASR) تعداد کلمات را در هر جمله محاسبه کردند. اکثر مردم از طریق ابزارهای تشخیص گفتار مانند الکسا و سیری با ASR آشنا هستند.

این مطالعه شامل هشت شنونده عادی و 20 شنونده کم شنوا بود که در معرض انواع صداهای پیچیده ای قرار گرفتند که گفتار را پنهان می کرد. افراد کم شنوا به سه گروه با سطوح مختلف کم شنوایی مرتبط با سن تقسیم شدند. این مدل به محققان اجازه داد تا عملکرد تشخیص گفتار انسانی شنوندگان کم شنوایی با درجات مختلف کاهش شنوایی را برای انواع پوشش‌دهنده‌های نویز با افزایش پیچیدگی در مدولاسیون زمانی و شباهت به گفتار واقعی پیش‌بینی کنند.

این مدل پیش بینی هایی را برای شنوایی تک گوش ایجاد کرد. در آینده، محققان یک مدل دوگوشی ایجاد خواهند کرد زیرا درک گفتار تحت تأثیر شنوایی دو گوش قرار می گیرد. علاوه بر پیش‌بینی درک گفتار، این مدل همچنین می‌تواند به طور بالقوه برای پیش‌بینی تلاش گوش دادن یا کیفیت گفتار مورد استفاده قرار گیرد زیرا این موضوعات بسیار مرتبط هستند.

201001211.055

نشانی	تهران ، انتهای خیابان کارگر شمالی
کد پستی	1439955956
تلفن تماس	84977300
نمابر	88630351
تلفن گویا	85666
واحد فناوري اطلاعات	88009970
پست الکترونیک	info@itrc.ac.ir
ارتباط با مديران

یادگیری ماشینی تشخیص گفتار انسان را بهبود می بخشد

یادگیری ماشینی تشخیص گفتار انسان را بهبود می بخشد

درباره پژوهشگاه

تماس با ما

پیوندهای مرتبط

دسترسی سریع