کاهش نرخ خطای کلمه در سیستم های تشخیص گفتار با استفاده از ترکیب روش WPE وآرایه های میکروفنی با چیدمان کروی |
کد مقاله : 1125-ISAV |
نویسندگان |
امیرحسین علی محمدی *1، سارا صادقی2، محمدابراهیم صادقی2 1دانشگاه صداوسیما،تهران،ایران 2دانشگاه صدا وسیما، تهران، ایران |
چکیده مقاله |
با توجه به حضور واخنش در محیطهای بسته، عملکرد سیستم تشخیص گفتار متناسب با افزایش زمان واخنش (RT60) کاهش مییابد و در نتیجه نرخ خطای کلمه افزایش خواهد یافت. شایان ذکر است در محیطهایی که زمان واخنش از نیمثانیه بیشتر است، نرخ خطای کلمه بطور چشمگیری افزایش مییابد لذا لازم است یک مرحله عملیات بهبود گفتار در ورودی سیستم تشخیص گفتار تعبیه شود. عموما در سیستمهای بهبود گفتار، از یک یا چند بخش از بخشهای ذیل استفاده میشود: الف) آرایههای میکروفنی، ب) کاهش نویز، ج) کاهش واخنش .در تحقیقات انجام شده تا به امروز، واخنش بعنوان یکی از عوامل اصلی کاهش کیفیت گفتار (افزایش خطای سیستم تشخیص گفتار) مطرح شده است. لذا دراین پژوهش برای غلبه بر واخنش، استفاده از یک آرایه میکروفنی بصورت ترکیبی با یک کاهشدهنده واخنش مدنظر است، بصورتی که نرخ خطای کلمه سیستم تشخیص گفتار کاهش یابد. از آنجاییکه آرایه های کروی نسبت به آرایه های متداول عملکرد بهتری دارند، در این پژوهش استفاده از آرایه های میکروفنی کروی پیشنهاد شده است. با توجه به اینکه WER در سیستم ASR بصورت دائمی قابل اندازه گیری نیست، از FWSegSNR بعنوان پارامتری که همبستگی بسیار بالایی با WER دارد، استفاده گردید. روش پیشنهادی FWSegSNR را تا حدود 3 دسی بل افزایش میدهد که بسیار قابل توجه است و می توان استنتاج نمود که WER در یک سیستم ASR بطور قابل ملاحظهای کاهش یابد و در نتیجه عملکرد سیستم ASR بهبود قابل توجهی داشته باشد. همچنین بهبود زیاد پارامتر SRMR نشان دهنده اثربخش بودن روش حذف واخنش پیشنهادی است. |
کلیدواژه ها |
حذف واخنش، آرایه های میکروفنی کروی، شکل دهی پرتو |
وضعیت: پذیرفته شده برای ارائه شفاهی |