کاهش نرخ خطای کلمه در سیستم های تشخیص گفتار با استفاده از ترکیب روش WPE وآرایه های میکروفنی با چیدمان کروی
کد مقاله : 1125-ISAV
نویسندگان
امیرحسین علی محمدی *1، سارا صادقی2، محمدابراهیم صادقی2
1دانشگاه صداوسیما،تهران،ایران
2دانشگاه صدا وسیما، تهران، ایران
چکیده مقاله
با توجه به حضور واخنش در محیط‌های بسته، عملکرد سیستم‌ تشخیص گفتار متناسب با افزایش زمان واخنش (RT60) کاهش می‌یابد و در نتیجه نرخ خطای کلمه افزایش خواهد یافت. شایان ذکر است در محیط‌هایی که زمان واخنش از نیم‌ثانیه بیشتر است، نرخ خطای کلمه بطور چشمگیری افزایش می‌یابد لذا لازم است یک مرحله عملیات بهبود گفتار در ورودی سیستم تشخیص گفتار تعبیه شود. عموما در سیستم‌های بهبود گفتار، از یک یا چند بخش از بخش‌های ذیل استفاده می‌شود: الف) آرایه‌های میکروفنی، ب) کاهش نویز، ج) کاهش واخنش .در تحقیقات انجام شده تا به امروز، واخنش بعنوان یکی از عوامل اصلی کاهش کیفیت گفتار (افزایش خطای سیستم تشخیص گفتار) مطرح شده است. لذا دراین پژوهش برای غلبه بر واخنش، استفاده از یک آرایه میکروفنی بصورت ترکیبی با یک کاهش‌دهنده واخنش مدنظر است، بصورتی که نرخ خطای کلمه سیستم تشخیص گفتار کاهش یابد. از آنجاییکه آرایه های کروی نسبت به آرایه های متداول عملکرد بهتری دارند، در این پژوهش استفاده از آرایه های میکروفنی کروی پیشنهاد شده است. با توجه به اینکه WER در سیستم ASR بصورت دائمی قابل اندازه گیری نیست، از FWSegSNR بعنوان پارامتری که همبستگی بسیار بالایی با WER دارد، استفاده گردید. روش پیشنهادی FWSegSNR را تا حدود 3 دسی بل افزایش میدهد که بسیار قابل توجه است و می توان استنتاج نمود که WER در یک سیستم ASR بطور قابل ملاحظه‌ای کاهش یابد و در نتیجه عملکرد سیستم ASR بهبود قابل توجهی داشته باشد. همچنین بهبود زیاد پارامتر SRMR نشان دهنده اثربخش بودن روش حذف واخنش پیشنهادی است.
کلیدواژه ها
حذف واخنش، آرایه های میکروفنی کروی، شکل دهی پرتو
وضعیت: پذیرفته شده برای ارائه شفاهی