چیدمان بهینه آرایه میکروفونی با هدف افزایش دقت تشخیص گفتار دوردست در سیستم‌های بازشناسی گفتار خودکار
کد مقاله : 1136-ISAV
نویسندگان
سارا صادقی *، امیرحسین علی محمدی، محمد عسگری، محمدابراهیم صادقی
گروه آموزشی صدا، دانشکده فنی و مهندسی رسانه، دانشگاه صدا و سیما، تهران، ایران
چکیده مقاله
تشخیص گفتار از راه دور نویدبخش طبیعی‌ترین رابط انسان و رایانه می‌باشد زیرا تعامل انسان و ماشین را از طریق گفتار، بدون نیاز به استفاده از میکروفونهای متصل به سر و بدن، امکان پذیر میسازد. با این حال هنوز تشخیص گفتار دوردست امری چالش برانگیز است. در این مقاله، پردازش آرایه و بطورخاص شکل دهی پرتو جهت تشخیص گفتار دوردست، به همراه نتایج تجربی که اثربخشی الگوریتم‌های مختلف شکل‌دهی پرتو را شرح داده، ارائه شده است. و همچنین، سعی بر این است تا با بررسی هندسه‌های مختلف آرایه‌های میکروفونی و چینش مناسب میکروفونها، حداکثر دقت تشخیص گفتار دوردست با استفاده از معیار نرخ خطای کلمه در مقایسه با میکروفون یقه ای حاصل شود. نرخ خطای کلمه یک میکروفون منفرد از آرایه، با استفاده از یک سیستم بازشناسی گفتار معادل با 35.74% بدست آمد که این مقدار، مرجع مقایسه با آرایه‌ها با هندسه های مختلف، قرار داده شد. علاوه بر این، به مقایسه عملکرد چند الگوریتم بیم فرمینگ با استفاده از معیار FWSegSNR پرداخته شد که از این میان بیم‌فرمر Superdirective بیشترین مقدار یعنی 8.32 دسی‌بل را به خود اختصاص داد. بر اساس نتایج و با مقایسه عملکرد آرایه‌های کروی، دایروی و خطی نشان داده شد که یک آرایه کروی با قطر 8.4 سانتیمتر و 32 میکروفون می‌تواند دقت تشخیص %6.5 درصد ارائه دهد که این مقدار قابل مقایسه یا بهتر از آنچه که توسط یک آرایه خطی و دایروی حاصل می‌شود، می‌باشد.
کلیدواژه ها
تشخیص گفتار، گوینده دوردست، آرایه میکروفونی، آرایه کروی، بیم‌فرمینگ.
وضعیت: پذیرفته شده برای ارسال فایل های ارائه پوستر