منو
 صفحه های تصادفی
دسته بندی رنگها
پسران تیمور
ژنتیک
مواد قندی طبیعی
جلگه های بی درخت آسیایی اروپایی
پاستوریزه کردن
تقسیم بندی الکترودها از نظر پوشش شیمیائی
پژواک
اصول بنیادین شتابش ذره
بخش پذیری
 کاربر Online
439 کاربر online

پردازش صدا

تازه کردن چاپ
علوم ریاضی > علو م رایانه > نرم افزار
(cached)





پردازش صدا

img/daneshnameh_up/a/ae/ap.gif

تشخیص صدا یا شناسایی گوینده(Speaker Identification) یکی از مسایل علوم رایانه‌ و هوش مصنوعی است که هدف آن شناسایی یک فرد تنها از روی صدای شخص است. یکی از اصلی‌ترین ابزارهای ریاضی برای حل این مسیله مدلهای پنهان مارکوف هستند. برای حل این مسئله با استفاده از مدل پنهان مارکوف (م.پ.م) این مدلهای آماری ابتدا باید مورد آموزش قرار بگیرند. برای این مرحله ابتدا مقدار قابل توجهی از صدای ضبط شده افراد پردازش می‌شود. داده‌های پردازش شده که در حقیقیت مجموعه عظیمی از اعداد می‌‌باشند متناوباً مورد استفاده قرار میگیرند تا م.پ.م. برای هر گوینده به دست آید. در حقیقت م.پ.م.‌ها مانند یک ماشین عمل می‌کنند که ورودی آنها یک سری داده است و خروجیشان یک عدد برای هر مجموعه‌ای از داده‌ها، به این صورت که آن عدد نشان دهنده اختلاف داده‌های ورودی با م.پ.م هر ماشین است. برای آموزش م.پ.م در هر تناوب داده‌ها به م.پ.م داده می‌شود و پارامترهای م.پ.م ذره‌ای تغییر داده می‌شود تا عدد خروجی (که نشان دهنده اختلاف داده‌ها با م.پ.م است) کوچکتر شود. برای اطمینان از اینکه تغییر پارامترهای م.پ.م در جهت درست انجام می‌گیرد و نهایتا به حداقل شدن عدد خروجی می‌انجامد از یک روش ریاضی به نام Expectation Maximization استفاده می‌شود. در نهایت بعد از آموزش این مدلها که با استفاده از صدای مرجع انجام شده، می‌توان برای آزمایش سامانه صدای یکی از افرادی که قبلا از صدای وی برای آموزش م.پ.م استفاده شده را به هر یک از م.پ.م‌ها داد. م.پ.م‌ای که کوچکترین عدد را تولید می‌کند به عنوان فرد شناسایی شده در نظر گرفته می‌شود.
سامانه بالا به دلایل مختلفی احتمال خطا دارد. شباهت صدای افراد به یکدیگر (که گاهی انسانها را نیز به اشتباه می‌‌اندازد)، صداهای حاشیه (نویز)، محدودیت حجم داده‌های مرجع برای آموزش و غیره از جمله این اشتباه‌ها هستند. برای بالا بردن ضریب اطمینان سامانه شناسایی گوینده روشهای مختلفی بکار می‌رود که هر ساله نیز با پیشرفت تحقیقات در دنیا به آنها اضافه می‌شود. از جمله استفاده ترکیبی از تشخیص گفتار و تشخیص صدا که در آن نه تنها صدای گوینده بلکه کلمه(های) وی نیز مورد آزمایش قرار می‌گیرند. گوینده باید کلمات مشخصی را بکار ببرد تا سامانه به وی اجازه عبور بدهد. همچنین می‌توان از یک عدد حداکثر برای مقایسه اعداد خروجی م.پ.م استفاده کرد بطوری که م.پ.م مورد نظر نه تنها باید کوچکترین عدد را بدهد بلکه باید این عدد از یک عدد مرجع نیز کوچکتر باشد. در نتیجه این تغییر در سامانه ضریب ایمنی سامانه بالا می‌رود. این ضریب ایمنی به قیمت بالا رفتن درصد ردّ افراد از روی خطا صورت می‌گیرد و باعث می‌شود شخصی که به او باید اجازه عبور داده شود چند بار رمز خود را برای سامانه تکرار کند. مانند تمام سامانه‌هایی بهینه‌سازی پارامترهای مختلف برای بهترین عملکرد سامانه در شرایط مورد نیاز لازم است. (به عنوان مثال در ورودی اتاق کنترل یک نیروگاه هسته‌ای نیاز به حفاظت زیادی دارد که ممکن است در مورد درب ورودی کتابخانه دانشگاه نیاز نباشد.)


پیوندهای خارجی


همچنین ببینید





تعداد بازدید ها: 30677


ارسال توضیح جدید
الزامی
big grin confused جالب cry eek evil فریاد اخم خبر lol عصبانی mr green خنثی سوال razz redface rolleyes غمگین smile surprised twisted چشمک arrow



از پیوند [http://www.foo.com] یا [http://www.foo.com|شرح] برای پیوندها.
برچسب های HTML در داخل توضیحات مجاز نیستند و تمام نوشته ها ی بین علامت های > و < حذف خواهند شد..