شکل ۳-۱- نمودار اندازه یک سیگنال صوتی بر حسب زمان

۳-۵-۲- روش نرخ عبور از صفر[۱۱۸]
روش قدرمطلق اندازه به شدت تحت تأثیر SNR سیگنال صوتی و نیز میزان کاهش احتمالی اندازه سیگنال در فریم های بی صدا بواسطه تأثیر نویز می باشد، بدین جهت با توجه به این نکته که فریم های سکوت تنها حاوی نویز می باشند و نیز سیگنال تصادفی نویز با توجه به ماهیت تصادفی بودن خود، از محور زمان به میزان زیادی عبور می نماید (که ناشی از تغییر علامت اندازه سیگنال تصادفی نویز می باشد) لذا می توان از این ویژگی در شناسایی فریم های سکوت، سود جست]۱،۲[. بدین منظور تابع عبور از صفر در هر فریم به صورت زیر محاسبه می گردد :

(۳-۹۰)

که ، تابع جزء صحیح می باشد. در فریم های سکوت، مقدار این تابع در مقایسه با سایر فریم ها بسیار زیاد می باشد و لذا با بهره گرفتن از مقدار این تابع می توان فریم های سکوت را شناخت.
۳-۵-۳- روش های حوزه ی فرکانس
در این حوزه از تبدیل فوریه و یا تبدیل فوریه ی سریع استفاده می شود و با بهره گرفتن از مشخصه های این حوزه مؤلفه های سیگنال (صوتی و سکوت) به راحتی معین می گردند. قسمت های صدادار سیگنال دارای فرکانس پایین و قسمت های بی صدا (سکوت) دارای فرکانس بالا هستند، قسمت های صدادار انرژی بیشتری در فرکانس پایین، کمتر از KHZ2 و قسمت های بی صدا انرژی بیشتری درفرکانس بالا بین ۲ تا ۴ و یا بیشتر از KHZ4 دارند.
طیف نگاره[۱۱۹] یک روش بسیار ساده برای بدست آوردن اطلاعاتی در رابطه با مؤلفه های فرکانسی است که به روش تبدیل فوریه ی زمان کوتاه شهرت دارد، در هر پنجره ی سری زمانی، اطلاعاتی از فرکانس محلی حاصل می شود. بزرگترین مشکل این روش تخمین طول مناسب برای پنجره های زمانی می باشد.[۱۴]

همچنین از ضرایب کپسترال[۱۲۰] نیز می توان برای تشخیص فریم صدا دار استفاده کرد. ضرایب کپسترال با اعمال تبدیل فوریه معکوس و یا تبدیل کسینوس گسسته به مؤلفه های لگاریتمی تبدیل فوریه ی زمان گسسته، حاصل می شود. در این روش مؤلفه های فازی فرکانس بالای تبدیل فوریه ی زمان گسسته جدا می شوند. بطور معمول از همه ی ضرایب کپسترال استفاده نمی شود بنابراین شکل ویژه ای از تبدیل فوریه ی فشرده به کار می رود. این ضرایب هم از طریق آنالیز LPC و هم از طریق تبدیل فوریه قابل محاسبه می باشند ولی اگر از روش LPC حاصل شوند برای تقریب زدن نویز به کار می رود در حالی که اگر از روش تبدیل فوریه به دست آید مقیاس برای زیر و بمی صدا تلقی می گردند.ضرایب کپسترال ناهمبسته اند و بطور معمول ۸ ضریب اول مورد استفاده قرار می گیرد.[۶]
الگوریتم های های دیگری مانند هجای طیفی، تقارن طیفی، roll of point و …. وجود دارد که امروزه در سیستم آشکارساز صوت به ندرت مورد استفاده قرار می گیرند.

شکل۳-۲- بلوک دیاگرام آنالیز کپسترال
۳-۵-۴- روش کدینگ پیشگویی خطی (LPC[121])
الگوریتم کدینگ پیشگویی خطی در فشردگی صوت به کار می رود. از روی ضرایب پیشگویی کننده می توان دوباره سیگنال را به صورت اولیه بازسازی کرد. ضرایب اولیه ی LPC حاوی بیشترین اطلاعات سیگنال می باشد بنابراین از این ضرایب در کلاس بندی استفاده می شود. مشخصه ی دیگر مورد استفاده، خطای مانده LPC نام دارد که تفاوت بین سیگنال بازسازی شده توسط ضرایب LPC و سیگنال اولیه است. مدل LPC حروف صدادار را بهتر از حروف بی صدا بازسازی می کند بنابراین خطای مانده برای حروف صدادار کمتر از حروف بی صدا است.
در مدل های آماری مرتبه بالا مانند Skewnrss و Kurtosisاز خطای مانده LPC بعنوان مشخصه دسته بندی استفاده می شود. مدل های آماری مرتبه بالای سکوت، متفاوت از صوت است بنابراین با این مشخصه می توان قسمت های صوتی را از سکوت جدا کرد.

شکل۳-۳- میزان خطای خروجی فیلتر معکوسLPC به ازای حروف صدا دار و بی صدا
بیشتر الگوریتم های فوق در سیگنال به نویز[۱۲۲] پایین به خوبی جواب نمی دهند. با پژوهش های صورت گرفته در سال های اخیر الگوریتم های جدیدی در این زمینه ارائه شده است که از نظر دقت و سرعت در شرایط مشابه بهتر از الگوریتم های قبلی عمل می کند در اکثر این روش ها تبدیل موجک مورد استفاده قرار می گیرد در این پژوهش نیز این تبدیل به کار می رود.
۳-۵-۵- استفاده از تبدیل بسته موجک[۱۲۳] در تشخیص فریم های سکوت
روش هایی که تاکنون بیان شده اند، اگرچه بسیار ساده می باشند اما از کارایی کمی نیز برخوردار می باشند. با توجه به افزایش روز افزون استفاده از موجک در پردازش سیگنال های صوتی، در این قسمت به معرفی یک روش قدرتمند مبتنی بر تبدیل بسته موجک در شناسایی فریم های سکوت خواهیم پرداخت. در این روش ابتدا سیگنال صوتی آغشته به نویز به بازه های زمانی کوچک تقسیم می گردد، سپس از هریک از این فریم ها تبدیل بسته موجک گرفته می شود. از آنجایی که فریم های سکوت تنها حاوی نویز می باشند و نویز نیز حاوی فرکانس های بالا می باشد لذا بایستی انرژی آخرین باند در تبدیل بسته موجک از بقیه باندهای فرکانسی بیشتر باشد.
اگر فرض کنید S(n) سیگنال بدون نویز وW(n) نویز اضافه شونده باشد برای یک سیگنال نویزی داریم

(۳-۹۱)

با اعمال آنالیز بسته ای موجک به سیگنال معادله ی بالا داریم:

(۳-۹۲)

(۳-۹۳)

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...