توضیحات
![]()
هدف از تشخیص گفتار که در متون علمی بیشتر با نام بازشناسی گفتار شناخته شدهاست، طراحی و پیادهسازی سیستمی است که اطلاعات گفتاری را دریافت و متن و فرمان گوینده را استخراج میکند. فناوری بازشناسی گفتار به رایانهای که توانایی دریافت صدا را دارد (برای مثال به یک میکروفن مجهز است) این قابلیت را میدهد که گفتار کاربر را متوجه شود. این فناوری در تبدیل گفتار به متن و یا به عنوان جایگزینی برای صفحه کلید یا ماوس برای وارد کردن دستورات مورد استفاده قرار میگیرد. سیستمهای واکافت کننده گفتار انواع مختلفی دارند، بعضی قادرند گفتار پیوسته را شناسایی نمایند، بعضی دیگر فقط میتوانند گفتار گسسته (که بین کلمات سکوت وجود دارد) را شناسایی کنند. همچنین سیستمها قادرند واژگان گفته شده توسط افراد مختلف و یا فقط توسط یک گوینده تشخیص دهند. بهر حال ایدهآلترین سیستم آن است که بتواند گفتار پیوسته غیر وابسته به گوینده را در محیط نویزی شناسایی نماید. این سیستمها با بکار گیری روشهای مختلف طبقه بندی و شناسایی الگو قادرند به تشخیص واژگان هستند که البته برای افزایش دقت در شناسایی از یک فرهنگ لغات نیز در انتهای سیستم استفاده میشود. روشهایی مانند Hidden Markov Model یا Neural Network در بسیاری از سیستمهای تشخیص گفتار مورد استفاده قرار میگیرند و در بخشهای انتهایی سیستم از هوش مصنوعی کمک گرفته میشود.
مدلهای زبانی و پردازش زبانهای طبیعی برای بسیاری از کاربردها مانند تشخیص گفتار، TTS،ترجمه، OCR و پیدا نمودن خطاهای تایپی، مدلهای زبانی از مهمترین ابزارهای مورد نیاز میباشد.
برقراري ارتباط گفتاري با كامپيوترها به جاي استفاده از صفحه كليد و ماوس يكي از زمينههاي تحقيقاتي مهم چند دههي اخير بوده است و شركتهاي بزرگي چون IBM، ALIT، Philips و Microsoft سالانه هزينههاي هنگفتي را براي اين منظور پرداخت کرده و ميكنند. به عنوان يک کاربر کامپيوتر، احتمالاً با قابليت گفتاري مجموعه آفيس به عنوان يكي از ويژگيهاي جذاب و تا حدي فانتزي برخورد كرده و يا با آن كار كردهايد. به کمک اين قابليت شما به جاي استفاده از صفحه كليد براي تايپ مطالبتان، به راحتي با خواندن متن مورد نظر و انتقال گفتارتان به كمك يك ميكروفون معمولي به کامپيوتر، آنرا در محيط Word تايپ شده ميبينيد. حتي براي ذخيره كردن، کپي کردن، گذاشتن عكس در متن و . . . به جاي كليكهاي پشت سر هم و گاهي با تعداد بالا، ميتوانيد فرمان مربوطه را به كمك گفتار به نرمافزار داده تا كار شما را انجام دهد. جداي از اينكه توانايي درست كاركردن اين قابليت آفيس چقدر باشد، يك محدوديت بزرگ در سر راه استفاده از آن براي ما ايرانيان وجود دارد: اين قابليت فقط براي زبان انگليسي است. (البته زبانهاي چيني يا ژاپني را نيز ميتوان استفاده كرد!).
ايجاد چنيني سيستمي كه آنرا تشخيص يا بازشناسي گفتار (Speech recognition) مينامند، در زبان فارسي، چندين سال از تحقيقات محققان، اساتيد و دانشجويان دانشگاههاي مختلف كشور را به خود اختصاص داده است. اما جديترين جهشي كه در حدود ده سال پيش در اين زمينه ايجاد شد، ايجاد دادگان گفتاري فارسدات و يك سيستم اوليه تشخيص گفتار فارسي در مركز هوشمند علائم بوده است. در ادامه و در طي يکي-دو سال اخير، مهمترين دستاورد در اين تكنولوژي براي زبان فارسي، سيستمهاي تشخيص گفتار شركت عصرگويش پرداز است. اين شركت که توسط گروهي از اساتيد و دانشجويان دانشگاه صنعتي شريف ايجاد شده است، تنها فعاليت تخصصي خود را در زمينه پردازش سيگنال گفتار و بويژه تشخيصخودكار آن قرار داده است و نرمافزارهايي را براي انجام كار تشخيص خودكار گفتار توسعه داده است. نرمافزار نويسا كه براي ديكته خودكار ميباشد و نرمافزار نيوشا كه جهت تشخيص گفتار از پشت خط تلفن توسعه داده شده است، از دستاوردهاي آنهاست. از نظر فني، معيارهايي چون وابسته يا متعلق بودن به گوينده سيستم، اندازه و تعداد واژگان، پيوسته يا گسسته بودن گفتار ورودي، استفاده از محدوديتهاي زباني و كارايي در محيطهاي واقعي توانمندي سيستمهاي تشخيص گفتار را مشخص ميكند. در كاربردهايي مانند تشخيص گفتار تلفني، اطن سيستم لزوماً بايد مستقل از گوينده باشند اما سيستم ديكته ميتواند وابسته به گوينده خاص باشد و براي آن گوينده سيستم بهترين كارايي را داشته باشد. در كاربردهاي واقعي معمولاً سيستم را مستقل از گوينده ميسازند و موقع استفاده به صداي گوينده خاصي آنرا اصطلاحاً تطبيق ميكنند. اين كار در قابليت گفتاري مجموعه آفيس به كمك خواندن متون اوليه در ويزارد سيستم انجام ميشود، چنين قابليتي در سيستم نويسا نيز وجود دارد. هر چه تعداد واژگاني كه سيستم ميتواند تشخيص دهد بيشتر باشد، شباهت ميان كلمات بيشتر شده و در نتيجه كارايي سيستم به علت افزايش اشتباهات كاهش پيدا ميكند. از اينررو در كاربرداهاي واقعي معمولآً فقط واژگان متناسب با كاربرد مورد نظر را انتخاب ميكنند تا محدود شود. در قابليت گفتاري آفيس هم كه ادعا ميشود اكثر كلمات انگليسي را دارد، كارايي به شدت پايين است (كارايي پايين آن به علت اين است كه ما غيرانگليسي زبان هستيم!) ولي در محصولات محدودتر اين شركت كارايي به مراتب بهتر است. گفتار كاربر ميتواند پيوسته و طبيعي و يا با مكث ميان كلمات همراه باشد، بديهي است كه حالت اول مطلوب هركاربري است. يكي از مشكلاتي كه محصولات نويسا و نيوشا تا حدي زيادي آن را حل كردهاند، استخراج و بهكارگيري قابليتهاي زباني، زبان فارسي در حد نسبتاً کاملي است. اين اطلاعات زباني ميتواند در ساير نرمافزارهايي كه نياز به اطلاعات زباني دارند، مانند مترجمها و نرمافزارهاي OCR نيز بكار گرفته شود. اثر صداهاي اضافي و ناخواسته در كاربردهاي واقعي نرمافزارهاي تشخيص گفتار را در عمل دچار افت شديد كارايي مينمايد، در محصولات فارسي ارائه شده با رويكردهاي مختلفي اين نقصان تا حد زيادي جبران شده است. برخي از محصولات مشتق شده از نرمافزارهاي تشخيص گفتار فارسي نويسا و نيوشا كه در حال حاضر توسعه داده شدهاند، بصورت زير است:
- لینک دانلود فایل بلافاصله بعد از پرداخت وجه به نمایش در خواهد آمد.
- همچنین لینک دانلود به ایمیل شما ارسال خواهد شد به همین دلیل ایمیل خود را به دقت وارد نمایید.
- ممکن است ایمیل ارسالی به پوشه اسپم یا Bulk ایمیل شما ارسال شده باشد.
- در صورتی که به هر دلیلی موفق به دانلود فایل مورد نظر نشدید با ما تماس بگیرید.
پرشین فایل | مرجع دانلود فایل
هنوز هیچ نقد و بررسی وجود ندارد.