تعداد بازدید
13 بازدید
80.100 تومان

توضیحات

151- پروژه آماده: بررسی طراحی یک نرم افزار مترجم هوشمند با تکنیکهای پردازش صوتی - 17 صفحه فايل ورد (word)

 

 

 

 

 

 

 

 

 

هدف از تشخیص گفتار که در متون علمی بیشتر با نام بازشناسی گفتار شناخته شده‌است، طراحی و پیاده‌سازی سیستمی است که اطلاعات گفتاری را دریافت و متن و فرمان گوینده را استخراج می‌کند. فناوری بازشناسی گفتار به رایانه‌ای که توانایی دریافت صدا را دارد (برای مثال به یک میکروفن مجهز است) این قابلیت را می‌دهد که گفتار کاربر را متوجه شود. این فناوری در تبدیل گفتار به متن و یا به عنوان جایگزینی برای صفحه کلید یا ماوس برای وارد کردن دستورات مورد استفاده قرار می‌گیرد. سیستم‌های واکافت کننده گفتار انواع مختلفی دارند، بعضی قادرند گفتار پیوسته را شناسایی نمایند، بعضی دیگر فقط می‌توانند گفتار گسسته (که بین کلمات سکوت وجود دارد) را شناسایی کنند. همچنین سیستم‌ها قادرند واژگان گفته شده توسط افراد مختلف و یا فقط توسط یک گوینده تشخیص دهند. بهر حال ایده‌آل‌ترین سیستم آن است که بتواند گفتار پیوسته غیر وابسته به گوینده را در محیط نویزی شناسایی نماید. این سیستم‌ها با بکار گیری روش‌های مختلف طبقه بندی و شناسایی الگو قادرند به تشخیص واژگان هستند که البته برای افزایش دقت در شناسایی از یک فرهنگ لغات نیز در انتهای سیستم استفاده می‌شود. روشهایی مانند Hidden Markov Model یا Neural Network در بسیاری از سیستم‌های تشخیص گفتار مورد استفاده قرار می‌گیرند و در بخش‌های انتهایی سیستم از هوش مصنوعی کمک گرفته می‌شود.

مدل‌های زبانی و پردازش زبان‌های طبیعی برای بسیاری از کاربردها مانند تشخیص گفتار، TTS،ترجمه، OCR و پیدا نمودن خطاهای تایپی، مدلهای زبانی از مهمترین ابزارهای مورد نیاز می‌باشد.

برقراري ارتباط گفتاري با كامپيوترها به جاي استفاده از صفحه كليد و ماوس يكي از زمينه‌هاي تحقيقاتي مهم چند دهه‌ي اخير بوده است و شركت‌هاي بزرگي چون IBM، ALIT، Philips و Microsoft سالانه هزينه‌هاي هنگفتي را براي اين منظور پرداخت کرده و مي‌كنند. به عنوان يک کاربر کامپيوتر، احتمالاً با قابليت گفتاري مجموعه آفيس به عنوان يكي از ويژگي‌هاي جذاب و تا حدي فانتزي برخورد كرده و يا با آن كار كرده‌ايد. به کمک اين قابليت شما به جاي استفاده از صفحه كليد براي تايپ مطالبتان، به راحتي با خواندن متن مورد نظر و انتقال گفتارتان به كمك يك ميكروفون معمولي به کامپيوتر، آنرا در محيط Word تايپ شده مي‌بينيد. حتي براي ذخيره كردن، کپي کردن، گذاشتن عكس در متن و . . .  به جاي كليك‌هاي پشت سر هم و گاهي با تعداد بالا، مي‌توانيد فرمان مربوطه را به كمك گفتار به نرم‌افزار داده تا كار شما را انجام دهد. جداي از اينكه توانايي درست كاركردن اين قابليت آفيس چقدر باشد، يك محدوديت بزرگ در سر راه استفاده از آن براي ما ايرانيان وجود دارد: اين قابليت فقط براي زبان انگليسي است. (البته زبان‌هاي چيني يا ژاپني را نيز مي‌توان استفاده كرد!).

ايجاد چنيني سيستمي كه آنرا تشخيص يا بازشناسي گفتار (Speech recognition) مي‌نامند، در زبان فارسي، چندين سال از تحقيقات محققان، اساتيد و دانشجويان دانشگاه‌هاي مختلف كشور را به خود اختصاص داده است. اما جدي‌ترين جهشي كه در حدود ده سال پيش در اين زمينه ايجاد شد، ايجاد دادگان گفتاري فارس‌دات و يك سيستم اوليه تشخيص گفتار فارسي در مركز هوشمند علائم بوده است. در ادامه و در طي يکي-دو سال اخير، مهم‌ترين دستاورد در اين تكنولوژي براي زبان فارسي، سيستم‌هاي تشخيص گفتار شركت عصرگويش پرداز است. اين شركت که توسط گروهي از اساتيد و دانشجويان دانشگاه صنعتي شريف ايجاد شده است، تنها فعاليت تخصصي خود را در زمينه پردازش سيگنال گفتار و بويژه تشخيص‌خودكار آن قرار داده است و نرم‌افزارهايي را براي انجام كار تشخيص خودكار گفتار توسعه داده است. نرم‌افزار نويسا كه براي ديكته خودكار مي‌باشد و نرم‌افزار نيوشا كه جهت تشخيص گفتار از پشت خط تلفن توسعه داده شده است، از دستاوردهاي آنهاست. از نظر فني، معيارهايي چون وابسته يا متعلق بودن به گوينده سيستم، اندازه و تعداد واژگان، پيوسته يا گسسته بودن گفتار ورودي، استفاده از محدوديت‌هاي زباني و كارايي در محيط‌هاي واقعي توانمندي سيستم‌هاي تشخيص گفتار را مشخص مي‌كند. در كاربردهايي مانند تشخيص گفتار تلفني، اطن سيستم لزوماً بايد مستقل از گوينده باشند اما سيستم ديكته مي‌تواند وابسته به گوينده خاص باشد و براي آن گوينده سيستم بهترين كارايي را داشته باشد. در كاربردهاي واقعي معمولاً سيستم را مستقل از گوينده مي‌سازند و موقع استفاده به صداي گوينده خاصي آنرا اصطلاحاً تطبيق مي‌كنند. اين كار در قابليت گفتاري مجموعه آفيس به كمك خواندن متون اوليه در ويزارد سيستم انجام مي‌شود، چنين قابليتي در سيستم نويسا نيز وجود دارد. هر چه تعداد واژگاني كه سيستم مي‌تواند تشخيص دهد بيشتر باشد، شباهت ميان كلمات بيشتر شده و در نتيجه كارايي سيستم به ‌علت افزايش اشتباهات كاهش پيدا مي‌كند. از اينر‌رو در كاربرداهاي واقعي معمولآً فقط واژگان متناسب با كاربرد  مورد نظر را انتخاب مي‌كنند تا محدود شود. در قابليت گفتاري آفيس هم كه ادعا مي‌شود اكثر كلمات انگليسي را دارد، كارايي به شدت پايين است (كارايي پايين آن به علت اين است كه ما غيرانگليسي زبان هستيم!) ولي در محصولات محدودتر اين شركت كارايي به مراتب بهتر است. گفتار كاربر مي‌تواند پيوسته و طبيعي و يا با مكث ميان كلمات همراه باشد، بديهي است كه حالت اول مطلوب هركاربري است. يكي از مشكلاتي كه محصولات نويسا و نيوشا تا حدي زيادي آن را حل كرده‌اند، استخراج و به‌كارگيري قابليت‌هاي زباني، زبان فارسي در حد نسبتاً کاملي است. اين اطلاعات زباني مي‌تواند در ساير نرم‌افزارهايي كه نياز به اطلاعات زباني دارند، مانند مترجم‌ها و نرم‌افزارهاي OCR نيز بكار گرفته شود. اثر صداهاي اضافي و ناخواسته در كاربردهاي واقعي نرم‌افزارهاي تشخيص گفتار را در عمل دچار افت شديد كارايي مي‌نمايد، در محصولات فارسي ارائه شده با رويكردهاي مختلفي اين نقصان تا حد زيادي جبران شده است. برخي از محصولات مشتق شده از نرم‌افزارهاي تشخيص گفتار فارسي نويسا و نيوشا كه در حال حاضر توسعه داده شده‌اند، بصورت زير است:

 

راهنمای خرید:
  • لینک دانلود فایل بلافاصله بعد از پرداخت وجه به نمایش در خواهد آمد.
  • همچنین لینک دانلود به ایمیل شما ارسال خواهد شد به همین دلیل ایمیل خود را به دقت وارد نمایید.
  • ممکن است ایمیل ارسالی به پوشه اسپم یا Bulk ایمیل شما ارسال شده باشد.
  • در صورتی که به هر دلیلی موفق به دانلود فایل مورد نظر نشدید با ما تماس بگیرید.
نقد و بررسی‌ها

هنوز هیچ نقد و بررسی وجود ندارد.

اضافه کردن نقد و بررسی

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *