Beszédfelismerő Python: Hogyan lehet lefordítani a beszédet szöveggé?

Ez a blog a beszédfelismerés fogalmát a pythonban egy olyan mintaprogrammal fedi le, amely a beszédet felismerés segítségével szöveggé alakítja.

A beszéd a leggyakoribb kommunikációs eszköz az egész világon. A világ lakosságának többsége a beszédre támaszkodik az egymással való kommunikáció során. Tegyük fel, hogy modellt építünk, és írásos megközelítés helyett azt akarjuk, hogy rendszerünk reagáljon a beszédre, ez meglehetősen nehézzé válik, és sok adat feldolgozását igényli. A beszédfelismerő rendszer ezt a korlátot legyőzi a beszéd szöveggé történő fordításával. Ebben a blogban a beszédfelismerésen megyünk keresztül modul a pythonban . Itt található a felsorolás:



Hogyan működik a beszédfelismerés?

A beszédfelismerő rendszer alapvetően a beszédes kimondásokat szöveggé fordítja. A beszédfelismerő rendszernek számos valós példája van. Például a siri, amely a beszédet bevitelnek tekinti és szöveggé alakítja.

A beszédfelismerő rendszer használatának előnye, hogy legyőzi az írástudás gátját. A beszédfelismerési modell írástudatlan és írástudatlan közönséget is szolgálhat, mivel a beszélt szólásokra összpontosít.

Beszédfelismerő rendszer segítségével leltárt készíthetünk a világ minden veszélyeztetett nyelvéről. Bár elég érdekesnek tűnik és egyáltalán nem összetett, a beszédfelismerő rendszer sok kihívással néz szembe a készítés során.



A beszédfelismerés előtt álló kihívások Rendszer

A beszédfelismerő rendszert nehéz megalkotni, mert a beszéd terén nagyon sokféle variációs forrás áll rendelkezésünkre.

Beszédstílus

Minden embernek változatos a beszédstílusa, beleértve az ékezeteket is. Mint mindannyian tudjuk, az angol nyelvtudáshoz is különféle akcentusunk van. Van amerikai angol, brit angol és még sok más akcentus, amikor a világ leggyakoribb nyelvéről beszélünk. A kiejtés szintén megnehezíti a beszédfelismerési rendszer teljes lefordítását.



Környezet

A környezet sok háttérzajt ad a rendszerbe is. A nézőtérhez képest elkülönített helyiség a változó háttérzajokhoz vezet. Még a visszhang is sok zajt adhat a rendszerben.

A hangszóró jellemzői

Lehet, hogy egy idős ember hangja nem azonos a csecsemő hangjával. A személy beszédének jellemzői sok tényezőtől függenek, beleértve a keménységet és az egyértelműséget is.

Nyelvi korlátok

Lehetséges, hogy egyes beszélt mondásoknak nincs életképes jelentése, amikor a fordításról van szó.

E kihívások leküzdése után minden beszédfelismerő rendszer számára meglehetősen elérhető a szöveg beszédre fordítása. Most, hogy tudjuk, hogyan működik a beszédfelismerés, vessünk egy pillantást másokra amelyek elérhetőek a beszédfelismeréshez a pythonban.

Beszédfelismerésre pythonban elérhető csomagok

  • apiai

  • Beszédfelismerés

  • Google_speech_cloud

  • assemblyai

  • Pocketsphinx

  • Watson_developer_cloud

  • fehér

Ebben a blogban áttekintjük a SpeechRecognition csomag részleteit, és egy pillantást vethetünk a memóriasávra is, hogy megértsük, hogyan fejlődtek a beszédfelismerő rendszerek az évek során.

karakterlánc a java felhasználási dátumig

A beszédfelismerés legelső prototípusa valójában egy játék volt, a neve rádió rex ami 1920-as évek körül jött. Egy kutya ült egy kutyaházban, amely előbukkan, amint valaki kimondja a rex szót.

A modell egyetlen problémája az volt, hogy a rugót egy elektromágneshez erősítették, amely érzékeny volt az 500 Hz körüli energiára. Tisztán frekvenciaérzékelő lévén, távolról nevezhető beszédfelismerési modellnek.

1962-ben az IBM előállt a cipősdoboz modell, amely képes volt elkülönített szavakat felismerni, és néhány számtani műveletet is végrehajtott.

Aztán jött HÁRPIA a CMU-tól, amely képes volt összekapcsolt beszédet felismerni 1000 szavas szókincsből. Az 1980-as évek körül az emberek elkezdték használni a statisztikai modelleket, és az egyik leggyakrabban használt gépi tanulási paradigma a rejtett markov modell volt.

A mély neurális hálózatok bevezetése után a legtöbb beszédfelismerési modell az ideghálózatokon dolgozik. A lehetőségek elképzelhetetlenek a neurális hálózatoknál, a szókincs akár 10 ezer szóra is képes.

A SpeechRecognition telepítése a Pythonba?

A SpeechRecognition csomag python telepítéséhez futtassa a következő parancsot a terminálban, és telepítésre kerül a rendszerére.

telepítés-beszédfelismerés python-edureka

különbség az agilis és a devops között

Ennek másik megközelítése lehet a csomag hozzáadása a projekt tolmácsától, ha használja

A csomagnak van egy Recognizer osztálya, amely alapvetően itt történik. Ez alapvetően egy osztály, amelyet a beszéd felismerésére használnak. Az alábbiakban hét olyan módszer olvasható, amelyek különféle audio források olvasására képesek különböző API-k segítségével.

  • felismerni_bing ()
  • felismerni_google ()
  • felismerni_google_felhő ()
  • felismerni_houndify ()
  • felismerni_ibm ()
  • felismerni_wit ()
  • felismerni_sphinx ()

Most a felismerés_sphinx használható a beszédfelismerő rendszer offline futtatására is. Megköveteli a Pocketsphinx telepítését.

beszédfelismerés importálása sr # a felismerő osztály r = sr.Recognizer ()

Bevitel átvétele a mikrofonokból

A mikrofonok használatához telepítenünk kell a pyaudio modult is. A mikrofon osztályt használjuk arra, hogy a bemeneti beszédet a mikrofonról kapjuk, bármilyen más beviteli módszer, például audio fájl helyett.

A legtöbb projekt esetében az alapértelmezett mikrofonokat használhatjuk. De ha nem akarja az alapértelmezett mikrofont használni, a mikrofonnevek listáját a list_mikrofon_nevek módszerrel szerezheti be.

A mikrofonról érkező bemenet rögzítéséhez hallgatási módszert használunk.

beszédfelismerés importálása srr = sr.Recognizer () névvel sr.Microphone () forrásként: audio = sr.listen (forrás)

Hogyan telepítsük a Pyaudio programot a Pythonba?

A Pyaudio pythonba történő telepítéséhez futtassa a következő parancsot a terminálban, vagy ha pycharm-ot használ, adja hozzá a csomagot a projektértelmezőtől a beállításokba.

Use Case

Programot készítünk a python beszédfelismerő modul segítségével a beszéd felismerésére és a következők végrehajtására:

  1. konvertálja a beszédet szöveggé
  2. nyisson meg egy URL-t a webböngésző modul használatával
  3. adjon le egy lekérdezést a beszédfelismerés segítségével, hogy keresést végezzen az URL-ben

Az alábbiakban bemutatjuk a fenti problémamegállapítás programját:

beszéd_felismerés importálása importálja a webböngészőt wb-ként r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () és sr.Microphone () forrásként: print ('[keresés edureka: keresés a youtube-on]') print ('speak now') audio = r3.listen (source) if 'edureka' in r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' with sr .Mikrofon () forrásként: print ('keresés a lekérdezésben') audio = r2.hallgatás (forrás) próbálkozás: get = r2.recognize_google (audio) print (get) wb.get (). Open_new (url + get) kivéve sr.UnknownValueError: print ('error'), kivéve sr.RequestError e-ként: print ('sikertelen.formátum (e)), ha' video 'az r1.recognize_google (audio) fájlban: r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'sr.Microphone () forrásként: print (' videó keresése ') audio = r2.hallgatás (forrás) try: get = r1.recognize_google (audio) ) print (get) wb.get (). open_new (url + get), kivéve az sr.UnknownValueError: print ('nem tudtam megérteni'), kivéve az sr.RequestError as e: print (nem sikerült eredményeket kapni. formátum (e) )

A kimenetet úgy kapja meg, ahogy a képen látható. Ha azt mondja, hogy edureka, akkor arra kéri, hogy mondja ki azt a lekérdezést, amelyet keresni szeretne az edureka URL-ben, amelyet az url változóba írtunk. Ha azt mondod, hogy python, akkor a következő weblap nyílik meg a böngészőben.

Ebben a blogban megvitattuk, hogyan használhatjuk a beszédfelismerést a pythonban a beszéd szöveggé történő fordításához a beszédfelismerő csomag segítségével. órává vált olyan fogalmakra, mint a beszédfelismerés vagy a tárgylejtés, a elképzelhetetlen lehetőségeket kínálnak a beszédfelismerő rendszerek számára, ahol óriási beszédadatokat képezhetünk és tesztelhetünk egy rendszer felépítéséhez. Beiratkozhat a a mély neurális hálózatok számára, hogy elsajátítsák képességeit és elindítsák a tanulást.

van kérdése? említsd meg őket a megjegyzésekben, mi visszajövünk.