Verbesserte Extraktion von Merkmalsparametern aus Sprachsignalen mithilfe des Algorithmus für maschinelles Lernen(2)

May 30, 2023

3.7. Datensatz: Die Erfassungs- und Generierungsprozesse für Datensätze wurden wie folgt durchgeführt. In dieser Studie wurde der Datensatz mit 120 Stunden Audio für das Modelltraining verwendet. Der Datensatz umfasst Sprachaudioaufzeichnungen, die aus Sätzen mit maximal 15 Wörtern und einer Gesamtlänge von ca. 120 Stunden bestehen.

Desert living cistanche

Wüstenginseng

Darüber hinaus enthält der Datensatz eine große Menge verschiedener Texte, die bei der Entwicklung des Sprachmodells verwendet werden. Über 90.650 Äußerungen, 415.780 Wörter und 65.810 eindeutige Wörter, die im Textkorpus enthalten waren, wurden gesammelt, was zu etwa 120 Stunden transkribierter Sprachdaten führte. Wir teilen den Datensatz in Trainings-, Validierungs- und Testsätze auf. Die Datensatzstatistiken

sind in Tabelle 3 aufgeführt.

Tabelle 3. Die Datensatzspezifikationen.

Table 3. The dataset specifications.

Wir teilen den Datensatz in drei Ordner auf, die den Trainings-, Validierungs- und Testsätzen entsprechen. Jeder Ordner enthält Audioaufnahmen und Transkripte. Die Namen der Audio- und entsprechenden Transkriptionsdateien sind identisch, mit der Ausnahme, dass die Audioaufnahmen als WAV-Dateien gespeichert werden, während die Transkriptionen als TXT-Dateien mit der UTF-8-Kodierung gespeichert werden. Alle Transkriptionen werden mit dem lateinischen Alphabet dargestellt, das aus 29 Buchstaben und dem Apostroph-Symbol besteht. Um eine Überanpassung zu verhindern, haben wir Techniken zur Datenerweiterung angewendet, die auf Geschwindigkeitsstörung und Spektralverbesserung basieren.

Cistanche deserticola slice (11)

Cistanche deserticola

4. Vorgeschlagene Methode

Eine wichtige Aufgabe für Programmierer bei der Entwicklung von Spracherkennungssystemen ist die Schaffung einer optimalen Methode zur parametrischen Darstellung von Sprachsignalen [45]. Diese Methode ermöglicht eine hervorragende Trennung von Lauten und gesprochenen Wörtern und stellt gleichzeitig sicher, dass die Sprecher unempfindlich gegenüber Aussprachemustern und Veränderungen in der akustischen Umgebung sind. Die meisten Fehler bei der Worterkennung werden durch eine Änderung der Tonhöhe des Signals aufgrund einer Verschiebung des Mikrofons oder einen Unterschied in der Tonhöhe der Aussprache verursacht [46]. Eine weitere häufige Fehlerursache sind zufällige nichtlineare Verformungen der Spektrumsform, die im Sprachsignal eines Sprechers immer vorhanden sind [47,48]. Daher ist eine der wichtigsten Aufgaben bei der Entwicklung effektiver Spracherkennungssysteme die Auswahl einer Darstellung, die für den Inhalt des analysierten Signals ausreichend ist und gleichzeitig unempfindlich gegenüber den Stimmen von Sprechern und verschiedenen akustischen Umgebungen ist.

Cistanche supplement near me—Improve memory2

Cistanche-Ergänzungsmittel in meiner Nähe – Verbesserung des Gedächtnisses

Das System, das zum Extrahieren von Feature-Parametern verwendet wird, hat normalerweise die folgenden Anforderungen. Der Informationsgehalt, also der Satz an Merkmalsparametern, muss die zuverlässige Identifizierung erkennbarer Sprachelemente gewährleisten. Darüber hinaus müssen die Lautstärke, also die maximale Komprimierung des Audiosignals, und die nichtstatistische Korrelation der Parameter minimiert werden. Außerdem muss die Unabhängigkeit vom Sprecher erreicht werden, d. h. die größtmögliche Entfernung von Informationen über die Eigenschaften des Sprechers aus dem Zeichenvektor. Schließlich muss Homogenität gewährleistet sein, die sich auf die Parameter mit der gleichen durchschnittlichen Varianz und die Möglichkeit bezieht, einfache Metriken zur Bestimmung der Affinität zwischen Zeichensätzen zu verwenden [49]. Allerdings ist es nicht immer möglich, alle Anforderungen gleichzeitig zu erfüllen, da diese Anforderungen widersprüchlich sind. Die parametrische Beschreibung der Sprachelemente sollte ausreichend detailliert sein, um sie zuverlässig unterscheiden zu können, und möglichst lakonisch sein.

Desert living cistanche

Superman Kräuter-Cistanche

In der Praxis wird das von einem Mikrofon empfangene Sprachsignal mit einer Abtastrate von 8 bis 22 kHz digitalisiert. Serielle Zahlenwerte werden in Sprachfragmente (Frames) mit einer Dauer von 10 bis 30 ms unterteilt, die quasistationären Sprachteilen entsprechen. Aus jedem Frame wird ein Merkmalsvektor berechnet, der anschließend auf der akustischen Ebene der Spracherkennung verwendet wird. Zur parametrischen Darstellung von Signalen steht derzeit eine breite Palette an Methoden zur Verfügung, die auf Autokorrelationsanalyse, Hardware-Linearfilterung, Spektralanalyse und LPC basieren. Der gebräuchlichste Ansatz zur Sprachparametrisierung ist die Spektralanalyse von Signalfragmenten und die Berechnung ihrer Cepstralkoeffizienten.

MFCCs wurden als informative Merkmale für das Sprachsignal verwendet [41]. Diese Merkmale werden häufig bei der Spracherkennung verwendet und basieren auf zwei Hauptkonzepten: der Cepstral- und der Mel-Skala. Die Hauptvorteile des Algorithmus sind seine hohe Vertrautheit und einfache Sprache. Die MFCC-Funktionen werden von den aufgezeichneten Sprachsignalen getrennt. Der MFCC-Algorithmus verwendet die Ergebnisse der Tonträger- und Spektrumumschaltalgorithmen. Der klassische Algorithmus, der zur Berechnung der MFCCs verwendet wird, ist in Abbildung 5 dargestellt.

Figure 5. Classical scheme for calculating MFCCs.

Abbildung 5. Klassisches Schema zur Berechnung von MFCCs.

Diese Studie stellt eine schnelle Methode zum Extrahieren der Funktionsparameter aus einem Sprachsignal vor. Der vorgeschlagene Algorithmus zur schnellen Berechnung der MFCCs ist in Abbildung 6 dargestellt.

Figure 6. Proposed framework for calculating MFCCs.

Abbildung 6. Vorgeschlagener Rahmen zur Berechnung von MFCCs.

Wir betrachten die Ausführungssequenz des vorgeschlagenen Algorithmus zur schnellen Extraktion der Funktionsparameter aus einem Sprachsignal

4.1. Aufteilung in Frames

Nach der Vorfilterung wird das Sprachsignal in 16-ms-Frames aufgeteilt. Jeder Frame (außer dem ersten) enthält die letzten 10 ms des vorherigen Frames. Dieser Vorgang dauert bis zum Ende des Signals. Da in dieser Studie die Abtastrate des Sprachsignals 16 kHz beträgt, beträgt die Rahmenlänge N=256 und die Offsetlänge M=160. Die Überlappung beträgt 62,5 Prozent der Rahmenlänge. Generell wird eine Abdeckung von 50 bis 75 Prozent der Rahmenlänge empfohlen.

4.2. Hanning-Fenster und abnehmende Werte

Es wurde eine Hanning-Fenstergröße von 1D verwendet. Das Hanning-Fenster wird auch Raised-Cosine-Fenster genannt. Das Hanning-Fenster kann man sich als Summe des Frequenzspektrums von drei rechteckigen Zeitfenstern vorstellen. Es kann die Nebenkeulen nutzen, um sich gegenseitig auszulöschen, wodurch hochfrequente Interferenzen und Energieverluste vermieden werden. Hanning-Fenster sind sehr nützliche Fensterfunktionen.

cistanche—Improve memory4

Cistanche-Ergänzungsmittel in meiner Nähe – Verbesserung des Gedächtnisses

Klicken Sie hier, um die Produkte von Cistanche zur Verbesserung des Gedächtnisses und zur Vorbeugung der Alzheimer-Krankheit anzuzeigen

【Fragen Sie nach mehr】 E-Mail:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692

Um Verzerrungen zu reduzieren und die einzelnen Frames zu glätten, wird ein Gewichtskasten verwendet. Das in dieser Studie untersuchte schwebende Signal besteht aus einem dichten Ton. Die Stärke des flachen Tons wird durch die Stärke des reinen Tons bei der Frequenz f bestimmt, der durch das Hanning-Fenster gefiltert wird.

Ein kritischer Aspekt dieses Fensters besteht darin, dass es die Ränder der Frames auf Null setzt. In diesem Fall können die kurzen Energien beim Durchgang durch das Fenster berechnet und aus der Sequenz übernommen werden, die zur Berechnung der Energien mit der niedrigsten Amplitude verwendet wird. Ziel ist es, niederenergetische Signale aus dem Signal zu entfernen, indem die Signalenergie berechnet und gleichzeitig das Signal aus diesem Fenster geglättet wird. Dieser Prozess erfordert die folgende Signalenergiegleichung:


image

Dabei ist En die Energie des Eingangssignalfragments und xi der Signalwert.

Zusätzlich zum Fensterprozess mit (11) wird das Signal im nächsten Schritt verarbeitet, wodurch die Anzahl der Werte, die in den Prozessor gelangen, deutlich reduziert wird. Abbildung 7 zeigt den Parallelverarbeitungsalgorithmus.

Die Fenstergröße repräsentiert eine Anzahl von Samples und eine Dauer. Es ist der Hauptparameter der Analyse. Die Fenstergröße hängt von der Grundfrequenz, der Intensität und den Änderungen im Signal ab.

image

Abbildung 7. Hanning-Fensteralgorithmus zum Entfernen stiller Teile. 4.3. Kurzzeit-Fourier-Transformations-Schalter (STFT) Es besteht ein intuitives Verständnis für die Bedeutung einer hohen oder niedrigen Höhe. STFT ist eine Fourier-Transformation, die zur Bestimmung der Sinusfrequenz und des Phaseninhalts lokaler Abschnitte eines Signals verwendet wird, wenn es sich im Laufe der Zeit ändert. In der Praxis beinhaltet die STFT-Berechnung die Aufteilung eines längeren Zeitsignals in kürzere Segmente gleicher Länge, gefolgt von einer separaten Berechnung der Fourier-Transformation für jedes kürzere Segment. Dadurch wird das Fourier-Spektrum jedes kürzeren Segments sichtbar. Zeitdiskrete Signale sind in der Praxis eingesetzt. Die entsprechende Zeit-Frequenz-Umwandlung ist eine diskrete Fourier-Umwandlung, die die Länge des Signals Xn als repräsentativ für den komplexen Frequenzbereich der N Koeffizienten beschreibt. STFT, das die Entwicklung der Frequenzkomponenten über die Zeit beschreibt, ist eines der am häufigsten verwendeten Werkzeuge zur Sprachanalyse und -verarbeitung [50]. Ähnlich wie beim Spektrum selbst besteht ein Vorteil von STFT darin, dass seine Parameter physikalische und intuitive Interpretationen haben. STFT wird typischerweise mithilfe der Log-Spektren 20log10 (X(h, k)) visualisiert. Solche 2D-Log-Spektren können dann mithilfe einer Wärmekarte, einem sogenannten Spektrogramm, angezeigt werden. In der dritten Stufe des Algorithmus wird das STFT-Spektralumschaltverfahren auf die Frames angewendet, die das Gewichtsfenster durchlaufen. Die STFT des Signals wird durch Öffnen der Fenster und Bestimmen der DFT jedes Fensters ermittelt. Insbesondere wird die Transformation für die Xn- und Wn-Fenster des Eingangssignals wie folgt bestimmt:

image

Dabei entspricht der k-Index den Frequenzwerten und wn ist die Fensterfunktion, bei der es sich üblicherweise um ein Hanning-Fenster oder ein Gaußsches Fenster handelt, dessen Mittelpunkt um Null liegt.

4.4. Mel-Transformation

In der vierten Stufe wird das in das Frequenzband übertragene Signal mithilfe von Dreiecksfiltern in Bereiche unterteilt. Die Filtergrenzen werden anhand der Kreidefrequenz berechnet. Der Übergang zum Kreidefrequenzfeld erfolgt nach folgender Gleichung:

image

wobei f der Frequenzbereich ist.

Der Rückwärtsschalter wird wie folgt bestimmt:

image

Betrachten Sie NN als die Anzahl der Filter (im Allgemeinen werden 26 Filter verwendet) und die Flüsse, die so hoch sind wie der untersuchte Frequenzbereich. Dieser Bereich wird auf die Mel-Skala übertragen und in NN gleichmäßig verteilte Schnittbereiche unterteilt. Die linearen frequenzgerechten Grenzen werden innerhalb des Fifields bestimmt, wohingegen die Gewichtungskoeffizienten, die auf der Grundlage der Fifiltration erhalten werden, mit H bezeichnet werden. Anschließend werden die Fifilter auf den Quadratmodul der aus der Fourier-Transformation erhaltenen Koeffizienten angewendet. Die erhaltenen Werte sind aufgrund des folgenden Ausdrucks logarithmisch:

image

Der Singulärwertzerlegungsalgorithmus wird in der letzten Phase der Berechnung der MFCCs implementiert.

5. Experimentelle Ergebnisse

Wir haben die vorgeschlagene Methode in Visual Studio 2019 C plus plus auf einem PC mit einer 4,90-GHz-CPU, 32 GB RAM und zwei Nvidia GeForce 2080Ti-GPUs implementiert und getestet, wie in Tabelle 4 gezeigt. Das System wurde in verschiedenen Geräteumgebungen getestet Bewerten Sie die Leistung der Signalmerkmalsextraktionsmethode. In den Experimenten wurde während der Ausführung des Algorithmus (Abbildung 8), als die Abfolge der Oberflächen des Signals n=15 war, die Anzahl der Werte um 40–50 Prozent reduziert und die Verarbeitungszeit um 1 erhöht. 2-falten. Folglich zeigte dieser Algorithmus eine deutlich höhere Effizienz. Darüber hinaus ermöglichte dieser Algorithmus die Trennung und Eliminierung von Stillebereichen beim Passieren des Hanning-Fensters.

Um die Verschwendung von Speicherbandbreite zu vermeiden, stehen mehrere Möglichkeiten zur Verfügung. Wir schlagen eine neue Lösung vor, die die Rechenleistung erhöht, indem die Größe der Signalrahmen an eine Blockgröße des Cache-Speichers angepasst wird. Diese Art der Optimierung kann die Gesamtleistung der parallelen Verarbeitung erheblich beeinflussen. Es kann jedoch in der digitalen Signalverarbeitung verwendet werden, indem das Signal durch Implementierungen auf Multicore-Prozessoren in Frames aufgeteilt wird. In der Praxis erfolgt die Auswahl jedoch meist in kleinem Maßstab, entsprechend der Breite des Datenbusses, der den Cache-Speicher mit dem Hauptspeicher verbindet, und der Größe seines Blocks. Unsere Methode implementiert die optimale Nutzung dieser Speicher im Parallelrechnen. Die Organisation des Cache-Speichers spielt bei Parallelverarbeitungsalgorithmen eine wesentliche Rolle bei der Aufteilung von Daten in Streams. Insbesondere das Vorhandensein von Vektor-Matrix-Effekten in der digitalen Signalverarbeitung und die Größe ihrer Streams sollten entsprechend der Größe der Cache-Blöcke angepasst werden. Dies kann mit der vorgeschlagenen Methode erreicht werden, wie in Abbildung 9 dargestellt.

Tabelle 4. Die detaillierten Spezifikationen des Versuchsaufbaus.

image

image

Abbildung 8. (a) Anfängliches eingehendes Signal und (b) Auftreten des Signals nach Anwendung des vorgeschlagenen Algorithmus.

image

Abbildung 9. Parallele Rechenstruktur mit RK3288-Prozessoren.

In diesem Abschnitt diskutieren wir eine quantitative Analyse zum Vergleich der Leistung verschiedener Systeme. Wir haben unsere Methode mit bekannten Spracherkennungsalgorithmen verglichen, die auf Deep-Learning-Ansätzen basieren. Bewertungsmetriken sind für die Berechnung verschiedener Strategien zur Spracherkennung und die Bewertung der Leistung verschiedener Ansätze von wesentlicher Bedeutung. Obwohl wir die Ergebnisse anderer Studien zum Vergleich herangezogen haben, sind wir nicht sicher, ob sie wahr sind, da die Quellcodes und Datensätze dieser Methoden nicht öffentlich verfügbar sind, um die tatsächliche Leistung zu überprüfen. Abbildung 10 zeigt das Ergebnis der Entfernung der stillen Teile während des Durchgangs eines Sprachsignalfragments durch das Hanning-Fenster basierend auf dem vorgeschlagenen schnellen Algorithmus. Die aus der Analyse erhaltenen Geschwindigkeitsergebnisse sind in Tabelle 5 dargestellt.

image

Abbildung 10. k-Wert des KNN-Algorithmus (mit Merkmalsauswahl).

Tabelle 5. Experimentelle Ergebnisse der vorgeschlagenen Methode.

image

Es wurde ein Bereich bestimmt, um den Grad der Nachbarschaft zu finden, der den besten Genauigkeitswert im KNN-Algorithmus ergibt. Der angegebene Bereich umfasst 1–25. In Abbildung 10 wurde der Graph des KNN-Algorithmus mit Merkmalsauswahl angewendet. Als das Diagramm untersucht wurde und der Nachbarschaftswert zu Beginn 1 war, war die Trainingsgenauigkeit viel höher als die Testgenauigkeit. Im KNN-Algorithmus, der mithilfe der durch Korrelation ausgewählten Merkmale erstellt wurde, wurde die Genauigkeit des Modells im Trainingsdatensatz mit 99,15 Prozent und im Testdatensatz mit 97,35 Prozent ermittelt.

Die Wortfehlerrate (WER) oder Zeichenfehlerrate wird typischerweise verwendet, um die Genauigkeit der Merkmalsextraktion aus einem Sprachsignal zu bewerten. Hierbei handelt es sich um objektive Matrizen, die für einen fairen Vergleich von Erkennungstechniken hilfreich sind. In unseren früheren Studien [51–56] haben wir Metriken wie das F-Maß (FM), Präzision und Erinnerung berechnet. Der FM ist der gewichtete Durchschnitt, der die Messungen zwischen Präzisions- und Rückrufraten ausgleicht. Die Präzision ist das Verhältnis der Anzahl korrekt vorhergesagter positiver Beobachtungen zur Gesamtzahl vorhergesagter positiver Beobachtungen. Der Rückruf ist das Verhältnis der Anzahl korrekt vorhergesagter positiver Beobachtungen zur Gesamtzahl der Beobachtungen in der tatsächlichen Klasse, wie in (9) angegeben. Die folgenden Gleichungen können verwendet werden, um die durchschnittliche Präzision und die Rückrufraten von Merkmalsextraktionsmethoden zu berechnen:

image

Dabei bezeichnet TP die Anzahl der richtig positiven Ergebnisse, FP die Anzahl der falsch positiven Ergebnisse und FN die Anzahl der falsch negativen Ergebnisse.

Die FM wird unter Verwendung von (10) berechnet, wobei sowohl Präzision als auch Rückruf berücksichtigt werden.

image

Die durchschnittliche FM, Recall und Präzision der vorgeschlagenen Methode betrug 98,4 Prozent. In 1,6 Prozent der Fälle kam es aufgrund des unerwünschten Rauschens der Signale am Mikrofon zu Fehlerkennungen. Der Genauigkeitsbereich des Modells lag zwischen 0 und 1, und die metrischen Schätzwerte erreichten ihren besten Wert bei 1. Eine Bewertung unserer Methode und anderer kürzlich veröffentlichter Methoden zur Extraktion von Sprachmerkmalen ist in Tabelle 6 dargestellt. Die gleiche Zahl für einen fairen Vergleich herangezogen. Insgesamt wurden 325 Sprachproben aus jeder Gruppe von Probanden mit ähnlichem Funktionshintergrund analysiert. Zur Verbesserung der Genauigkeit wurden auch die Auswirkungen unterschiedlicher Rahmenlängen entsprechend der Anzahl der Filterbänke im MFCC und unterschiedlicher Rahmenlängen in der Reihenfolge des LPC untersucht.

Tabelle 6. Quantitative Genauigkeitsergebnisse der Sprachmerkmalsextraktion.

image

Wie bereits erwähnt, ist der WER das gebräuchlichste Maß für die Spracherkennungsleistung. Sie wird durch Vergleich einer Referenztranskription mit der Ausgabe des Spracherkenners berechnet. Basierend auf diesem Vergleich ist es möglich, die Anzahl der Fehler zu berechnen, die typischerweise drei Kategorien angehören: (1) Einfügungen, wenn ein Wort in der Referenz in der Ausgabe der automatischen Spracherkennung (ASR) nicht vorhanden ist, (2) Löschungen, wenn ein Wort in der ASR-Ausgabe fehlt, und (3) Ersetzungen, wenn ein Wort mit einem anderen Wort verwechselt wird. Der WER kann wie folgt berechnet werden.

image

Dabei ist S die Anzahl der Ersetzungen falsch erkannter Wörter, D die Anzahl der Löschungen, I die Anzahl der Einfügungen und N die Anzahl der Wörter in der Referenztranskription. Das Hauptproblem bei der Berechnung dieser Punktzahl ist die Ausrichtung zwischen den Zwei-Wort-Sequenzen. Dies kann durch dynamische Programmierung mithilfe der Levenshtein-Distanz [67] ermittelt werden.

Basierend auf Tabelle 6 führten wir eine statistische Analyse durch, um die durchschnittliche Genauigkeit der verglichenen Methoden mithilfe der WER-Bewertungsmetrik anzugeben, wie in Abbildung 11 dargestellt. Der verbesserte Merkmalsextraktor ergab eine Genauigkeit von etwa 98,4 Prozent, während die anderen Ansätze Genauigkeiten dazwischen ergaben 78 Prozent und 96 Prozent. Zum Vergleich haben wir die in den entsprechenden Veröffentlichungen bereitgestellten Ergebnisse herangezogen; Die Genauigkeit dieser Werte lässt sich jedoch nicht leicht überprüfen, da die Quellcodes und Datensätze dieser Methoden nicht öffentlich verfügbar sind, um ihre tatsächliche Leistung zu bestätigen. Dennoch wurde im Fall von Standardszenen experimentell gezeigt, dass die vorgeschlagene Methode eine hervorragende Genauigkeit der Sprachmerkmalsextraktion durch Reduzierung der Rechenzeit bietet, selbst wenn die Sprachdaten verrauscht oder von geringer Qualität sind.

Figure 11. Quantitative results of speech signal feature extraction approaches using vertical graphs.

Abbildung 11. Quantitative Ergebnisse von Ansätzen zur Extraktion von Sprachsignalmerkmalen unter Verwendung vertikaler Diagramme.

Darüber hinaus haben wir die falsch-positiven Ergebnisse der ausgewählten Methoden ausgewertet. Wie aus Abbildung 12 ersichtlich ist, wies der vorgeschlagene Ansatz die wenigsten Fehler auf. Darüber hinaus reduzierte die hocheffiziente parallele Berechnungsmethode die Fehler bei der Auswahl und Extraktion von Tonsignalmerkmalen erheblich. Overfifitting war eines der Hauptprobleme während des Trainings und fast alle Modelle für maschinelles Lernen leiden darunter. Wir haben versucht, das Risiko einer Überanpassung zu reduzieren, indem wir eine Feature-Auswahltechnik verwendet haben, die stattdessen darauf abzielt, die Wichtigkeit der vorhandenen Features im Datensatz zu bewerten und weniger wichtige Features zu verwerfen (es werden keine neuen Features erstellt).

image

Abbildung 12. Sichtbare Ergebnisse von Experimenten zur Extraktion falsch positiver Sprachsignalmerkmale.

Tabelle 7 zeigt die Leistungsergebnisse der Methoden, die in Spracherkennungsumgebungen verwendet wurden, basierend auf verschiedenen Eigenschaften. Unser vorgeschlagener Ansatz leidet nicht unter unerwünschten und unnötigen Hintergrundgeräuschen und wird nicht durch minderwertige menschliche Stimmen wie heisere Stimmen, Stimmen, die mit Halsschmerzen erzeugt werden, oder sogar Geräusche von Menschen mit völligem Stimmverlust beeinträchtigt. Unsere Methode zielt darauf ab, die Probleme unzureichender Aufnahmeausrüstung, Hintergrundgeräusche, schwierige Akzente und Dialekte sowie unterschiedliche Tonhöhen einer Stimme zu überwinden. In einer normalen Umgebung wurden die besten Ergebnisse für die genaue Erkennung und Extraktion von Sprachmerkmalsherausforderungen mit der vorgeschlagenen Methode bei reduzierter Verarbeitungszeit erzielt.

Tabelle 7. Überprüfung der Leistung bei der Erkennung und Extraktion von Sprachmerkmalen unter Verwendung verschiedener Merkmale.

image

Die Ergebnisse der Spracherkennungsmethoden wurden für die sieben Kategorien als stark, normal oder schwach eingestuft. Das leistungsstarke Kriterium zeigt, dass der Algorithmus alle Arten von Herausforderungen meistern kann. Im Gegensatz dazu deutet das Normalkriterium darauf hin, dass der Algorithmus in bestimmten Fällen scheitern kann, weil die Wortgrenzen nicht im Voraus definiert sind. Schließlich deutet das schwache Kriterium darauf hin, dass der Algorithmus bei Hintergrundgeräuschen oder Vibrationen unzuverlässig ist.

6. Einschränkungen

Es ist schwierig, den Schluss zu ziehen, dass die bisher vorgeschlagenen Methoden keine Mängel aufweisen. Unsere vorgeschlagene Methode kann aufgrund verschiedener Lärmumgebungen auch zu Fehlern führen. Um dieses Problem zu lösen, wollten wir die Anzahl der Features im Datensatz reduzieren, indem wir aus vorhandenen Features neue Features erstellten [69]. Da Overfifitting eines der Hauptprobleme beim Training verschiedener Modelle während des Wettbewerbs war, könnte die Anreicherung der Trainingsdaten durch das Hinzufügen von Datenproben aus verschiedenen Ressourcen eine mögliche Lösung zur Verbesserung der Ergebnisse sein. Ungeachtet der oben genannten Probleme zeigten die experimentellen Ergebnisse, dass unsere Methode mit einer durchschnittlichen Genauigkeit von 98,4 Prozent und FM von 99,5 Prozent sehr robust und effektiv für Sprachmerkmalsextraktionsaufgaben war.

7. Schlussfolgerung

Für Spracherkennungssysteme wurde ein neuartiger Hochleistungs-Parallel-Computing-Ansatz unter Verwendung einer Methode des maschinellen Lernens vorgeschlagen. Beschleunigungsprobleme in Maschinen mit begrenzten Rechenressourcen können durch verteilte Systeme gelöst werden. Durch die Erstellung und Nutzung effizienter und schneller Algorithmen kann die Rechengeschwindigkeit in Signalerkennungssystemen erhöht und die Leistung von Multicore-Plattformen verbessert werden. Die Ergebnisse zeigen, dass das vorgeschlagene Modell durch den effektiven Einsatz von MFCCs die Verarbeitungszeit verkürzt und die Genauigkeit der Merkmalsextraktion um 98,4 Prozent verbessert. Es wurde beobachtet, dass die durch die Merkmalsauswahl extrahierten Merkmale mit niedrigen Korrelationswerten ebenfalls einen Einfluss auf den Erfolg des Modells haben. Die statistische Analyse wurde an den vorverarbeiteten Daten durchgeführt und aus den Daten wurden mithilfe des maschinellen Lernalgorithmus K-Nearest Neighbors (KNN) aussagekräftige Informationen generiert.

Zukünftige Studien werden sich auf die Verbesserung der Genauigkeit unserer Methode konzentrieren, indem wir Deep-Learning-Ansätze verwenden und den Cache-Speicher von Multicore-Prozessoren optimieren, um Sprachsignale ohne nennenswerten Qualitätsverlust zu erkennen und zu extrahieren. Darüber hinaus planen wir die Erstellung eines Spektralanalysemodells basierend auf Parallelverarbeitung mit robuster Analyseleistung, das die Einrichtung eingebetteter Geräte mit geringen Rechenressourcen unter Verwendung von Taris-Sprachdatensätzen [70] in der 3D-CNN- und 3D-U-Net-Umgebung [71– 75]

Verweise

1. Meng, YJ; Liu, WJ; Zhang, RZ; Du, HS Sprachmerkmalsparameterextraktion und -erkennung basierend auf Interpolation. Appl. Mech. Mater. 2014, 602–605, 2118–2123. [CrossRef] 2. Musaev, M.; Rakhimov, M. Beschleunigtes Training für Faltungs-Neuronale Netze. In Proceedings of the 2020 International Conference on Information Science and Communications Technologies (ICISCT), Taschkent, Usbekistan, 4.–6. November 2020; S. 1–5. [CrossRef] 3. Ye, F.; Yang, J. Ein tiefes neuronales Netzwerkmodell zur Sprecheridentifizierung. Appl. Wissenschaft. 2021, 11, 3603. [CrossRef] 4. Musaev, M.; Rakhimov, M. Eine Methode zur Zuordnung eines Hauptspeicherblocks zum Cache bei der parallelen Verarbeitung des Sprachsignals. In Proceedings of the 2019 International Conference on Information Science and Communications Technologies (ICISCT), Karachi, Pakistan, 9.–10. März 2019; S. 1–4. [CrossRef] 5. Jiang, N.; Liu, T. Ein verbesserter Sprachsegmentierungs- und Clustering-Algorithmus basierend auf SOM und k-means. Mathematik. Probl. Ing. 2020, 2020, 3608286. [CrossRef] 6. Hu, W.; Yang, Z.; Chen, C.; Sun, B.; Xie, Q. Ein Vibrationssegmentierungsansatz für das Multi-Action-System des numerischen Steuerungsrevolvers. Signalbild-Videoprozess. 2021, 16, 489–496. [CrossRef]

7. Popescu, TD; Aiordachioaie, D. Fehlererkennung von Wälzlagern durch optimale Segmentierung von Schwingungssignalen. Mech. Syst. Signalprozess. 2019, 116, 370–391. [CrossRef] 8. Shihab, MSH; Aditya, S.; Setu, JH; Imtiaz-Ud-Din, KM; Efat, MIA Eine hybride GRU-CNN-Merkmalsextraktionstechnik zur Sprecheridentifizierung. In Proceedings of the 2020 23rd International Conference on Computer and Information Technology (ICCIT), Dhaka, Bangladesch, 19.–21. Dezember 2020; S. 1–6. [CrossRef] 9. Korkmaz, O.; Atasoy, A. Emotionserkennung aus Sprachsignalen unter Verwendung von Mel-Frequenz-Cepstralkoeffizienten. In Proceedings of the 9th International Conference on Electrical and Electronics Engineering (ELECO), Bursa, Türkei, 26.–28. November 2015; S. 1254–1257. 10. Ayvaz, U.; Gürüler, H.; Khan, F.; Ahmed, N.; Whangbo, T.; Abdusalomov, A. Automatische Sprechererkennung mithilfe von Cepstralkoeffizienten mit Mel-Frequenz durch maschinelles Lernen. CMC-Comput. Mater. Fortsetzung. 2022, 71, 5511–5521. 11. Al-Qaderi, M.; Lahamer, E.; Rad, A. Ein zweistufiges Sprecheridentifizierungssystem durch Fusion heterogener Klassifikatoren und komplementäre Merkmalskooperation. Sensoren 2021, 21, 5097. [CrossRef] 12. Batur Dinler, Ö.; Aydin, N. Ein optimaler Funktionsparametersatz basierend auf wiederkehrenden neuronalen Netzen mit Gated Recurrent Unit für die Erkennung von Sprachsegmenten. Appl. Wissenschaft. 2020, 10, 1273. [CrossRef] 13. Kim, H.; Shin, JW Dual-Mic-Sprachverbesserung basierend auf TF-GSC mit Leckageunterdrückung und Signalwiederherstellung. Appl. Wissenschaft. 2021, 11, 2816. [CrossRef] 14. Lee, S.-J.; Kwon, H.-Y. Eine Vorverarbeitungsstrategie zur Entrauschung von Sprachdaten basierend auf der Erkennung von Sprachsegmenten. Appl. Wissenschaft. 2020, 10, 7385. [CrossRef] 15. Rusnac, A.-L.; Grigore, O. CNN-Architekturen und Merkmalsextraktionsmethoden für die Erkennung imaginärer EEG-Sprache. Sensors 2022, 22, 4679. [CrossRef] [PubMed] 16. Wafa, R.; Khan, MQ; Malik, F.; Abdusalomov, AB; Cho, YI; Odarchenko, R. Der Einfluss der agilen Methodik auf den Projekterfolg, mit einer moderierenden Rolle der Jobeignung einer Person in der IT-Branche Pakistans. Appl. Wissenschaft. 2022, 12, 10698. [CrossRef] 17. Aggarwal, A.; Srivastava, A.; Agarwal, A.; Chahal, N.; Singh, D.; Alnuaim, AA; Alhadlaq, A.; Lee, H.-N. Zwei-Wege-Merkmalsextraktion zur Sprachemotionserkennung mithilfe von Deep Learning. Sensors 2022, 22, 2378. [CrossRef] [PubMed] 18. Marini, M.; Vanello, N.; Fanucci, L. Optimierung sprecherabhängiger Merkmalsextraktionsparameter zur Verbesserung der automatischen Spracherkennungsleistung für Menschen mit Dysarthrie. Sensoren 2021, 21, 6460. [CrossRef] 19. Tiwari, S.; Jain, A.; Sharma, AK; Almustafa, KM Phonokardiogramm-Signalbasiertes Mehrklassen-Entscheidungsunterstützungssystem für die Herzdiagnostik. IEEE Access 2021, 9, 110710–110722. [CrossRef] 20. Mohtaj, S.; Schmitt, V.; Möller, S. Ein auf Merkmalsextraktion basierendes Modell zur Identifizierung von Hate Speech. arXiv 2022, arXiv: 2201.04227. 21. Kuldoshbay, A.; Abdusalomov, A.; Mukhiddinov, M.; Baratov, N.; Makhmudov, F.; Cho, YI Eine Verbesserung der automatischen Klassifizierungsmethode für Ultraschallbilder, die auf CNN verwendet wird. Int. J. Wavelets Multiresolution Inf. Verfahren. 2022, 20, 2150054. 22. Passricha, V.; Aggarwal, RK Ein Hybrid aus Deep CNN und bidirektionalem LSTM für die automatische Spracherkennung. J. Intell. Syst. 2020, 29, 1261–1274. [CrossRef] 23. Mukhamadiyev, A.; Khujayarov, I.; Djuraev, O.; Cho, J. Automatische Spracherkennungsmethode basierend auf Deep-Learning-Ansätzen für die usbekische Sprache. Sensors 2022, 22, 3683. [CrossRef] [PubMed] 24. Li, F.; Liu, M.; Zhao, Y.; Kong, L.; Dong, L.; Liu, X.; Hui, M. Merkmalsextraktion und Klassifizierung von Herzgeräuschen mithilfe von 1D-Faltungs-Neuronalen Netzen. EURASIP J. Adv. Signalprozess. 2019, 2019, 59. [CrossRef] 25. Chang, L.-C.; Hung, J.-W. Eine vorläufige Studie zur Extraktion robuster Sprachmerkmale basierend auf der Maximierung der Wahrscheinlichkeit von Zuständen in tiefen akustischen Modellen. Appl. Syst. Innov. 2022, 5, 71. [CrossRef] 26. Ramírez, J.; Górriz, JM; Segura, JC Sprachaktivitätserkennung. Grundlagen und Robustheit des Spracherkennungssystems. In robuster Spracherkennung und -verständnis; Grimm, M., Kroschel, K., Hrsg.; I-TECH Education and Publishing: London, Großbritannien, 2007; S. 1–22. 27. Oh, S. DNN-basierte Methode zur Extraktion robuster Sprachmerkmale und zur Entfernung von Signalrauschen unter Verwendung eines verbesserten LMS-Filters zur Durchschnittsvorhersage für die Spracherkennung. J. Konverg. Inf. Technol. 2021, 11, 1–6. [CrossRef] 28. Abbaschian, BJ; Sierra-Sosa, D.; Elmaghraby, A. Deep-Learning-Techniken zur Sprachemotionserkennung, von Datenbanken bis hin zu Modellen. Sensoren 2021, 21, 1249. [CrossRef] 29. Rakhimov, M.; Mamadjanov, D.; Mukhiddinov, A. Ein leistungsstarker paralleler Ansatz zur Bildverarbeitung im verteilten Computing. In Proceedings of the 2020 IEEE 14th International Conference on Application of Information and Communication Technologies (AICT), Usbekistan, Taschkent, 7.–9. Oktober 2020; S. 1–5. [CrossRef] 30. Abdusalomov, A.; Mukhiddinov, M.; Djuraev, O.; Khamdamov, U.; Whangbo, TK Automatische Extraktion hervorstechender Objekte basierend auf lokal adaptivem Schwellenwert zur Generierung taktiler Grafiken. Appl. Wissenschaft. 2020, 10, 3350. [CrossRef] 31. Abdusalomov, A.; Whangbo, TK Eine Verbesserung der Vordergrunderkennungsmethode mithilfe der Schattenentfernungstechnik für Innenräume. Int. J. Wavelets Multiresolution Inf. Verfahren. 2017, 15, 1750039. [CrossRef] 32. Abdusalomov, A.; Whangbo, TK Erkennung und Entfernung von Schatten bewegter Objekte mithilfe von Geometrie- und Farbinformationen für Indoor-Videostreams. Appl. Wissenschaft. 2019, 9, 5165. [CrossRef] 33. Mery, D. Computer Vision for X-ray Testing; Springer International Publishing: Cham, Schweiz, 2015; P. 271, ISBN 978-3319207469. 34. Mark, S. Sprachbilder kalibrieren die Grenzen der Sprachwahrnehmung neu. Um zehn. Wahrnehmung. Psychophyse. 2016, 78, 1496–1511. [CrossRef] 35. Mudgal, E.; Mukuntharaj, S.; Modak, MU; Rao, YS Vorlagenbasierte Echtzeit-Spracherkennung mit digitalen Filtern auf DSP-TMS320F28335. In Proceedings of the 2018 Fourth International Conference on Computing Communication Control and Automation (ICCUBEA), Pune, Indien, 16.–18. August 2018; S. 1–6. [CrossRef]

Das könnte dir auch gefallen