Effiziente, auf dem Langzeitgedächtnis basierende Stimmungsanalyse von E-Commerce-Bewertungen, Teil 2
Jan 18, 2024
Muhammad et al. [20] stellten ein Modell zur Sentimentanalyse unter Verwendung von word2vec und LSTM für Hotelbewertungen vor.
Mohammed ist der Prophet und Begründer des Islam. Er gilt als kluger, kluger und kluger Mann. Sein Gedächtnis ist sehr stark, wodurch er Informationen sehr effektiv verarbeiten und seine Gedanken ausdrücken kann.
Die Erinnerung an Mohammed hat viel mit seiner Ausbildung und Erfahrung zu tun. Aufzeichnungen zufolge beschäftigte er sich in seiner Jugend oft mit Nachdenken und Nachdenken. Diese Neugier und der Wissensdurst halfen ihm, eine starke Wissensbasis und ein starkes Gedächtnis aufzubauen.
Darüber hinaus spielte Mohammeds Intelligenz auch eine große Rolle für sein Gedächtnis. Er ist klug, witzig, einfühlsam und verfügt über logisches Denkvermögen, was beim Umgang mit komplexen Informationen von großem Vorteil ist. Dieser Vorteil half ihm, den Gedächtnisprozess besser zu verwalten und zu kontrollieren und dadurch sein Gedächtnis zu verbessern.
Allerdings war Mohammeds Gedächtnis nicht angeboren, sondern wurde durch harte Arbeit und Übung verbessert. Er führt häufig Gedächtnistrainings durch, wie z. B. wiederholtes Lesen, Diktat und Sprechen, um ihm zu helfen, Wissen besser zu verstehen und zu beherrschen.
Mohammeds Gedächtnis war nicht nur ein natürliches Talent, es wurde durch harte Arbeit und Übung verbessert. Dies zeigt, dass jeder von uns durch Lernen und Üben sein Gedächtnis verbessern und seine Lern- und Arbeitseffizienz verbessern kann. Lasst uns wie Mohammed aktiv daran arbeiten, unser Gedächtnis kontinuierlich zu verbessern, um im Leben und bei der Arbeit erfolgreicher zu sein! Es ist ersichtlich, dass wir das Gedächtnis verbessern müssen, und Cistanche deserticola kann das Gedächtnis erheblich verbessern, da Cistanche deserticola auch das Gleichgewicht von Neurotransmittern regulieren kann, beispielsweise durch die Erhöhung des Acetylcholin- und Wachstumsfaktorspiegels. Diese Stoffe sind sehr wichtig für das Gedächtnis und das Lernen. Darüber hinaus kann Fleisch auch die Durchblutung verbessern und die Sauerstoffversorgung fördern, wodurch sichergestellt werden kann, dass das Gehirn ausreichend Nährstoffe und Energie erhält, wodurch die Vitalität und Ausdauer des Gehirns verbessert werden.

Klicken Sie auf „Wissen“, um das Kurzzeitgedächtnis zu verbessern
Für diese Studie wurden die Daten durch Crawlen der Reisewebsite mit Selen und Scrap gesammelt. +e Der Hauptzweck dieses Experiments bestand darin, die Genauigkeit durch Ändern der Parameter von word2vec und LSTM zu analysieren. +e-Ergebnisse zeigten, dass mit den Parametern eine mittlere Genauigkeit von 85,96 erreicht werden konnte, was vielversprechende Ergebnisse zeigte.
Zhao et al. [21] führte eine neue Technik ein, um die Stimmung der Kunden anhand von Bewertungen auf E-Commerce-Websites zu analysieren. +e vorgeschlagene optimierte Technik „das LocalSearch Improvised Bat Algorithm based Elman NeuralNetwork (LSIBA-ENN)“ umfasst vier Schritte und erkennt die Polarität und klassifiziert die Stimmungen der Bewertungen. Die Daten für diese Untersuchung wurden mithilfe des Web-Scrapping-Tools auf E-Commerce-Websites gesammelt, um Kundenbewertungen zu extrahieren.
Zusätzlich zur Vorverarbeitung der Daten nutzt diese Studie „LogTerm Frequency-based Modified Inverse Class Frequency (LTF-MICF) und Hybrid Mutation based Earth Warm Algorithm (HMEWA)“ zur Termgewichtung und Merkmalsauswahl. Die vorgeschlagene Methodik übertrifft andere Basistechniken hinsichtlich der Vorhersagegenauigkeit.
Jiang [22] schlug ein Modell zur Klassifizierung der Stimmungen von Bewertungen vor, die von der E-Commerce-Plattform Taobao erhalten wurden. Die Studie nutzt den Algorithmus des maschinellen Lernens sowie eine Support-Vektor-Maschine zur Klassifizierung und eine verbesserte Partikelschwarmoptimierung (IPSO), um die Parameter zu optimieren. Die Daten für die Studie wurden durch Crawlen der Kommentare auf der Website gesammelt. Die experimentellen Ergebnisse zeigten, dass der kombinierte Ansatz von SVM und IPSO eine höhere Genauigkeit aufwies. Allerdings leiden die meisten vorhandenen Modelle unter Überanpassung [23–25], schlechter Konvergenzgeschwindigkeit [26–28] und Problemen mit dem verschwindenden Gradienten [29–31].
3. Experimentelle Studie
Dieser Abschnitt gibt einen klaren Überblick über die im Projekt verwendete Methodik zur Klassifizierung von Stimmungen. Bei der verwendeten Technik handelt es sich um ein Long-Short-Term-Memory-Netzwerk, das zur Klassifizierung einer großen Anzahl von Amazon-Datenbankrezensionen verwendet wird. Die verwendete Einbettung ist word2vec, das entsprechend der Datenbank individuell trainiert wurde.
Durch die Abstimmung von word2vec entsprechend dem Datensatz wird die Gesamtleistung des Modells verbessert. Der Vorteil der Verwendung von LSTM besteht darin, dass es selbst bei unstrukturierten Überprüfungsdaten bessere Ergebnisse liefert. Es ist in der Lage, nützliche Funktionen für Ressourcen zu erhalten, die langfristige Abhängigkeiten enthalten.
+e-Daten werden aus dem Amazon-Rezensionsdatensatz gesammelt und dann vorverarbeitet. Word2vec-Einbettungen bilden einen wichtigen Schritt bei der Vorverarbeitung der Daten. Es wurden Zug- und Testdaten erstellt. Die Trainingsdaten werden in Trainings- und Validierungsdatensätze aufgeteilt. + Das benutzerdefinierte Word2VEC-Modell wird pro Datenbank trainiert. Es wird ein +e-Merkmalsvektor erhalten, der dann als Einbettungsschicht für das LSTM-Modell verwendet wird.
Keras wird zum Erstellen des LSTM-Sequenzmodells mit maximalen Features von 50,000 und einer Einbettungsgröße von 16 verwendet. +emodel wird dann für 10 Epochen trainiert. Das +e-Modell wird basierend auf Sklearn-Leistungsmetriken getestet. Der Prozess zum Erhalten von Merkmalen ist in Abbildung 2 dargestellt.
3.1. Datensatz. Um genaue Ergebnisse zu erzielen, sollte der verwendete Datensatz groß und angereichert sein. Der +e-Datensatz wurde im Online-Bereich „Handys und Zubehör“ des Amazon Reviews-Datensatzes (2018) gesammelt. Der +e-Datensatz besteht aus insgesamt 938.261 Bewertungen, darunter 47.901 einzigartige Produkte und 153.124 einzigartige Benutzerbewertungen. Der +e-Datensatz besteht zunächst aus 7 Spalten, nämlich einer Bewertung, die zwischen 1 und 5 variiert, der Bewertungszeit, der Rezensenten-ID, der Produkt-ID und der Zusammenfassung des Bewertungstextes.
Nach dem Löschen der Duplikate besteht der Datensatz aus 938254 Datensätzen, und Tabelle 2 zeigt einen Ausschnitt der ursprünglichen Datensätze des Datensatzes.
3.2. Methodik. Wir haben unser word2vec-Modell speziell für die Verwendung mit dem LSTM-Modell zur Klassifizierung trainiert. Word2vec ist eine Worteinbettung, die verwendet wird, um ein Wort durch eine Sammlung mehrerer Begriffe eines Vektors darzustellen. Es geht darum, ein Wort in einen Vektorraum abzubilden. +e Datensatz wird in einen Pandas-Datenrahmen geladen. Bei der Entwicklung eines Customword2vec-Modells besteht der erste Schritt in der Vorverarbeitung der Daten.
Wir schauen uns nur den Bewertungs- und Rezensionstext an und lassen alles andere fallen. +e Text wird durch Entfernen der Satzzeichen bereinigt. Eine Teilstichprobe des Textes wird aus fast 200000 Rezensionen erstellt und die Reintextmethode wird angewendet, um jede Rezension in eine Liste von Wörtern umzuwandeln. +is Liste von Wörtern dient jetzt als Eingabe für das Genism Word2vec-Modell.
Wir haben ein individuell trainiertes Skip-Gram-Word2vec-Modell erstellt und das Modell mit folgenden Dimensionen instanziiert: die Größe der Wortvektoren beträgt 100, die Fenstergröße beträgt 15, die Mindestanzahl beträgt 2 für Wörter, die weniger als zweimal in unserem Korpus vorkommen. negativ gleich 5 und Abtastrate gleich 1e−5. Wir haben alle diese Dimensionen genutzt, um aus unseren Wiederholungssätzen ein Vokabular aufzubauen.

Wir trainieren unser word2vec-Modell für 1000 Epochen. +en wir berechnen den Verlust in jeder Epoche. Der +e-Verlust ist zu Beginn hoch und nimmt zur letzten Epoche hin ab. Der Verlust in Epoche 0 beträgt 2239394,0 und der Verlust in Epoche 1000 beträgt 11504,0. Das gespeicherte Modell wird dann neu geladen und es werden Operationen darauf ausgeführt.
Wenn wir beispielsweise in unserem Datensatz Wörter finden möchten, die Geräuschen ähneln, erhalten wir Unterdrückung und Kopfhörer.
In ähnlicher Weise können wir auch die Ähnlichkeit zwischen bestimmten Wörtern wie „Kopfhörer“ und „Kopfhörer“ ermitteln, die {{0}}.48756 beträgt, und die Ähnlichkeit zwischen den Wörtern „Laden“ und „Ladegerät“ beträgt 0,89264.
Um die Dimensionen unserer Daten zu reduzieren, haben wir die TSNE-Visualisierung verwendet, um die Daten in zwei Dimensionen darzustellen. Jetzt können diese Wortvektoren für die weitere Klassifizierung verwendet werden. Diese Einbettungen werden dann als Features für weiteres Streaming verwendet.
3.2.1. Datenvorbereitung für LSTM. Unser Datensatz besteht aus 938254 Datensätzen, wobei die meisten Bewertungen eine Bewertungsverteilung von mehr als 3 aufweisen. Wir haben zunächst die Anzahl der Wörter für jede Bewertung berechnet. +e durchschnittlicher Mittelwert wird als Statistik verwendet, um die durchschnittliche Länge von Bewertungen zu ermitteln. Die durchschnittliche Länge der Rezension beträgt 44,59 und die maximale Länge beträgt 4303.
Wir haben einen Datensatz erstellt, der aus Rezensionen mit 100 Wörtern oder weniger besteht. Rezensionen, deren Länge mehr als 20, aber weniger als 100 beträgt, werden in die Kategorie „Kurzrezensionen“ eingeordnet, die Restrezensionen in die Kategorie „Langre Rezensionen“. Die Anzahl der Kurzrezensionen beträgt 411313 und die der Langrezensionen 100239. Die im Modell verwendeten Hyperparameter sind in Tabelle 3 beschrieben.
Als nächstes haben wir die Stimmungsbewertung als positiv definiert, wenn die Bewertung größer oder gleich 3 ist; andernfalls ist die Bewertung negativ. Wir haben den Rezensionstext und die Stimmung bei der Erstellung des Zugdatensatzes berücksichtigt. +e Testdaten bestehen aus Produkten mit mindestens mehr als 10 Bewertungen.
Nach der Verteilung bestand der Trainingsdatensatz aus insgesamt 203891 Datensätzen, von denen 175910 zur positiven Klasse und 27981 zur negativen Klasse gehörten. Der +e-Testdatensatz bestand aus insgesamt 686345 Datensätzen, von denen 592118 zur positiven und 94227 zur negativen Klasse gehörten.
In dieser Studie haben wir Keras verwendet, um unser LSTM-Modell zu erstellen, das maximal 50 000 Features als Eingabe für die Einbettungsebene verwendet. Das lange Kurzzeitgedächtnis (LSTM) ist eine Art wiederkehrendes neuronales Netzwerk, das einen internen Mechanismus verwendet, der den Informationsfluss reguliert. Dieser interne Mechanismus besteht aus Gattern, die so trainiert werden müssen, dass sie irrelevante Informationen genau herausfiltern und nützliche Informationen behalten können.

Abbildung 3 zeigt die grundlegende Architektur des LSTM-Modells in unserer vorgeschlagenen Methodik.
Ht−1 und Xt sind die Eingaben in die LSTM-Einheit; Ht−1, allgemein als Kurzzeitgedächtnis bezeichnet, verwendet die Ausgabe der vorherigen Zustände als Eingabe. +e-Speicherzelle oder das Langzeitgedächtnis, Ct −1, hilft dabei, relevante Informationen während des gesamten Prozesses einer Sequenz zu transportieren. Die +eLSTM-Architektur kombiniert drei Gates: Forget-Gate, Input-Gate und Output-Gate. In der LSTM-Einheit werden Tanh- und Sigmoidfunktionen verwendet, um diese Tore zu erhalten.
+e Zugdaten wurden dann in Zug- und Validierungsdaten gleicher Länge aufgeteilt. +e Länge der Daten wurde mit 101945 berechnet und die Klassenverteilung betrug {1: 87955, 0:13990}. Um die TensorFlow-Zugtest- und Validierungsdatensätze zu erstellen, müssen wir unsere Zugdaten in Sequenzen umwandeln. Wir haben sie auf eine maximale Länge von 100 aufgefüllt, sodass alle Sequenzen die gleiche Länge haben. +e Zug- und Testetiketten

For more information:1950477648nn@gmail.com






