Microsoft Word – Deep Learning im Vergleich zu traditionellen Modellen_Abdel Hai_Final.Teil 2
Jan 03, 2024
Um die Daten für Modelle des maschinellen Lernens vorzubereiten, wurden die folgenden Datenvorverarbeitungstechniken durchgeführt.
Daten und Speicher hängen eng zusammen. In der modernen Gesellschaft erhalten wir täglich eine große Menge an Informationen und Daten, darunter Texte, Bilder, Videos usw. Um diese Daten effektiv verarbeiten und organisieren zu können, müssen wir über ein starkes Gedächtnis verfügen.
Einerseits können uns Daten als Gedächtnisstütze dienen. Wenn wir beispielsweise neues Wissen erlernen, können wir Wissenspunkte schneller und besser verstehen und beherrschen, indem wir uns relevante Daten und Fakten merken. Eine solche Lernmethode kann uns dabei helfen, ein starkes Gedächtnis aufzubauen und die Fähigkeit, Wissen über einen langen Zeitraum zu kontrollieren, aufrechtzuerhalten.
Andererseits können uns Daten auch dabei helfen, das Gedächtnis zu trainieren und zu verbessern. Durch verschiedene Gedächtnistrainingsmethoden können wir Daten flexibel nutzen, um Gedächtnistraining durchzuführen, unsere Gedächtnisfähigkeit bis zu einem gewissen Grad zu verbessern und uns so besser an die Entwicklung der Gesellschaft und die Bedürfnisse von Arbeit und Leben anzupassen.
Es ist ersichtlich, dass die Beziehung zwischen Daten und Speicher sehr eng und wichtig ist. Nur durch die aktive und effektive Verarbeitung und Nutzung von Daten können wir unsere Gedächtniskapazitäten besser nutzen und bessere Ergebnisse erzielen. Daher sollten wir uns aktiv mit der Beziehung zwischen Daten und Gedächtnis befassen, entsprechende Schulungen und Anwendungen durchführen und unsere Fähigkeiten ständig verbessern. Es ist ersichtlich, dass wir das Gedächtnis verbessern müssen, und Cistanche deserticola kann das Gedächtnis erheblich verbessern, da Cistanche deserticola auch das Gleichgewicht von Neurotransmittern regulieren kann, beispielsweise durch die Erhöhung des Acetylcholin- und Wachstumsfaktorspiegels. Diese Stoffe sind sehr wichtig für das Gedächtnis und das Lernen. Darüber hinaus kann Fleisch auch die Durchblutung verbessern und die Sauerstoffversorgung fördern, wodurch sichergestellt werden kann, dass das Gehirn ausreichend Nährstoffe und Energie erhält, wodurch die Vitalität und Ausdauer des Gehirns verbessert werden.

Klicken Sie auf Möglichkeiten zur Verbesserung der Gehirnfunktion
Kategoriale Merkmale wurden heiß codiert; Kontinuierliche und diskrete Merkmale wurden mithilfe von Min-Max-Normalisierungstechniken normalisiert,32 definiert als:
![]()
Für jedes der folgenden Merkmale gab es bei jeder Begegnung eine unterschiedliche Anzahl von Aufzeichnungen. Daher wurden stattdessen die folgenden statistischen Werte berechnet. Für den diastolischen und systolischen Blutdruck haben wir Minimal-, Maximal- und Mittelwerte berechnet.
Für den BMI wurden Minimum, Maximum, Mittelwert und Varianzkoeffizient verwendet. Diese statistischen Werte wurden normalisiert und als Merkmale verwendet. Darüber hinaus unterschied sich die Anzahl der Merkmale bei Begegnungen aufgrund der unterschiedlichen Anzahl von Labortests, Diagnosen und Verfahren. Eine Begegnung kann mehrere Diagnosen und/oder Verfahrenscodes oder keine haben.
Um Abhilfe zu schaffen und die Dimensionalität von Merkmalsvektoren zu vereinheitlichen, wurden die folgenden Datendarstellungstechniken verwendet, um das Lernen der Modelle zu verbessern. Für Diagnose- und Prozedurcodes haben wir die Darstellung von One-Hot-Codierungen verwendet, bei denen jeder Wert auf 0 oder 1 gesetzt wurde, was angibt, ob für jede Begegnung ein Diagnose-/Prozedurcode vorhanden war oder nicht. Wir haben diese Datendarstellungstechnik für Labortests leicht modifiziert, da jeder Test ein zugehöriges Ergebnis hatte.
Daher haben wir 1, die darauf hinweist, dass ein Code vorhanden ist, durch das Laborergebnis ersetzt. Die Laborergebnisse wurden mithilfe von Gleichung 1 normalisiert. Da es sich bei den Ergebnissen um unterschiedliche Einheiten und Maße handelte, haben wir bei der Normalisierung der Laborergebnisse das Minimum und das Maximum für jeden Laborcode separat berücksichtigt. Diese Technik erzeugte aufgrund der vielen eindeutigen Codes ein hochdimensionales spärliches Array.
Dann haben wir den Singular Value Decomposition (SVD)-Algorithmus verwendet, um eine Einbettung und reduzierte Dimensionalität zu erlernen. SVD wurde verwendet, da es keine quadratische Matrix als Eingabe annimmt und für spärliche Daten besser geeignet ist.33 Labortests wurden auf 50 Komponenten reduziert, Verfahren Codes wurden auf 45 Komponenten reduziert und Diagnosecodes wurden auf 25 Komponenten reduziert.
Verschiedene Komponenten wurden untersucht und das Verhältnis der Summe der Varianzen beobachtet, um die optimale Anzahl von Komponenten zur Reduzierung der Dimensionalität zu bestimmen. Alle Features wurden für jede Begegnung in einem Feature-Vektor verkettet. SVD wurde bei jeder Begegnung separat angewendet, um die Dimensionen zu reduzieren und zu vereinheitlichen; Die Dimension der Begegnungen wurde auf 50 Features pro Begegnung reduziert.

Anschließend haben wir alle Begegnungen für einen bestimmten Patienten in einem Merkmalsvektor verkettet, der der Reihe nach nach Aufnahmedatum geordnet ist. Die Klassenverteilung betrug 27.511 Patienten ohne Wiederaufnahme (negative Klasse) und 9.130 Patienten, die wieder aufgenommen wurden (positive Klasse).
Experimentelle Ansätze
Wir haben umfangreiche Experimente mit den EHR-Daten durchgeführt, um die folgenden Ziele zu erreichen:
- Sagen Sie voraus, ob Patienten mit Diabetes innerhalb von 30 Tagen wieder aufgenommen werden
- Vergleichen Sie die Leistung der verwendeten DL-Methoden mit mehreren herkömmlichen Modellen
- Analysieren Sie, wie viele frühere Begegnungen (dh historische Daten) innerhalb von 2 Jahren optimal sind, um eine Wiederaufnahme vorherzusagen
- Bewerten Sie die Auswirkungen der Einbeziehung aller Labortests in die Daten im Vergleich zum Lernen aus einer Teilmenge der von einem Fachexperten ausgewählten Tests
In dieser Studie verwenden DL-Modelle als Eingabe einen 3-3-dimensionalen Tensor � x � x �, um f Merkmale für jede von e Begegnungen für p Patienten darzustellen. Im Gegensatz dazu werden Daten in herkömmlichen Modellen typischerweise als 2-dimensionale Matrix dargestellt, wobei alle Merkmale aller Begegnungen, die einem einzelnen Patienten entsprechen, in einem langen Merkmalsvektor verkettet sind.
Die Dimensionalität jeder Begegnung wurde auf 50 Merkmale reduziert und vereinheitlicht, daher hat � in einem tiefen Modell die Größe 50. In einem traditionellen Modell besteht der Merkmalsvektor aus allen Begegnungen und hat daher die Größe � x 50.
Patienten haben unterschiedlich viele Begegnungen, was zu uneinheitlichen Dimensionen führt; Daher wurden Merkmalsvektoren mit 0s aufgefüllt, um eine einheitliche Form zu erreichen. Die Datendarstellung, die als Eingabe für DL- und traditionelle Modelle verwendet wird, ist im linken bzw. rechten Teil von Abbildung 1 dargestellt.
Um heterogene sequentielle Daten zu modellieren, haben wir zwei Varianten von DL-Modellen entwickelt und beide mit mehreren traditionellen Modellen verglichen, die als Basislinien verwendet wurden. In unserer Studie verwendete DL-Modelle waren: 1) 1-way Long Short-Term Memory (LSTM)-Netzwerke, eine Variante des Recurrent Neural Network (RNN), das in der Lage ist, aufeinanderfolgende Daten in Abhängigkeit von der Reihenfolge zu lernen32; und 2) Bidirektionale Gated Recurrent Unit (GRU), eine weitere Variante von RNN.
Als Basislinien wurden die folgenden traditionellen Modelle verwendet: 1) Random Forest (RF), eine Ensemble-Methode zur Klassifizierung und Regression; Während des Trainings werden mehrere Entscheidungsbäume erstellt.30 RF erreicht häufig die modernste Leistung in der vorhandenen Literatur zu Vorhersagen mithilfe medizinischer Daten. 2) Multi-Layer-Perceptron (MLP), ein einfaches neuronales Netzwerkmodell, das zeitliche Informationen nicht berücksichtigt.
MLP besteht aus mehreren Perzeptronschichten, führt Backpropagation-Lernen durch und nutzt eine nichtlineare Aktivierungsfunktion.31 3) Logistische Regression (LR), ein interpretierbares Modell, das in der vorhandenen Literatur zu Rückübernahmevorhersagen häufig verwendet und auf medizinische Daten angewendet wird; und 4) AdaBoost, das weniger anfällig für Überanpassung ist, da seine Eingabeparameter nicht gemeinsam optimiert werden.

Die DL-Modelle wurden mithilfe der Python-Bibliotheken „Keras“, einer High-Level-API von „TensorFlow“, implementiert. Die Bibliothek „Scikit-learn“ wurde verwendet, um traditionelle Modelle in Python zu implementieren.
Die Architektur des vorgeschlagenen Modells, LSTM, umfasst 128 Neuronen, eine sequentielle Schicht, eine Umformungsschicht, die verwendet wurde, um die Eingabe in einen 3-dimensionalen Tensor umzuformen, und eine Maskierungsschicht mit einem Maskenwert von 0 Wird verwendet, um die Zeitschritte zu überspringen, für die die Daten fehlten.
Da das Auffüllen mit 0s durchgeführt wurde, um die Dimensionen zu vereinheitlichen, wurde die Maskierungsebene verwendet, um jegliche Berechnung mit den fehlenden Werten in allen Ebenen nach der Maskierungsebene zu vermeiden, sodass fehlende Werte beim Lernen nicht berücksichtigt wurden.
Zusätzlich wurde ein Dropout zwischen der versteckten Ebene und der Ausgabeebene hinzugefügt. Die Verwendung dieser Technik zur zufälligen Auswahl eines bestimmten Prozentsatzes zum Löschen ist eine gängige Regularisierungstechnik, die das Modell beim Erlernen allgemeiner Muster in Daten unterstützt.
RNN ist eine Variante neuronaler Netze, die aus verborgenen Neuronen bestehen, die in der Lage sind, zeitliche EHR-Daten zu analysieren.32 RNN umfasst die gleiche Struktur wie das grundlegende neuronale Netz, aber Neuronen in derselben Schicht sind verbunden, sodass ein Neuron daraus lernen kann benachbarter Schichten, zusätzlich zum Lernen aus den Ausgaben der vorherigen Schichten und den Eingabedaten. Somit umfassen RNN-Neuronen zwei Eingabequellen: die Gegenwart und die jüngste Vergangenheit. Der Lernprozess ist definiert als:

Um den Wert �" eines verborgenen Neurons � zu berechnen, wird eine nichtlineare Transformationsfunktion, ReLU, auf den gewichteten �Wert seines linken verborgenen Neurons �"#$ und den gewichteten � Wert seiner Eingabe � angewendet.
Vorhersagen werden mithilfe der Asigmoidfunktion der gewichteten Summe aller verborgenen Neuronen mit zusätzlichem Bias berechnet. Der Nachteil von RNN besteht darin, dass es unter dem Problem des verschwindenden Gradienten leidet, was bedeutet, dass die Gewichte unverändert bleiben, was es für das Modell schwierig macht, zu konvergieren, weshalb das Modell Schwierigkeiten beim Lernen hat.
Um dieses Problem zu lösen, wurde eine LSTM-Schicht eingeführt, in der Sigmoidneuronen von RNN durch eine komplexere Struktur des Kurzzeitgedächtnisses ersetzt werden. LSTM teilt schichtübergreifend die gleichen Gewichtungen, wodurch die Anzahl der vom Netzwerk berechneten Parameter reduziert wird.

Die GRU ist eine alternative Lösung für ein verschwindendes Gradientenproblem. Es ersetzt das einfache Neuron durch eine Gated-Einheit, die weniger Parameter als die LSTM-Neuronen hat, weil ihr ein Ausgangsgatter fehlt.33
For more information:1950477648nn@gmail.com






