Erforschung selbstüberwachter Sehtransformatoren zur Gangerkennung in freier Wildbahn, Teil 2

Nov 24, 2023

2.2. Visionstransformatoren

Während Transformer ursprünglich mit großem Erfolg für NLP-Aufgaben vorgeschlagen wurden [16,34], haben sie in den letzten Jahren in der Computer-Vision breite Anwendung gefunden [24,25,28,35–37]. Beide Domänen haben durch die Verwendung verschiedener Transformatorvarianten beispiellose Leistungen erzielt, was teilweise auf die erhöhte Modellkapazität und die Fähigkeit der Transformatoren zurückzuführen ist, viel stärker von der Selbstüberwachung zu profitieren als frühere Modelle [17].

Selbstüberwachung und Gedächtnis hängen eng zusammen. Selbstüberwachung bezieht sich auf die Bewertung und Anpassung des eigenen Verhaltens, Denkens und der eigenen Emotionen, während sich Gedächtnis auf die Fähigkeit bezieht, Informationen zu erfassen, zu verarbeiten und zu speichern. Selbstüberwachung kann uns helfen, unser Verhalten und unsere Emotionen besser zu kontrollieren und dadurch das Gedächtnis zu verbessern.

Erstens kann Selbstüberwachung uns helfen, Versuchungen besser zu widerstehen. Versuchungen neigen dazu, unsere Aufmerksamkeit und Energie abzulenken und unser Gedächtnis zu beeinträchtigen. Durch Selbstüberwachung können wir uns besser kontrollieren, übermäßige Ablenkungen vermeiden und so das Gedächtnis verbessern.

Zweitens kann uns die Selbstüberwachung auch dabei helfen, Informationen besser zu verstehen und uns daran zu erinnern. Durch die Selbstüberwachung können wir den wichtigsten Informationspunkten mehr Aufmerksamkeit schenken und auf die Zusammenhänge zwischen Informationen achten, um Informationen besser zu verstehen und uns daran zu erinnern. Wenn wir aufmerksam sind, sind wir besser in der Lage, Informationen zu verstehen und zu speichern.

Schließlich kann uns die Selbstbeobachtung auch dabei helfen, unser Verhalten und Denken besser zu beobachten und zusammenzufassen. Indem wir unsere eigenen Handlungen und Denkprozesse reflektieren, können wir Defizite erkennen und diese verbessern. Diese Verbesserung verbessert nicht nur unser Verhalten und Denken, sondern verbessert auch unser Gedächtnis.

Zusammenfassend lässt sich sagen, dass Selbstüberwachung und Gedächtnis eng miteinander verbunden sind. Durch Selbstüberwachung können wir uns besser kontrollieren, Informationen besser verstehen und uns daran erinnern sowie unser Verhalten und unsere Denkprozesse verbessern. Gleichzeitig wird es uns dabei helfen, unser Gedächtnis zu verbessern, sodass wir effizienter lernen und arbeiten können. Lassen Sie uns unsere Ziele klären, uns aktiv anpassen und ständig nach Fortschritt streben! Es ist ersichtlich, dass wir das Gedächtnis verbessern müssen, und Cistanche deserticola kann das Gedächtnis erheblich verbessern, da Cistanche deserticola auch das Gleichgewicht von Neurotransmittern regulieren kann, beispielsweise durch die Erhöhung des Acetylcholin- und Wachstumsfaktorspiegels. Diese Stoffe sind sehr wichtig für das Gedächtnis und das Lernen. Darüber hinaus kann Fleisch auch die Durchblutung verbessern und die Sauerstoffversorgung fördern, wodurch sichergestellt werden kann, dass das Gehirn ausreichend Nährstoffe und Energie erhält, wodurch die Vitalität und Ausdauer des Gehirns verbessert werden.

supplements to boost memory

Klicken Sie auf „Ergänzungen zur Verbesserung des Gedächtnisses kennen“.

Dosovitskiy et al. [24] waren die ersten, die die Verwendung von Transformator-Encodern für die Bildklassifizierung vorschlugen und den Vision Transformer (ViT) einführten. Die Architektur unterteilt das Eingabebild in 16x16-Patches mit fester Größe, flacht sie ab und projiziert sie mit einer linearen Ebene auf die Einbettungsdimension. Ein zusätzlicher Klassentoken (CLS) wird in die Sequenz eingefügt und jedem Vektor werden Positionskodierungen hinzugefügt.

Die resultierende Einbettungssequenz wird als Eingabe an einen Transformator-Encoder übergeben, der die gleiche Struktur wie der in [34] hat, aber den LayerNorm-Operator vor jedem Block statt danach (Vornorm) verwendet. Ein MLPhead wird verwendet, um die Klassenbezeichnung aus den global aggregierten Informationen im Klassentoken zu erhalten.

Der von Vaswani et al. eingeführte Selbstaufmerksamkeitsmechanismus. [34] nimmt eine Folge von Elementen als Eingabe und schätzt die Interaktion zwischen ihnen allen, indem er die globalen Informationen für jedes Element in der Folge aggregiert. Um unterschiedliche Interaktionen zwischen den Elementen einer Sequenz zu berechnen, verkettet das Multi-Head-Selbstaufmerksamkeitsmodul (MSA) die Ergebnisse mehrerer Selbstaufmerksamkeitsblöcke und projiziert die Ausgabe auf eine lernbare Gewichtsmatrix. Der in [34] eingeführte Transformator-Encoder besteht aus mehreren gestapelten Schichten, bestehend aus einem MSA-Block, einem Feedforward-Block (FFN), Restverbindungen zwischen jedem Block und einer LayerNorm (LN) nach jedem Block.

Touvron et al. [25] schlagen zwei Architekturänderungen vor, um die Leistung von Deep-Vision-Transformatoren zu verbessern. Ihr erster Beitrag, LayerScale, erleichtert das Training tieferer Modelle durch Hinzufügen einer lernbaren Diagonalmatrix, die mit der Ausgabe der Restblöcke multipliziert wird. Da die Matrix mit kleinen Werten initialisiert wird, erzwingt sie, dass die Ergebnisse der Transformator-Encoder-Schichten zu Beginn des Trainings einen kleinen Beitrag zur Ausgabe des Restblocks leisten.

Ihr zweiter Beitrag ist der Klassenaufmerksamkeitsmechanismus. Anstatt das CLS-Token zunächst anzuhängen, wie im Standard-ViT, wird es nach mehreren Encoderblöcken angehängt. Nach dieser Phase wird nur das Klassen-Token aktualisiert und die Patch-Token bleiben eingefroren. Dieser Mechanismus trägt dazu bei, die Selbstaufmerksamkeitsvorgänge zwischen Patches von der Aggregation der Informationen zu entkoppeln, die für die Klassifizierung verwendet werden.

Yuan et al. [28] argumentieren, dass die einfache Tokenisierung von Patches im Vanilla-ViT die Einschränkung hat, dass die lokale Struktur des Bildes und die Interaktion zwischen benachbarten Patches nicht modelliert werden können. Folglich führen sie einen progressiven Tokenisierungsprozess ein, der benachbarte Token zu einem einzigen kombiniert.

Dieser Prozess besteht aus dem Reshape-Modul, das die Reihenfolge der Token aus der vorherigen Ebene übernimmt und daraus basierend auf der räumlichen Nähe ein Bild erstellt. Das Soft Split-Modul unterteilt das erstellte Bild in überlappende Token-Patches und leitet sie an den nächsten Encoder weiter. Die nach dem Tokenisierungsprozess generierten Token werden zur Klassifizierung in ein tiefes NarrowViT-Backbone eingespeist.

ways to improve your memory

Wie Wang et al. [35] Der standardmäßige Vision Transformer wurde speziell für die Bildklassifizierung entwickelt und ist nicht für andere Aufgaben wie Objekterkennung oder Segmentierung geeignet. Aus diesem Grund schlagen sie den Pyramid Vision Transformer (PVT) vor, der sich von CNN-Architekturen inspirieren lässt, indem er intermediäre Feature-Maps mit abnehmenden räumlichen Abmessungen und einer zunehmenden Anzahl von Kanälen erstellt.

Diese Pyramidenstruktur hilft dem Modell beim Erlernen von Multiskalenfunktionen, die für verschiedene Aufgaben verwendet werden können. Das Modell verarbeitet zunächst Token, die aus Patches mit den Abmessungen 4 × 4 stammen, und in jeder Phase entsprechen die Token größeren räumlichen Dimensionen von Patches.

Der Rechenaufwand der klassischen Selbstaufmerksamkeit beträgt O(N2·d), wobei N die Anzahl der Token in der Sequenz und d die Vektordimension ist. Der quadratische Rechenaufwand in Bezug auf die Anzahl der Token wird mit zunehmender Auflösung des Eingabebilds zu einem praktischen Problem, da jedes Token in einer Sequenz einem Patch im Bild entspricht.

In der Literatur gibt es mehrere Techniken, mit denen sich der Rechenaufwand der Vanilla-Selbstaufmerksamkeit reduzieren lässt [26,35,36]. PVT [35] verwendet räumliche Aufmerksamkeitsreduktion, die die räumliche Größe der Schlüssel- und Wertvektoren vor der Selbstaufmerksamkeit durch eine Umformungsoperation und eine lineare Projektion reduziert.

Der Swin-Transformator [36], der ebenfalls eine Pyramidenstruktur aufweist, ersetzt den Selbstaufmerksamkeitsblock durch ein Modul, das ihn annähert. Das Modul gruppiert benachbarte Patches in lokalen Fenstern und führt die Selbstaufmerksamkeitsoperation nur innerhalb dieser Fenster durch.

Um die Informationen mit anderen Fenstern zu kommunizieren, verschiebt es die lokalen Fenster so, dass sie auch Patches von benachbarten Fenstern enthalten und berechnet die Selbstaufmerksamkeit erneut. Chu et al. [27] übernahmen die PVT-Architektur und schlugen eine ähnliche Methode zur Annäherung an die Selbstaufmerksamkeit vor. Sie führten auch lokale Aufmerksamkeit zwischen Patches in einem Fenster durch, ähnlich dem Swin-Transformator.

Um Informationen mit anderen Fenstern zu kommunizieren, führten sie eine Selbstaufmerksamkeit zwischen einem Vertreter jedes Fensters und allen anderen Fenstern durch. CrossFormer [26] baut ebenfalls auf dem PVT auf. Es nutzt die Kurzdistanzaufmerksamkeit, die der lokalen Aufmerksamkeit im Swin-Transformator ähnelt, aber für die Weitergabe von Informationen an andere Fenster nutzt es die Fernaufmerksamkeit, die die Interaktion zwischen Patches berechnet, die einen festen Abstand zwischen sich haben. Es kombiniert auch Multiskalen-Patches, die um dasselbe Pixel zentriert sind, um die Token für die Transformatorblöcke zu erhalten, was dem Modell beim Erlernen skalenübergreifender Interaktionen hilft.

Yang et al. [37] schlagen den Fokus-Aufmerksamkeits-Mechanismus zum Erlernen von Wechselwirkungen zwischen Token über kurze und große Entfernungen vor, wodurch Vision-Transformatoren in die Lage versetzt werden, hochauflösende Bilder zu verarbeiten. Für jedes Bildfeld berechnet das fokale Selbstaufmerksamkeitsmodul Interaktionen mit räumlich geschlossenen Feldern und mit zusammengefassten Fenstern weiter entfernter Felder. Die Zusammenfassung von Patch-Fenstern erfolgt über Pooling und erfasst weniger Informationen, wenn die Patches weit entfernt sind.

RegionViT [38] nutzt die PVT-Architektur und fügt zwei Tokenisierungspfade für jede Feature-Map hinzu. Der erste Tokenisierungspfad erhält regionale Token, die aus Patches bestehen, die eine große Anzahl von Pixeln abdecken. Der zweite Tokenisierungspfad erhält lokale Token, die Informationen auf niedriger Ebene erfassen, indem sie nur wenige Pixel enthalten. Diese beiden Arten von Token werden als Eingabe in den Region-zu-Lokal-Transformator-Encoder eingespeist, in dem zunächst die Selbstaufmerksamkeit zwischen Regionen und dann zwischen jedem regionalen Token und seinen entsprechenden lokalen Token berechnet wird.

Die LeViT-Architektur [39] kombiniert sowohl CNNs als auch den Selbstaufmerksamkeitsmechanismus. Ein Bild wird zunächst in einen CNN-Encoder eingespeist, der die räumlichen Dimensionen verringert und die Kanaldimension vergrößert. Die resultierenden Feature-Maps werden in ein hierarchisches ViT eingespeist, das zwischen seinen Encodern ein verkleinerndes Aufmerksamkeitsmodul enthält, um die räumlichen Dimensionen weiter zu verringern und die Kanaldimension der Feature-Maps zu erhöhen.

Auf Aufmerksamkeit basierende Architekturen wurden auch bei videobasierten Aufgaben eingesetzt, bei denen zeitliche Informationen berücksichtigt werden müssen. Architekturen wie ViViT [40] und TimeSformer [41] nutzen den Selbstaufmerksamkeitsmechanismus sowohl in der räumlichen als auch in der zeitlichen Dimension. Dadurch lernt das Modell, die räumlichen Informationen aus jedem Frame und die Änderung im Laufe der Zeit zu erfassen.

3. Methode

In diesem Abschnitt bieten wir eine detaillierte Beschreibung jeder Architektur und der ausgewählten Hyperparameter. Darüber hinaus beschreiben wir die Datenverarbeitung und die vorgeschlagenen Designentscheidungen zur Anpassung von Bildtransformatoren für die Arbeit mit Skelettsequenzen. Abschließend beschreiben wir die Initialisierungsmethoden, das Bewertungsprotokoll und die Bewertungsdatensätze.

3.1. Beschreibung der Architekturen

Wir haben fünf verschiedene Varianten der Vision Transformers (Abbildung 1) untersucht, die für eine optimiertere Berechnung von Bildern im Hinblick auf Downstream-Leistung und Inferenzzeit entwickelt wurden. Insbesondere untersuchen wir das klassische ViT [24], CaiT [25], Token2Token ViT [28] und Twins-SVT [27].

Im Allgemeinen befassen sich die Varianten von Vision Transformern mit Verbesserungen gegenüber der „klassischen“ Art der Bildverarbeitung mit Transformern, wie in ViT vorgeschlagen: Bilder werden in gleich große und nicht überlappende Patches aufgeteilt, die abgeflacht und in einen niedrigerdimensionalen Raum projiziert werden werden dann als „Token“ behandelt, ähnlich wie bei NLP-Anwendungen. Bei der Ganganalyse entspricht ein quadratischer Patch einer Gruppe von Gelenken, die sich über ein kleines Zeitfenster hinweg verändern.

increase brain power

Der Standardtransformator-Encoder nimmt als Eingabe eine Folge von Elementen (X ∈ Rn×d, wobei – Anzahl der Elemente, d – Einbettungsdimension) und projiziert sie auf drei verschiedene lernbare Gewichtsmatrizen, um die Abfragen (Q ∈ Rn×dq), die Schlüssel, zu erhalten (K ∈ Rn×dk, dk=dq) und Werte (V ∈ Rn×dv ), wobei dq, dk und dv die Dimensionen für die Abfragen, Schlüssel bzw. Werte sind. Die Aufmerksamkeit wird wie folgt berechnet:

increase memory power

Bei den meisten Architekturen haben wir, wann immer möglich, die Anzahl der Schichten, Aufmerksamkeitsköpfe und Merkmalsdimensionalitäten festgelegt. Daher wählen wir 4 Schichten mit jeweils 4 Aufmerksamkeitsköpfen, einer Dimension von 512 für das Feedforward-Netzwerk und einer endgültigen Einbettungsgröße von 128.

improve brain

ViT The Vision Transformer [24] erhält eine Eingabesequenz von Token, indem er das Bild in Patches unterteilt und diese linear auf die Einbettungsdimension projiziert. Die resultierende Sequenz wird zusammen mit einem Extra-Class-Token (CLS) als Eingabe an einen Transformator-Encoder übergeben. Darüber hinaus verwendet der ViT-Encoder eine Vornormierung und nicht eine Nachnormierung. Die Ausgabe einer Ebene kann wie folgt berechnet werden:

improve short term memory

wobei λl, i und λ0l, i lernbare Parameter sind. Das Modell entkoppelt außerdem die Berechnung der Interaktionen zwischen Eingabe-Tokens von der Berechnung der Klasseneinbettung, die alle globalen Informationen aggregiert. Dies geschieht mit Klassenaufmerksamkeit, die das CLS-Token in die Eingabesequenz einführt, nachdem die Interaktionen erhalten wurden, und alle anderen Token einfriert. Für den CaiT-Encoder haben wir die gleiche Konfiguration wie in ViT verwendet, aber für den CLS-Encoder haben wir eine Tiefe von 2 Schichten verwendet.

Token2Token ViT Die Token2Token-Architektur [28] enthält einen progressiven Tokenisierungsprozess, der die lokale Struktur eines Bildes durch die Kombination benachbarter Token modelliert. Der Tokenisierungsprozess erstellt zunächst mithilfe des Reshape-Moduls eine bildähnliche Struktur aus einer Eingabesequenz von Token. Anschließend wird das Bild über das Soft Split (SS)-Modul in überlappende Token-Patches aufgeteilt. Die resultierende Ausgabe des Tokenisierungsmoduls wird wie folgt berechnet:

increase memory

Für Token2Token haben wir zwei Ebenen mit Patchgrößen von {2, 8} und {2, 4} für die erste Ebene und {4, 16} für die zweite Ebene verwendet.

Twins-SVT Die Twins-SVT-Architektur [27] ersetzt den klassischen Selbstaufmerksamkeitsblock durch ein Modul namens räumlich trennbare Selbstaufmerksamkeit (SA), das die Operation annähert. SSSA besteht aus einer lokal gruppierten Selbstaufmerksamkeit (LSA), die die berechnet Interaktion nur zwischen Token innerhalb desselben lokalen Fensters und der globalen unterabgetasteten Aufmerksamkeit (GSA), die globale Informationen aggregiert, indem sie Selbstaufmerksamkeit zwischen allen Vertretern jedes lokalen Fensters durchführt, die durch Faltung der benachbarten Token berechnet wird. Die Operationen der aTwins-Ebene können wie folgt geschrieben werden:

ways to improve brain function

Für den CrossFormer-Encoder haben wir die Dimensionen {16, 32, 64, 128} für die Ebenen, globale Fenstergrößen von {4, 2, 2, 1}, lokale Fenstergrößen von 2, Kreuzeinbettungsschritte von 2 und Cross verwendet -Einbettung von Kernelgrößen von {{2, 4, 8, 16}, {2, 4}, {2, 4}, {2, 4}}.

3.2. Datenvorverarbeitung

Für DenseGait- und GREW-Datensätze verwenden wir das gleiche Vorverarbeitungsverfahren. Für jede extrahierte und verfolgte Skelettsequenz, die 18 Gelenke mit x- und y-Koordinaten und einem zusätzlichen Konfidenzwert enthält, normalisieren wir zunächst die Sequenz, indem wir sie auf die Beckenkoordinaten (Becken, Becken) zentrieren. und durch horizontale und vertikale Skalierung entsprechend den Proportionen des menschlichen Körpers (dh der Abstand zwischen den Schultern: |xR.schulter − xL.schulter| und der Abstand vom Hals zum Becken: |yneck − ypelvis|). Für jede Koordinate (Gelenk, Gelenk) jedes der 18 Gelenke im COCO-Pose-Format wenden wir das folgende Normalisierungsverfahren an:

improve your memory

Durch den Normalisierungsprozess werden Unterschiede zwischen Kameraauflösungen und der Entfernung des Motivs von der Kamera eliminiert. Darüber hinaus eliminieren wir Erscheinungsinformationen zur Höhe und Breite eines Motivs, die nicht zu Bewegungsinformationen gehören. Dieser Schritt ähnelt dem Ausrichtungsschritt in modernen Gesichtserkennungsmodellen [42]. Darüber hinaus verwenden wir zu Beginn jedes Modells eine Stapelnormalisierungsschicht [43], um das resultierende Bild weiter zu normalisieren.

Angesichts der zeitlichen Dimension T (d. h. der Anzahl der Bilder) und der räumlichen Dimension des Skeletts J (d. h. der Anzahl der Gelenke) werden naive Skelettsequenzen als Bilder der Form (T, J, 3) codiert, wobei in unserem Fall T {{ 1}} und J=18.

improve memory

Die meisten Vision-Transformer gehen jedoch davon aus, dass die Bilder quadratisch sind. Daher schlagen wir mehrere Varianten der Größenänderung der räumlichen Dimension vor, sodass das Bild in (T, T, 3) transformiert wird, was einer künstlichen Erhöhung der Anzahl der Gelenke entspricht (siehe Abbildung 2).

improving brain function


For more information:1950477648nn@gmail.com


Das könnte dir auch gefallen