What are Long Short-Term Memory (LSTM) algorithms?

Uzoq qisqa muddatli xotira (LSTM) algoritmlari o'ziga xos takroriy neyron tarmoq (RNN) turi bo'lib, ular ketma-ket ma'lumotlardagi uzoq muddatli vaqtinchalik bog'liqliklarni modellashtirishdagi an'anaviy RNNlarning cheklovlarini bartaraf etish uchun mo'ljallangan. An'anaviy RNNlar, ayniqsa uzoq ketma-ketliklarda, gradientning yo'qolishi yoki portlashi muammolaridan aziyat chekadi, bu esa ularga vaqt o'tishi bilan muhim ma'lumotlarni eslab qolishni qiyinlashtiradi.

LSTMlarning ichki kirish mexanizmlari an'anaviy RNNlarga nisbatan qanday samaraliroq?

LSTMlar bu muammolarni "kataklar" deb nomlangan ichki kirish mexanizmlari orqali hal qiladi. Har bir LSTM katagi quyidagi to'rtta asosiy "eshik" dan iborat bo'lib, ular ma'lumot oqimini tartibga soladi va uzoq muddatli xotirani saqlashga imkon beradi:

1. Unutish eshigi (Forget Gate)- Bu eshik katak xotirasidan qanday ma'lumotlarni unutish kerakligini hal qiladi. U oldingi yashirin holat (ht−1) va joriy kirish (xt) ni qabul qiladi va sigmoid funksiyasi orqali 0 dan 1 gacha qiymat chiqaradi. 0 qiymati butunlay unutishni, 1 qiymati esa to'liq saqlab qolishni anglatadi. Bu mexanizm modelga keraksiz yoki eskirgan ma'lumotlarni o'chirib tashlash imkonini beradi. ft=σ(Wf⋅[ht−1,xt]+bf)

2. Kirish eshigi (Input Gate)- Bu eshik katak xotirasiga qanday yangi ma'lumotlarni saqlash kerakligini aniqlaydi. U ikki qismdan iborat:

o Sigmoid qatlam: Kirish qiymatlarini yangilash kerakligini hal qiladi (it).

o Tanh qatlam- Yangi nomzod qiymatlarni yaratadi, bu katakka qo'shilishi mumkin bo'lgan yangi ma'lumotlarning vektoridir (C~t). it=σ(Wi⋅[ht−1,xt]+bi) C~t=tanh(WC⋅[ht−1,xt]+bC)

3. Hujayra holatini yangilash (Cell State Update)- Bu eng muhim qadam bo'lib, unda oldingi hujayra holati (Ct−1) unutish eshigi tomonidan unutilgan ma'lumotlarni yo'qotadi va kirish eshigi tomonidan tanlangan yangi ma'lumotlarni qo'shadi. Ct=ft⋅Ct−1+it⋅C~t Bu doimiy ma'lumot oqimining "konveyer lenti" dir, bu esa ma'lumotlarning uzoq vaqt davomida o'zgarishsiz o'tishini ta'minlaydi.

4. Chiqish eshigi (Output Gate)- Bu eshik joriy kirish va yangilangan katak holati asosida qanday qiymatlarni chiqarish kerakligini hal qiladi.

o Sigmoid qatlam-Chiqishni tanlaydi (ot).

o Tanh qatlam-Yangilangan katak holati (Ct) dan o'tkaziladi va chiqish eshigi tomonidan tanlangan qiymatlar bilan ko'paytiriladi. ot=σ(Wo⋅[ht−1,xt]+bo) ht=ot⋅tanh(Ct) Bu natijada yashirin holat (ht) bo'lib, u keyingi vaqt qadamiga uzatiladi.

An'anaviy RNNlarga nisbatan afzalliklari

· Gradientning yo'qolishi / portlashining oldini olish-LSTM hujayra holatining mavjudligi tufayli gradientning yo'qolishiga kamroq moyil bo'ladi. Hujayra holati gradientning ko'payishiga imkon beruvchi chiziqli o'tishni saqlaydi, bu esa uzoq vaqtga bog'liqlikni o'rganishda juda muhimdir.

· Uzoq muddatli bog'liqliklarni modellashtirish- Eshik mexanizmlari modelga ma'lumotlarni uzoq vaqt davomida tanlab saqlab qolish va unutish imkonini beradi. Bu, an'anaviy RNNlardan farqli o'laroq, ketma-ketlikning boshida paydo bo'lgan muhim ma'lumotlarni ketma-ketlik oxiriga qadar eslab qolishga imkon beradi.

· Ma'lumot oqimini nazorat qilish- Eshiklar ma'lumotlarning qaysi qismlari saqlanishi, yangilanishi va chiqarilishini aniq nazorat qilish imkonini beradi, bu esa modelning murakkab ketma-ketliklar bilan ishlash qobiliyatini oshiradi.

Xulosa qilib aytganda, LSTM algoritmlari an'anaviy RNNlarning uzoq muddatli bog'liqliklarni modellashtirishdagi zaif tomonlarini hal qiladi. Ularning eshikka asoslangan ichki kirish mexanizmlari modelga vaqt o'tishi bilan muhim ma'lumotlarni tanlab saqlab qolish va unutish imkonini beradi, bu esa ularni nutqni tanish, mashina tarjimasi va vaqt qatorlarini bashorat qilish kabi ketma-ket ma'lumotlar bilan bog'liq vazifalar uchun juda samarali qiladi.

Stéphane Breton

The LSTM cell is rationalized from the canonical RNN cell by introducing changes that make the system more robust and versatile (avoiding in particular the vanishing gradients problem). Refer to:

A. Sherstinsky, "Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network", 2023 -
Preprint Fundamentals of Recurrent Neural Network (RNN) and Long Shor...

To better understand the fundamental principles governing the dynamics of recurrent networks, familiarize yourself with the mechanisms of short- and long-term memory. Refer to:

S. Haykin, "Neural Networks and Learning Machines" - 2009
Mienye et al., "Recurrent Neural Networks: A Comprehensive Review of Architectures, Variants, and Applications", 2024 - https://www.mdpi.com/2078-2489/15/9/517

Co-creator of LSTMs, Sepp Hochreiter et al. revisited Hopfield networks. In a paper titled ‘Hopfield networks Is All You Need’, Hochreiter et al. made Hopfield networks interchangeable with both state-of-the-art transformer models and LSTMs.

Liu et al. analyzed the hidden state structure similarities common to both HMMs and LSTMs. They compared the LSTM's predictive accuracy and hidden state output with respect to the HMM for a varying number of hidden states. They justified that the less complex HMM can serve as an appropriate approximation of the LSTM model. Refer to:

Liu et al., "Comparing the Performance of the LSTM and HMM Language Models via Structural Similarity", 2019 - https://deepai.org/publication/comparing-the-performance-of-the-lstm-and-hmm-language-models-via-structural-similarity

How can novel network architectures, such as software-defined networking (SDN) and network function virtualization (NFV), in Handover?

Will SDN/NFV improve handover performance and latency?

In a 5G network utilizing power-domain NOMA, how does the receiver's ability to perform Successive Interference Cancellation (SIC)?

How can power control mechanisms in NOMA for 5G be designed to address challenges like near-far effect and ensure reliable communication?

How does power allocation strategy in NOMA for 5G networks?

What is the role of cloud computing in artificial intelligence (AI)?

What is cloud migration and how does it work?

What are the different cloud delivery models (SaaS, PaaS, IaaS)?

What does mean the (Low Power Wide Area (LPWA) technologies) in CIOTs?

What does mean the (EC-GSM-IoT, LTE-M (LTE for machines) and NB-IoT (Narrowband IoT) In CIOTs?

In the case of a wound l recurrence after radical breast cancer and sentinel lymph node biopsy. Are the sentinel lymph node procedure recommended?

Please, what is the memory consumption of the Matlab function quad tree decomposition procedure [S = qtdecomp(I)] with respect to the input set I?

Which software tools are best for enhancing diagnostic accuracy in chest X-ray imaging using image reconstruction and neural networks?

How are clinical and environmental yeast/fungal strains stored usually in mycology laboratories?

How can I extract the mathematical equation from existing Neural Network Model?

This is my new article?

How to maintain intestinal tissue resident cells (TRM) in culture?

What is the current status of augmented learning in robotic surgery?

What do you know about colors memory?

How can I improve the purity of NPC cultures derived from human iPSCs during neural rosette selection?