Neyron tarmoq arxitekturasi va o‘qitish jarayoni (shu yerga neyron tarmoqni sxemasini qatlamli qilib qo’yaman)
Biz konvolyutsion neyron tarmoqlarning bir nechta arxitekturasini ko‘rib chiqamiz va ularni taqqoslaymiz.
CNN-M arxitekturasi
Biz [91] dan CNN-M arxitekturasiga asoslangan [90] da foydalanilgan arxitekturadan boshladik va asosiy chiziq sifatida ushbu arxitektura asosidagi modeldan foydalandik. Biz qilgan yagona modifikatsiya dastlab ishlatilgan Local Response Normalization (LRN) [93] oʻrniga Batch Normalization (BatchNorm) qatlamidan [92] foydalanishdir. Ko‘pgina tadqiqotlarga ko‘ra, to‘plamni normallashtirish har bir qatlamni biroz mustaqil ravishda o‘rgatish imkonini beradi, bu biz tarmoqdan yashirin tasvirlarni olib tashlashda juda foydali. Bundan tashqari, ushbu normalizatsiya faollashuvlarning cheksiz o‘sishiga to‘sqinlik qiladi, bu esa o‘rganish tezligini oshirishga imkon beradi. Va nihoyat, u tartibga solish sifatida ishlaydi va modelning haddan tashqari o‘rnatilishini kamaytiradi, bu esa nisbatan kichik miqdordagi o‘quv ma’lumotlari tufayli juda foydali. Shunday qilib, BatchNorm o‘qitishning katta tezlashishi va yaxshilanishini ko‘rsatdi va tarmoqni o‘qitishda asosiy normalizatsiya usuli sifatida tanlandi.
Birinchi to‘rtta ustun konvolyutsion qatlamlarga mos keladi. Ular yadro hajmi (birinchi qator), chiqish kanallari soni (ikkinchi qator), konvolyutsiyadan keyingi qo‘shimcha o‘zgarishlarning mavjudligi, masalan, normallashtirish, qadam yoki birlashtirish (uchinchi va to‘rtinchi qatorlar) va faollashtirish bilan belgilanadi. funktsiya (oxirgi qatlam). Birinchisida 7 × 7 o‘lchamdagi 96 ta filtr, undan keyin BatchNorm va 2 × 2 MaxPooling qatlami mavjud. Ikkinchi konvolyutsiya 5 × 5 va 2 × 2 o‘lchamli qadam va birlashtiruvchi 192 filtrdan iborat. Keyin uchinchi qatlam 3 × 3 o‘lchamdagi 512 yadro va bir xil qadam va birlashtirish parametrlari bilan birga keladi. Tarmoqning konvolyutsion qismi C4 qatlami bilan tugaydi, u 2 × 2 o‘lchamdagi 4096 filtrdan iborat bo‘lib, o‘lchamlarni yanada kamaytirmaydi. Ushbu blokdan so‘ng uchta to‘liq bog’langan qatlam qo‘llaniladi. Beshinchi va oltinchi qatlamlar mos ravishda 4096 va 2048 birlikdan iborat bo‘lib, ularning ikkalasidan keyin parametr = 0,5 bo‘lgan tushirish [94] qatlamlari keladi. Birinchi olti qatlamdan so‘ng rektifikatsiyalangan chiziqli birliklar (ReLU) faollashadi. Oxirgisi - prognozli qatlam bo‘lib, birliklar soni o‘quv to‘plamidagi mavzular soniga teng va softmax chiziqli emas.
3.1-jadval
Asosiy arxitektura
Bunday arxitektura va oʻzaro entropiyani yoʻqotish funksiyasiga ega model Nesterov Momentum gradient descent usuli bilan oʻrganildi, boshlangʻich oʻrganish tezligi 0,1 ga teng boʻlib, har safar xatolik doimiy boʻlib qolganda 10 martaga kamayadi.
To‘rning o‘lchami unchalik katta bo‘lmasa-da, u to‘rt bosqichda o‘qitilgan.
512 o‘lchamdagi to‘rtinchi, 512 va 256 beshinchi va oltinchi qatlamlardan boshlab, har safar yo‘qotish funksiyasi pasayishni to‘xtatganda, bu qatlamlarning o‘lchamlari ikki baravar oshirildi. Qatlamlarni kengaytirishning ikkita usuli ko‘rib chiqildi: yangi parametrlarning tasodifiy qiymatlarini qo‘shish va ma’lumotlarni bir tarmoqdan ikkinchisiga tez o‘tkazish uchun ishlab chiqilgan net2net usuli [95]. Oxirgi yondashuv haqiqatan ham hech qanday ma’lumotni yo‘qotmaydi va tarmoqni kengaytirishdan oldin va undan keyin tekshirish sifati bir xil bo‘ladi. Biroq, ma’lum bo‘lishicha, oldingi o‘quv bosqichlarida olingan ma’lumotlarning bunday saqlanishi ortiqcha moslamani oshiradi va sinov sifatini yomonlashtiradi va tasodifiy ishga tushirilgan yangi og’irliklarni qo‘shganda, tasodifiy komponent tartibga solish sifatida ishlaydi va tasniflash aniqligini yaxshilaydi. Glorot [96] vaznni bir xil taqsimlash bilan ishga tushirish yangi og’irliklar namunalarini olish uchun tanlandi va mashg’ulot paytida model ichiga shovqin qo‘shishning ijobiy ta’sirini tasdiqladi. Aniqroq qilib aytganda, 𝐿 kengaytirilishi kerak bo‘lgan zich qatlam bo‘lsin. Uning boshlang’ich o‘lchami va 2 talab qilinadigan o‘lcham bo‘lsin. Keyin uchta tarmoq parametrini o‘zgartirish kerak: og’irlik matritsasi 𝑊(−1)→() va 𝐿−1 va 𝐿 qatlamlari orasidagi egilish 𝑏(−1)→() va vazn matritsasi 𝑊()→(+1) orasidagi 𝐿 va 𝐿+1. Ushbu parametrlarning har biri o‘zining o‘lchamlarini ikki barobarga oshiradi, shuning uchun bir xil shakldagi tasodifiy matritsa (yoki vektor) Glorot Uniform taqsimotidan tanlanadi va keyin oldindan tayyorlangan matritsa bilan birlashtiriladi. Ushbu qatlamlar to‘liq ulanganligi sababli, tasodifiy qiymatlar bilan yangi o‘lchamlarni qo‘shish qatlamlar chiqishiga biroz shovqin qo‘shadi, lekin bu qiymatlar nolga teng taqsimlanganligi sababli shovqin etarlicha kichik bo‘lib chiqadi va mashg’ulotni tartibga soladi.