HP predikati bir xillik predikatidir (ya'ni, segmentatsiya operatori E2 amalga oshiriladi), shuning uchun
(2.35)
(2.36)
bu yerda λр - oldingi qismning p-chi qismining belgisi.
Segmentatsiyalashning eng oddiy usuli - chegaralash, ya’ni
(2.37)
bu yerda T(i,j) - chegara qiymati bo‘lib, u tasvirning har bir nuqtasida o‘zgarishi mumkin. Chegara usulidan foydalanish berilgan Sp uchun I(xi yj) unimodallik gipotezasi amalga oshirilgan holatlar bilan chegaralanadi, bu esa ushbu usulni faqat eng oddiy hollarda qo‘llash imkonini beradi.
Shuningdek, chegarani aniqlashga asoslangan yanada samarali segmentatsiya usullari mavjud, ya'ni konturlar, ularning asosi fazoviy differentsiatsiya, shuningdek, funktsional yaqinlashuv bo'lib, ular uchun predmet sohasida tegishli kontur modelini tanlash osonroq bo'lib, keyinchalik harakatlanuvchi modellarning traektoriyalarini kuzatish uchun foydalaniladi (ET, EP, Eet, uchun operator tenglamalari, ifoda (2.5))
Fazoviy farqlash usuli, xususan, chegara piksellari I(xi, yj,) funksiyaning katta gradientiga ega degan taxminga asoslanadi, ya'ni segmentatsiya ikki bosqichda amalga oshiriladi: birinchi I(xi, yj,) gradientining moduli hisoblab chiqiladi, so‘ngra chegara qo‘yish protsedurasi amalga oshiriladi. Bunday holda, yurgan odamning konturining tanlangan modeli shablonini qoplash orqali segmentatsiyani amalga oshirish mumkin, ya'ni o'zaro bog‘liq bo'lgan segmentlar quriladi, odamning shakli va hajmining koeffitsientlari va ishchi lug‘atga kiritilishi mumkin bo'lgan boshqa xususiyatlar hisoblanadi. Bunda gradient moduli quyidagicha hisoblanadi[1]:
. (2.38)
Amalda, oldingi planning segmentatsiyasini birlashtirgan protseduralar, umuman olganda, odamlarning konturlarini tanlashni ham amalga oshiradi [2, 16, 27, 30, 62]. Ularni amalga oshiradigan protseduralar va algoritmlar, aslida, sahnaning oldingi qismini soddalashtirishni nazarda tutadi: murakkab ob’yekt (odam) kontur chizmasi sifatida ko‘rsatiladi, bu esa yurishning o’ziga xos xususiyatlarini tavsiflaydigan asosiy va qo’shimcha informativ belgilarni saqlab qolish sharti bilan hisoblashlarni soddalashtirish imkonini beradi. Shu qatorda fazo va vaqtga nisbatan odamlar harakatini tanib olish, identifikatsiyalash va pragnozlashning natijaviy bosqichlarini bajarish uchun zaruriy va yetarli ma’lumotlarni olish mumkin bo’ladi.
Fazo-vaqt funksiyasi yetarlicha tuzilganligi sababli, uni bir nechta parametrlardan foydalangan holda aprior ma’lumotlardan olingan bir nechta shablonlar bilan birinchi yaqinlashtirishga bog‘lash mumkin: U amplituda, Tp davr va nishab, L va T standart parametrlariga qo‘shimcha ravishda (so‘z bilan ishlash uchun to‘g‘ridan-to‘g‘ri xususiyatlar). Shablon modeli ma’lum usul bilan tasvirlanishi mumkin, masalan, 2.4-rasmda ko‘rsatilganidek.
2.4-rasm. Trayektoriya va yurishning to‘g‘ridan-to‘g‘ri (asosiy) belgilarini kuzatish submodeli uchun shablon
Bu yerda d(U) amplitudalarining diapazoni qadam uzunligiga ya’ni, d(U)=f(T) va harakatlanuvchi ob’ektdan videokameragacha bo’lgan masofasiga bog‘liq, Tp davri odamning harakat tezligiga, qadam uzunligiga va tana qismlariga bog‘liq bo‘lib, masalan, 2.5-rasmda ko‘rsatilganidek skelet modeli bilan ifodalanishi mumkin.
2.5-rasm. Yurayotgan odamning skelet modelini shakllantirish
Videotasvirning oldingi qismini shakllantirishda, fon olib tashlagangandan so‘ng, uning ba’zi joylarida fondagi kichik o‘zgarishlardan kelib chiqadigan dog‘lar ko‘rinishidagi interferensiya kadrda qoladi. Ushbu qo‘shimchalarning o‘lchamlari qiziqtiradigan harakatlanuvchi ob’yektlarning o‘lchamlari bilan solishtirganda ahamiyatsiz, shuning uchun odamlarning konturlarini tanlashda filtrlash uchun eroziya va sahnani tiklash uchun kengayish kabi morfologik operatsiyalardan foydalanish qulaydir [5]. Ya’ni,
, (2.39)
bu yerda Btik- qayta tiklangan video.
(2.5) da ko‘rsatilgan operatsiyalar quyidagicha amalga oshiriladi:
- ikkilik tasvir B ga nisbatan m-bog‘langan (masalan, 8-bog‘langan) element (primitiv) C8 ta’siri qo’llaniladi, ya’ni, shovqinlarni filtrlash operatsiyasi amalga oshiriladi;
- tasvirni tiklash jarayoni bir xil konstruktiv element C8 (yoki Cm) ni qayta qo‘llash orqali amalga oshiriladi, natijalar 2.6-rasmda ko‘rsatilgan.
a) b)
2.6-rasm. a) eroziya natijasi, b) kengayish natijasi.
Keyinchalik, tasvirni tiklagandan so‘ng, konturlash operatsiyasi amalga oshiriladi:
, (2.40)
bu yerda - kontur tasviri.
(2.6) operatsiyasi uchun tasvir eroziyasi, masalan, 4-bog‘langan konstruktiv element C4 tuzulmaviy element yordamida amalga oshiriladi. Shu tarzda olingan eroziyalangan tasvir qayta tiklangan Btik dan chiqariladi. Ta’riflangan algoritmning bajarilishi natijasida qora fonda ob’ektning oq konturi ajratib ko‘rsatiladi. Ob’yekt segmentatsiyasini davom ettirish qulayligi uchun olingan tasvirni (2.7 a-rasm) teskari aylantirish mumkin (oq fonda qora konturni olinadi, 2.7 b-rasm).
b)
2.7-rasm. a) hosil bo‘lgan kontur, b) teskari tasvir.
Shunday qilib, tanlangan ob’yektlarning (yuruvchi odamlarning) kontur ko‘rinishida tasvirlanishi tahlil qilinadigan tasvirni soddalashtirish va uni keyingi o‘zgartirish paytida hisoblash murakkabligini kamaytirishga imkon beradi. Xususan, segmentatsiya protsedurasini bajarishda va informatsion xususiyatlarni olishda videoketma-ketlikda konturlarni tanlash mumkin.
Ammo shaxs harakatlarini identifikatsiya qilish tizimlarida inson tanasining a’zolari (qo’l, oyoq, tirsak, bilak, yelka, to’piq, bo’yin va h.k) harakatini hisobga olmasdan, inson xarakteri, xulq-atvori, harakat trayektoriyasi, jinsi va sog‘lomligini aniqlash kabi vazifalarni yechib bo’lmaydi. Shu sababdan dissertasiyaning keyingi bo’limlarida tadqiqotlar skelet pozasini shakllantirish va baholash bilan bog’liq uslubiyatlardan foydalanishga bag’ishlangan.
2.3-§. Skelet pozasini baholash asosida insonlarning xatti-harakatlarini aniqlash tizimi
Inson harakatini tanib olish kompyuterli ko‘rish sohasida ko’plab tadqiqotlar olib borishni talab etmoqda. Ular ichida skeletning holatini baholash va shaxsni aniqlashga asoslangan odamlarning xatti-harakatlarini aniqlash tizimini tashkil etish ko’plab vazifalar yechimini topishga asos bo’lib kelmoqda.
Masalan, kameradan olingan ketma-ket kadrlar taklif qilingan tizimning kirish tasvirlari sifatida ishlatiladi. Keyinchalik, OpenPose ramkasi yordamida skelet ma’lumotlari to‘planadi. Skelet ma’lumotlaridagi noto‘g‘ri ulanishlarni kamaytirish uchun pozani baholash va odamni aniqlash usullariga asoslangan xatolarni tuzatish sxemasini ishlab chiqish ehtiyoji paydo bo‘ladi. Bu esa oldindan ishlangan skelet ma’lumotlari keyinchalik xatti-harakatlar tasnifiga zaif ta’sir ko‘rsatadigan bir nechta bo‘g‘inlarni yo‘q qilish uchun ishlatilishiga olib keladi.
Shuningdek, inson pozasini ifodalovchi xususiyat vektorlarini yaratish uchun xususiyatlarni ajratib olishni amalga oshirish talab etiladi. Qabul qilingan xususiyatlar normallashtirilgan qo‘shma joylarni, qo‘shma masofalarni va suyak burchaklarini o‘z ichiga oladi [1].
Ushbu sohadagi ko‘plab tadqiqot ishlariga qaramay, harakatni tanib olishda ko‘plab muammolar hal etilmagan. Ko‘rinishning o‘zgarishi, okklyuzion, sub’yektlarning tana hajmining o‘zgarishi, harakatlarning fazoviy-vaqtincha lokalizatsiyasi, sinflararo va sinf ichidagi o‘zgaruvchanlik va boshqalar shular jumlasidandir [5]. Xona muhitida odamlarning xatti-harakatlari qayd etilishi va odamlarning munosabatini baholash uchun tahlil qilinishi mumkin.
Biroq, tadqiqotlarning aksariyati odamlarning qo‘l ko‘tarish imo-ishoralari, esnash harakati kabi odamlarning o‘ziga xos harakatlariga qaratilgan [6]. Shuning uchun odamlarning xatti-harakatlarini to‘g‘ri tanib oladigan samarali tizim talab qilinadi.
Videolarda inson pozalarining skelet ma’lumotlari tasviri harakatni aniqlashning mashhur usullaridan biri hisoblanadi [15]. Ushbu jarayonda asosiy vazifa skelet ma’lumotlarini, shu jumladan bo‘g‘inlarning batafsil joylashishini aniqlashdir, biroq, bu tadqiqotlar odatda Microsoft Kinect sensori tomonidan olingan RGB tasvirlarini o‘zlarining harakatlarini aniqlash tizimlarining kirish tasvirlari sifatida ishlatadi [20]. Xonada kirish kamerasini almashtirish tufayli yuqorida aytib o‘tilgan usulni keng qo‘llashda ko‘plab qiyinchiliklar paydo bo‘ladi. Ushbu muammoni hal qilish uchun OpenPose ramkasi ikki o‘lchovli (2D) inson pozalarini baholash uchun ishlatiladi, ammo, bu yondashuvning kamchiligi odam gavjum joylarda pozani baholashda noto‘g‘ri ulanishlar yuzaga kelishi bilan nomoyon bo’ladi [22].
Shu sababli, pozani baholash va shaxsni aniqlashga asoslangan odamlarning xatti-harakatlarini aniqlash tizimini taklif qiladi. Ushbu tizimning kirish tasvirlari kirish eshiklariga o’rnatilgan kamerasidan olingan ketma-ket kadrlar uchun uchta asosiy ishlov berish ya’ni skelet ma’lumotlarini yig‘ish va oldindan qayta ishlash, xususiyatlarni ajratib olish va xatti-harakatlarning tasnifi kabi bosqichlari amalga oshiriladi. Birinchidan, skelet ma’lumotlari yig‘iladi va oldindan qayta ishlanadi. Skelet ma’lumotlaridagi noto‘g‘ri ulanishlarni kamaytirish uchun pozani baholash va odamni aniqlash usullariga asoslangan xatolarni tuzatish sxemasi taklif qilinadi. Bundan tashqari, skelet ma’lumotlaridagi bir nechta bo‘g‘inlar olib tashlandi, chunki ular xatti-harakatlar tasnifiga zaif ta’sir ko‘rsatadi. Ikkinchidan, inson pozasini ifodalovchi xususiyat vektorlarini yaratish uchun xususiyatlarni ajratib olish amalga oshiriladi, bunda qabul qilingan xususiyatlar normallashtirilgan qo‘shma joylarni, qo‘shma masofalarni va suyak burchaklarini o‘z ichiga oladi va nihoyat, odamlarning xatti-harakatlarini aniqlash uchun xatti-harakatlar tasnifi o‘tkaziladi. Harakatlarni tasniflash uchun chuqur neyron tarmog‘i quriish ushbu jarayonni bajarishda kata samara beradi. Bundan tashqari, taklif etilayotgan tizim odam gavjum joydagi odamlar sonini ham aniqlashga imkon beradi.
Yuqoridagilarni inobatga olib skelet pozasini baholashni amalga oshirishda kompyuterli ko’rishga asoslangan shaxsni identifikatsiyalash tizimlarining asosiy vazifalar quyidagilardan iborat:
• odam gavjum joylar uchun odamlarning xatti-harakatlarini aniqlash usullarini ishlab chiqish;
• pozani baholash va shaxsni aniqlash usullarini birlashtirgan yangi xatolarni tuzatish ya’ni skelet ma’lumotlaridagi noto‘g‘ri ulanishlarni kamaytirish uslubiyatini taklif qilish;
• taklif etilayotgan sxemada va tizimning maqsadga muvofiqligi va samaradorligi baholash.
Odam gavjum joylarda yoki xonalarda xulq-atvorni aniqlashda qo‘lni ko‘tarish imo-ishorasi odamlar tomonidan joylarda qo‘llaniladigan eng asosiy shovqin usulidir; shuning uchun ko‘plab tadqiqotlar ushbu harakatni aniqlashga qaratilgan [8]. Qo‘l ko‘tarish imo-ishoralarini aniqlash uchun hududga asoslangan to‘liq konvolyutsion tarmoqni taklif qilish o’rinlidir [21]. Past aniqlikdagi qoʻlni koʻtarish imo-ishoralarini aniqlashni yaxshilash uchun ularning model arxitekturasiga xususiyat piramidasi kiritilishi qoʻl koʻtarish imo-ishoralarini tanib olish algoritmini ishlab chiqishga imkon beradi [9]. Tanib olishshning ushbu yondashuvi uchta vazifani, ya’ni qo‘lni ko‘tarishni aniqlash, pozani baholash va evristik moslashtirishni o‘z ichiga oladi. Bundan tashqari, u murakkab sahnalar bilan bog‘liq ikkita past piksellar soni va harakat buzilishi kabi asosiy muammoni samarali hal qiladi.
Mavjud tadqiqotlarda qo‘l ko‘tarish imo-ishoralarini aniqlash uchun ikki bosqichni, ya’ni pozani baholash va qo‘l imo-ishoralarini aniqlashni o‘z ichiga olgan usul ham taklif qilingan [7]. Yuqorida aytib o‘tilgan tadqiqotda qo‘llarning, jumladan, qo‘llarni ko‘tarish imo-ishoralarini aniqlashning asosiy xususiyatlari bo‘lgan yelkalar, tirsaklar va bilaklarning xususiyatlari tahlil qilinib, qo‘l ko‘tarish imo-ishoralarini aniqlashning yengil va samarali usuli taqdim etilgan [6]. Ular teri rangi segmentatsiyasi va Gauss filtrlash usullaridan foydalangan holda qo‘lning chekka tuzilmalarini tahlil qiladi.
Shuningdek, odamlarning turish, uxlash va esnash kabi boshqa turli xatti-harakatlarini, uyqu imo-ishoralarini aniqlash usuli taqdim etilgan [10]. Tadqiqotchilar o‘zlarining model arxitekturasiga xususiyat piramidasini kiritdilar va past aniqlikdagi imo-ishoralarni aniqlash uchun mahalliy ko‘p miqyosli sinov algoritmidan foydalanildi. Odam gavjum joylarda odamlarning esnash imo-ishoralarini aniqlash usuli taklif qilinib, o‘zlarining model arxitekturasiga xususiyat piramidasini birlashtirgan va noto‘g‘ri aniqlashni kamaytirish uchun og‘iz moslamasidan foydalanilgan. Olomon holatida odamlarning bir nechta xatti-harakatlarini, jumladan qoʻl koʻtarish, turish va uxlash kabilarni aniqlash uchun GestureDet nomli detektor taklif qilingan [13]. GestureDet detektori yengil va Nvidia Jetson TX2 kabi o‘rnatilgan qurilmalarda samarali ishlashi mumkin. Odam gavjum joylardagi odamlar xatti-harakatlarini tahlil qilish uchun aqlli tizimi taqdim etilgan [14]. Ushbu tizim odamlarning uchta xatti-harakatini aniqlay oladi: qo‘l ko‘tarish, turish va uxlash. Vaqtli sohaga asoslangan konvolyutsion neyron tarmog‘i (R-CNN) modeli takomillashtirildi va yuqorida aytib o‘tilgan tadqiqotda qo‘llanilgan va turli o‘lchamdagi ob’yektlarni aniqlash uchun masshtabdan boshlang‘ich aniqlikni ishlab chiqadi. Xonalarda odamlarning xatti-harakatlarini aniqlash va tahlil qilish uchun xatti-harakatlarni o‘lchash tizimi ham ishlab chiqilgan [12]. Bu tizim odamlarning qo‘l ko‘tarish, turish, o‘tirish, uxlash va shivirlash kabi bir qancha xatti-harakatlarini aniqlay oladi. Yuqorida qayd etilgan tizim uchun kiritilgan tasvirlarni yig‘ish uchun Microsoft Kinect qurilmalari ishlatish maqsadga muvofiqdir.
Inson pozasini aniqlashda ikki turdagi 3D va 2D skelet ma’lumotlari mavjud [25]. Mazkur tadqiqotda tasvir sensori ma’lumotlaridan foydalangan holda inson pozasini baholash uchun yangi yondashuvni ishlab chiqish talab etiladi. Taklif etilayaotgan usulda konvolyutsion poza mashinalarini (CPM) GoogLeNet bilan birlashtiradi va CPMlarning birinchi bosqichi to‘g‘ridan-to‘g‘ri tasvirlardan har bir inson skeletining asosiy nuqtalarining javob xaritasini yaratadi. Tasvirdagi bir nechta odamning 2D pozasini aniqlash uchun real vaqtda OpenPose yondashuvini taqdim etadi. Ushbu usul tana qismlarini tasvirdagi shaxslar bilan bog‘lashni o‘rganish uchun Part Affinity Fields (PAFs) deb nomlangan parametrik bo‘lmagan tasvirdan foydalanadi [26]. Ko‘pchilik holatida shaxs pozalarini baholash uchun yangi differensial ierarxik grafik guruhlash usuli taklif qilinadi. Bu usul pastdan yuqoriga ko‘p shaxs joylashuvini baholash vazifasida grafiklarni guruhlashni o‘rganishi mumkin. Gavjum sahnalarda ko‘p odam pozasini baholash uchun yangi munosabatlarga asoslangan skelet grafik tarmog‘ini (RSGNet) taqdim etildi [27]. Shuningdek inson pozani aniq baholash uchun bo‘g‘inlar xulosasi paytida inson tanasi tuzilishini cheklash uchun skelet grafik mashinasini taqdim etildi.
3D skelet ma’lumotlarini to‘plash uchun chuqur RGB tasvirlar Microsoft Kinect sensori tomonidan olinadi. Bu usul insonning 3D pozasini baholash uchun eng mashhur usullardan biridir [16]. Usul bir nechta kamera ko‘rinishidagi 2D tasvirni aniqlashni 3D tasvirlarga aylantiradi [28–30]. Ko‘p ko‘rinishdagi kameralar yordamida insonning 3D pozasini aniqlash yondashuvini taklif qilish orqali ushbu usul har bir tasvirda 2D bo‘g‘inlarni olish uchun OpenPose ramkasidan foydalanadi va inson semantikasini segmentlash uchun Mask R-CNN ni birlashtiradi [31]. Keyin ko‘p ko‘rinishdagi 2D bo‘g‘inlaridan qo‘shma semantik ma’nolar bo‘yicha to‘g‘ri 3D pozasini tanlash uchun yig‘ish usuli taklif qilinadi. Slembrouck tomonidan 3D inson pozasini baholash uchun taqdim etilgan yangi multiview videoga asoslangan markersiz tizimi bir nechta kamera ko‘rinishidagi 2D skeletlari topilmalarini 3D skeletlariga aylantiradi. OpenPose ramkasi 2D bo‘g‘inlarni olish uchun ishlatiladi.
Skelet ma’lumotlari yordamida harakatni aniqlashda skelet ma’lumotlaridan foydalangan holda inson harakatini aniqlash uchun turli yondashuvlar taklif qilingan [33]. Ushbu yondashuvlarning aksariyati uch o‘lchovli (3D) skelet ma’lumotlaridan foydalanishni o‘z ichiga oladi, shu sababli mazkur tadqiqotda inson harakatini aniqlash uchun 3D skelet ma’lumotlariga asoslangan ramkasi taqdim etildi [5]. Ushbu doiradagi asosiy jarayon pozani baholash va kodlashni o‘z ichiga oladi. Inson faoliyatini tanib olish uchun 3D skelet ma’lumotlariga asoslangan tizim maxsus odamlarni uy sharoitida kuzatish uchun ishlatilishi mumkin. Bunda sosiy pozalarni ajratib olish yo‘li bilan xususiyat vektori yaratiladi va inson faoliyatini tasniflash uchun ko‘p sinfli qo‘llab-quvvatlovchi vektor mashinasi ishlatiladi. Shuningdek, uchta xususiyatga (harakat trayektoriyasi, chuqurlikdagi harakat xaritalari va skelet ma’lumotlari) asoslangan skelet tasvirlari yaratiladi. Bo‘g‘imlarning kichik guruhlaridan fazoviy va vaqtinchalik mahalliy xususiyatlar to‘plami olingan holatda keyinchalik, mahalliy xususiyatlarni bir nechta xususiyat vektorlariga jamlash uchun mahalliy yig‘ilgan deskriptorlar (VLAD) algoritmi vektori va klasterlar pulidan foydalaniladi. Bu doirada har bir harakat fazoviy-vaqt pozalar to‘plami bilan ifodalanadi. Poza deskriptori ikkita bo‘limdan iborat: skelet bo‘g‘imlarining normallashtirilgan koordinatasi va bo‘g‘inlarning vaqtinchalik siljishi.
RGB chuqur tasvirlari 3D skelet ma’lumotlarini yaratish uchun ishlatiladi. Shuning uchun bunday ma’lumotlarga asoslangan tizimlar Microsoft Kinect-dagi kabi maxsus kamerani talab qiladi.
Ushbu yondashuv tasvirdagi asosiy fikrlarni ajratib olish uchun OpenPose ramkasidan foydalanishni o‘z ichiga oladi. Inson harakatini tasniflash uchun yuqorida qayd etilganlar asosida uzun-qisqa muddatli xotira (LSTM) modelini takroriy neyron tarmoq (RNN) modeli bilan birlashtirib, LSTM-RNN modeli ishlab chiqilgan. Shu asosda tizim arxitekturasini shakllantirish uchun modellari ishlab chiqilib, 2.8-rasmda ushbu tadqiqotda foydalanilgan xatti-harakatni aniqlash tizimining umumiy ko‘rinishi ko‘rsatilgan. Rasmda qizil va ko‘k o‘qlar mos ravishda tizimning o‘qitish va sinov jarayonlarini bildiradi. Ushbu tizimning kirish tasvirlari sinf kamerasi tomonidan olingan ketma-ket video ramkalardir. Yuqorida aytib o‘tilgan tizimda uchta asosiy ishlov berish bosqichi amalga oshiriladi: skelet ma’lumotlarini yig‘ish va oldindan qayta ishlash, xususiyatlarni ajratib olish va xatti-harakatlarning tasnifi.
2.8-rasm. LSTM-RNN modeliga asoslangan xatti-harakatni aniqlash tizimi.
Skelet bo’g’imlari haqida ma’lumotlarni yig‘ishda ikkita asosiy jarayon amalga oshiriladi: pozani baholash va shaxsni aniqlash. To‘plangan skelet ma’lumotlari taklif qilingan sxema yordamida tuzatiladi, chunki ushbu sxema pozani baholash va shaxsni aniqlash sxemalarini birlashtirib, xatolarni tuzatish imkonini beradi. Taklif etilgan sxema skelet ma’lumotlaridagi noto‘g‘ri bog‘lanishlarni kamaytiradi. Bunda dastlabki ishlov berilgan skelet ma’lumotlari xatti-harakatlarni sinflashtirish uchun ahamiyatsiz bo‘lgan bo‘g‘inlarni olib tashlash uchun ishlatiladi. Keyingi qadamda belgilar ajratib olinib ular asosida inson pozalarini ifodalovchi belgilar vektorlarini yaratiladi. Vektorlar normallashtirilgan bo‘g‘in joylari, bo‘g‘inlar masofalari va suyak burchaklarini o‘z ichiga oladi. Ushbu uchta belgilar vektorlari yakuniy xususiyat vektorini yaratish uchun birlashtirilib, taklif qilingan tizim bilan bog‘liq o‘qitish va sinov jarayonlarida foydalaniladi. Nihoyat, odamlarning xatti-harakatlarini aniqlash uchun xatti-harakatlar tasnifi o‘tkaziladi. Sinflashtirish modelini o‘rgatish uchun chuqur neyron tarmoq (DNN) ishlab chiqilgan. Ushbu o‘qitilgan model taklif qilingan tizimni sinab ko‘rish uchun ishlatiladi.
Taklif etilayotgan tizim kirish tasvirlari sifatida kamera tomonidan olingan ketma-ket kadrlardan foydalanadi. Bundan tashqari, inson pozasini baholash natijalari 2D skelet ma’lumotlaridir. Shuning uchun taklif qilingan tizimni ishlab chiqish uchun OpenPose ramkasidan foydalanildi. OpenPose tarmoq arxitekturasi 2.9-rasmda tasvirlangan. OpenPose ko‘p bosqichli birlashtirilgan neyron tarmog‘i bo‘lib, ikkita asosiy oqimni o‘z ichiga oladi. Birinchi oqim qismlararo assotsiatsiyasini (Lt) kodlaydigan qismga (PAF) o’xshashligini tasvirlaydigan maydonlarini, ikkinchi oqim esa ishonchlilik jadvallarini (St) bashorat qiladi. Tasvirdagi barcha odamlar uchun 2D kalitli nuqtalarni (bo‘g‘inlarni) ishlab chiqish uchun PAF va ishonchlilik jadvallarini tahlil qilish uchun “greedy inference (ochko‘z xulosa)” algoritmi ishlatiladi. OpenPose 2.10-rasmda ko‘rsatilganidek, COCO chiqish formatiga ko‘ra, har bir inson pozasi uchun 18 ta bo‘g‘imning joylashuvini o‘z ichiga olgan skeletlarni yaratadi [35]. Skelet ma’lumotlari bosh, bo‘yin, qo‘l va oyoqlarning bo‘g‘imlarini qamrab oladi. Har bir qo‘shma joy rasmda x-koordinata va y-koordinata qiymatlari bilan tavsiflanadi. Shunday qilib, skelet ma’lumotlarining har bir qismi 36 ta xususiyatni o‘z ichiga oladi. Skelet ma’lumotlari tavsiya etilgan xatti-harakatlar tasnifi modeli uchun kirish ma’lumotlarini hisoblash, tahlil qilish va yaratish uchun ishlatiladi.
2.9-rasm. OpenPose ning tarmoq arxitekturasi [21].
2.10-rasm. COCO chiqish formatiga ko‘ra inson pozasining asosiy nuqtalari.
Skelet ma’lumotlariga dastlabki ishlov berish natijalaridan shaxsni identifikatsiyalashda foydalanish alohida tadqiqot vazifasini talab etadi. Shaxsni identifikatsiyalashda Deep Learning va CNN arxitekturasidagi so‘nggi yutuqlar tufayli keng qo‘llaniladi. Hozirgi kunda Faster R-CNN, SSD, YOLOv3, YOLOv4 va Mask R-CNN kabi koʻplab yuqori aniqlikdagi ob’yektlarni aniqlash usullarining rivojlanishiga olib keldi. Tasvirda chegaralovchi Mask R-CNN sxemasi ramkalar va ob’yekt namunasi segmentatsiyasini yaratishga qaratilgan [31]. Bu usul Faster
R-CNNni chegaralovchi ramkani mavjud tanib oluvchi moduli bilan parallel ravishda ob’yekt niqobini bashoratlovchi modulni qo‘shish orqali kengaytiradi. Taklif etilayotgan tizimni loyihalash va qurish uchun modelni tanlashda aniqlik va ishlov berish vaqti o‘rtasidagi bogliqlikni ko’rib chiqish zarur. Ushbu mulohaza asosida shaxsni aniqlash funksiyasini ishlab chiqish uchun YOLOv4 modelidan foydalaniladi.
YOLOv4 modeli COCO ma’lumotlar to‘plamida o‘qitiladi va bu model samolyot, velosiped, avtobus, avtomobil va odam sinflarini o‘z ichiga olgan 80 ta sinfga tegishli ob’yektlarni aniqlashi mumkin [41]. Biroq, bu tadqiqotda faqat odamlar ko‘rib chiqilganligi bois shaxs sinfiga tegishli ob’yektlarni olish uchun chiqish qatlamidagi filtrdan foydalaniladi [42].
YOLOv4 xulq-atvorni tahlil qilish orqali xatti-harakatlar sinfida zaif ta’sir ko‘rsatadigan turli tana qismlarini, masalan, ko‘zlar, quloqlar, sonlar, tizzalar va to‘piqlarning bo‘g‘imlarini aniqlash hamda bu bo‘g‘inlarni belgilarni ajratib olish jarayonini boshlashdan oldin yo‘q qilish imkoniyatini beradi (2.11-rasm).
Yuqorida aytib o‘tilgan bo‘g‘inlarni yo‘q qilish orqali belgilarni olish vaqtini qisqartirish va inson pozasini baholashda noto‘g‘ri ulanishlarni kamaytirish mumkin. Skelet ma’lumotlariga dastlabki ishlov berish jarayoni odamlarning to‘rtta asosiy xatti-harakatlarini tanib olishga qaratilgan: so‘rash, qarash, ta’zim qilish va zerikish holati.
Olomon muhiti odatda odamlar guruhlarini o‘z ichiga oladi. Shuning uchun, to‘plangan skelet ma’lumotlari ba’zan insonning turli qismlarining tiqilib qolishi tufayli to‘liq bo‘lmasligi mumkin. Ushbu hodisa taklif qilingan tizimning sifatiga bevosita ta’sir qiladi va muammoni hal qilish uchun buzilgan ma’lumotlarning ta’sirini kamaytirish uchun COCO modelida skelet ma’lumotlarini tekislash uchun oddiy harakatlanuvchi o‘rtacha texnikadan foydalaniladi [43].
2.11-rasm. Skelet bo‘g‘inlarini oldindan qayta ishlash va tanlash.
Skelet xususiyatlarini ajratib olish tavsiya etilgan tizimda hal qiluvchi vazifadir. Ushbu vazifada inson pozasini ifodalovchi vektor hosil bo‘ladi. Joriy tadqiqotda yuqorida aytib o‘tilgan vektor uchta komponent vektorni birlashtirish orqali yaratilgan: normallashtirilgan bo‘g‘in joylarining vektorlari, bo‘g‘imlarning masofalari va suyak burchaklari.
Birinchi komponent vektori qo‘shma joylari bo’lib, odamlar kameradan har xil masofada joylashganligi sababli bir xil ramkada turli joylarni egallaydi, shuning uchun qo‘shma joylarning shkalasi boshqacha bo’ladi va bo‘g‘in joylari (2.41) tenglama yordamida normallashtiriladi.
bu yerda (xi, yi) va (x i′, yi′) mos ravishda i-bo‘g‘inning dastlabki va normallashtirilgan joylari.
Har bir qo‘shma joy rasmda x-koordinata va y-koordinata qiymatlari bilan tasvirlangan. Masalan, tadqiqot ob’yekti uchun normallashtirilgan qo‘shma joylarning vektori sakkizta bo‘g‘inga mos keladigan 16 ta belgini o‘z ichiga oladi.
Qo‘shma joylar normallashtirilgandan so‘ng, qo‘shma masofalarni hisoblash yo‘li bilan ikkinchi komponent vektori yaratiladi. A va B bo‘g‘inlari orasidagi Evklid masofasi (2) tenglama yordamida hisoblanadi:
Bo‘g‘im masofalarining vektori beshta masofaga (d1 dan d5 gacha) mos keladigan beshta xususiyatni o‘z ichiga oladi. 2.12-rasmda ko‘rsatilganidek, yelka bo‘g‘imi va bo‘yin bo‘g‘imi orasidagi masofa har bir xatti-harakatlarda nisbatan o‘zgarmaydi, shuning uchun belgini ajratib olishda bu masofa hisobga olinmaydi.
Dostları ilə paylaş: |