Taklif etilayotgan algoritm 3.3-rasm — Umumiy algoritm quvur liniyasi Ushbu bo‘limda tavsiya etilgan asosiy algoritmning quvur liniyasi tasvirlangan va barcha bosqichlarning tafsilotlari tushuntirilgan. 3.3-rasmda tanib olish jarayonining umumiy sxemasi ko‘rsatilgan. Butun algoritm deskriptorlarni hisoblash va ularning sxema bo‘yicha mos ravishda to‘q sariq va yashil bloklarga mos keladigan tasnifidan iborat. Xususiyatlarni hisoblash bosqichi, o‘z navbatida, ma’lumotlarni tayyorlash va qayta ishlashni, neyron deskriptorlarini ajratib olishni va bitta yakuniy yurish deskriptorini olish uchun xususiyatlarni qayta ishlash va yig’ishni o‘z ichiga oladi. Quyidagi kichik bo‘limlar algoritmning ushbu to‘rtta asosiy bosqichining har biriga qaratilgan:
Ma’lumotlarni oldindan qayta ishlash;
Yuqoridagi tushuntirilganidek, optik oqim xaritalari algoritm uchun manba ma’lumotlari sifatida tanlanadi. Xususiyatlarni hisoblashning keyingi ikki bosqichidan farqli o‘laroq, taklif qilingan algoritmni qayta ishlash bosqichini o‘rgatib bo‘lmaydi, barcha parametrlar va giperparametrlar oldindan tanlanadi va o‘rnatiladi va optimallashtirish amalga oshirilmaydi. Shunday qilib, dastlabki ishlov berish bir marta amalga oshirilishi mumkin va har bir o‘quv va sinov iteratsiyasida bir xil hisob-kitoblarni takrorlamaslik uchun ma’lumotlarni qayta ishlangan shaklda saqlash mumkin. Shu sababli, birinchi tayyorgarlik bosqichi har bir ketma-ket ramkalar juftligi orasidagi optik oqimni baholash va uni qulay formatda saqlashdir. Farneback [87] algoritmi barqarorligi va turli xil kompyuter koʻrish kutubxonalarida (masalan, OpenCV kutubxonasi [88]) ochiq kodli ilovalar mavjudligi sababli OF baholash uchun tanlangan. Algoritm ikki bosqichdan iborat: polinom kengaytma konvertatsiyasi orqali har bir piksel qo‘shnisining kvadratik yaqinlashuvi va tarjimalar ostidagi polinomlarning o‘zgarishiga asoslangan nuqta siljishini baholash. Baholovchining chiqishi 27-sahifada tasvirlangan tensor 𝑂𝐹. [51] dan ilhomlanib, biz bu tensorlarni tasvir sifatida saqlaymiz. Buning uchun biz xaritalarni chiziqli o‘zgartiramiz, OF ning barcha qiymatlari umumiy RGB tasvirlari kabi [0, 255] oraliqda yotadi. Bundan tashqari, tensorda 2 ta kanal (oqimning gorizontal va vertikal komponentlari) bo‘lganligi sababli, biz uchta kanalli tensorni olish va uni xom kadrlarga o‘xshash saqlash imkoniyatiga ega bo‘lish uchun yordamchi nol xaritasini qo‘shamiz. Oqimning ikkita alohida komponenti va tuzilgan uch kanalli tasvir 3.4-rasmda keltirilgan.
gorizontal component vertikal component 3- kanal tasviri
3.4-rasm - OF komponentlarining vizualizatsiyasi va tuzilgan tasvir Optik oqim xaritalarining o‘zi harakat haqidagi ma’lumotlarni o‘z ichiga olgan bo‘lsa-da, vaqtinchalik komponentni kuchaytirish va nafaqat oniy, balki uzluksiz harakatdan foydalanish uchun xaritalar alohida emas, balki birgalikda qo‘llaniladi. Batafsilroq, bir nechta ketma-ket xaritalar bitta blokga yig’iladi va bunday bloklar tarmoq kiritish sifatida ishlatiladi. Shunday qilib, ikkita kanal xaritasi o‘rniga tarmoq 2𝐿 kanalli tensorlar tomonidan oziqlanadi, bu erda 𝐿 blokdagi ramkalar soni.
Odatda ramkada nafaqat inson qiyofasi, balki boshqa ko‘rinadigan harakatlanuvchi ob’ektlar va fon bo‘lishi mumkinligi sababli, shovqin va xatolardan xalos bo‘lish uchun aniq ko‘rib chiqilgan raqamni o‘z ichiga olgan chegara qutilarini xaritalardan kesish kerak. Ushbu qutini olish uchun har qanday inson figurasini aniqlash algoritmini qo‘llash mumkin. Biroq, so‘nggi yillarda inson tanasini tahlil qilish sohasida juda ko‘p turli xil tadqiqotlar olib borildi va inson figurasini aniqlash ko‘pincha boshqa murakkab muammolar bilan birgalikda hal qilinadigan yordamchi muammoga aylanadi. Misol uchun, inson figurasini chegaralash qutisini pozani baholashda hisoblash mumkin. OpenPose algoritmi [89] ramkada ko‘rsatilgan barcha odamlar tanasining asosiy bo‘g’inlarining joylashishini taxmin qiladi va bu joylarni topib, ularning chegara qutisini osongina hisoblash mumkin, ya’ni butun rasm uchun chegaralovchi quti. Bu usul asosiy usulda tanlangan. 3-bobda tanib olishni yaxshilash uchun OpenPose algoritmidan olingan barcha ma’lumotlardan qanday foydalanish kerakligi ko‘rsatiladi.
Xaritalarning nisbiy siljishining oldini olish uchun butun blok uchun bitta umumiy chegara chizig’i hisoblanadi. Xususan, {𝐼}𝑇 harakatlanuvchi odam bilan video ketma-ketligi boʻlsin, {𝐵}𝑇 har bir kadr uchun raqamni oʻz ichiga olgan chegaralovchi qutilar boʻlsin. Har bir qutini yuqori chap va pastki o‘ng koordinatalari bo‘yicha kodlash qulay uchlari 𝐵 = (, , , ). Har bir ramka uchun chegara qutisi mavjud bo‘lib, ichidagi blokdagi barcha qutilarni o‘z ichiga olgan tashqi quti qurilgan. 𝐼, 𝐼+1,….I tashqi quti koordinatalariramkalar uchun OF xaritalaridan iborat blok uchun.
Keyin bu quti qutining o‘rtasini saqlab, kengaytirish yoki cho‘zish (aspekt nisbatiga qarab) orqali kvadratga aylanadi.
OF tasvirlari barcha chegaralovchi katakchalar bilan birga saqlanadi va maʼlumotlarni tarmoqqa kiritishdan oldin OF xaritalarining 𝐿 ketma-ket gorizontal va vertikal komponentlarining maʼlum soni bir blokga birlashtiriladi va blokdan umumiy kvadrat yamoq kesiladi. 𝐿 ning turli qiymatlari va bloklarning joylashuvi ko‘rib chiqildi, lekin eng yaxshi natijalar 𝐿 = 10 va 5 kvadrat bloklarning bir-biriga mos kelishi bilan olingan. Demak, 𝑘-chi blok {𝑂𝐹𝑡}5𝑡𝑘+5t=5𝑘−4, 𝑘 ⩾1 xaritalaridan iborat.
3.5-rasmda bunday protsedura yordamida olingan kesilgan blok ramkama-kadr ko‘rsatilgan.
3.5-rasm — Kirish bloki. Kvadrat quti normallashtirilgan OF xaritalarining gorizontal (birinchi va ikkinchi qatorlar) va vertikal (uchinchi va to‘rtinchi qatorlar) komponentlarining ketma-ket 10 ta ramkasidan kesilgan.