Paper Preparation and Submission Instructions for eusipco 2004

Yüklə 34,19 Kb.

tarix	25.11.2017
ölçüsü	34,19 Kb.
	#32902

Speech to facial animation conversion for deaf applications

György Takács, Attila Tihanyi, Tamás Bárdi, Gergely Feldhoffer, Bálint Srancsik

Faculty of Information Technology, Péter Pázmány Catholic University

H 1083 Práter u. 50/a., Budapest, Hungary
phone: + (36) 1886 4763 , fax: + (36) 1 886 4724, email: takacs.gyorgy@itk.ppke.hu
web: www.server?????

Abstract

Rendszert próbálunk kialakítani számos előzetes vizygálat és mérés alapján. Ebben a cikkben ismertetjük a rendszerkoncepció egyedi elemeit. EUSIPCO 2006 welcomes the submission of high-quality papers in all areas of Signal Processing. This manuscript (Microsoft^ WORD example file) uses preformatted WORD styles, which stick to the format and style instructions for EUSIPCO 2006. These instructions are presented and some general information regarding paper preparation and submission is provided.

1.Introduction

Deaf people have fantastic abilities in speech understanding based purely on lip reading. Our aim was to develop a communication aid for deaf persons which can be implemented in a standard mobile telephone. In our system we provide a part of an animated human face on a display as output to deaf user. The control parameters of the animated face are calculated directly from the input speech signal. We know well that such representation of human speech process is limited and contains inherent errors. In spite of limitations the deaf persons can naturally communicate by the help of such aids with the normal hearing members of the society. The gap between hearing and deaf persons can be eliminated by so everyday equipment as a high end class second/third generation mobile phone. The system calculates with the enhanced capabilities of deaf persons in continuous error correction and extension on the limited lip-read pieces of speech information in their communication process.

A conceptual element of our system from signal processing point of view to remain in the platform of processing continuous elements only. The traditional solutions transform the continuous process of speech into a discrete set of language elements like phonemes and visemes. The second part of systems convert discrete text or phoneme strings into animated faces. One of the benefits of our direct solution to reserve the original temporal and energy structure of the speech process. So the naturalness of rhythm is guarantied. Further benefit of our solution is a relative easy implementation in the environment of limited computational and memory resources in mobile phones.

A very promising feature of our system is the potentially language independent operation.

A tricky element in our concept to train the system by an audio-visual database collected only from professional interpreters/lip-speakers. Their articulation style and level are adapted to deaf communicationpartners.

Tamás része!

This research study was explicitly dedicated to help deaf and hard of hearing people. Because we had had no relevant former experience in audiovisual speech processing we could keep in focus the special needs and abilities of hearing impaired people throughout the development, from the beginnings. The main guiding principle of our system construction was that the experiences of our lip-reading tests [Hírtech] and the available knowledge about this type of communication in human sciences should be linked to and applied in the technical implementation at as many points as possible. It is shown in the following sections that these links were used in design and collection of the training database, in PCA analysis, and also in working out the parametrization of signal processing methods in acoustic feature extraction.

2.Áttekintés és elhelyezés az ismert rendszerek között

In case.

3.Database design & collection

3.1Előzetes vizsgálatok, tanulságok, adatbázis design szempontok

Cikkből kb fordítás ide

Szöveg összeállítás, tesztelhetőség

Beszédtempó, szókincs, jó artikuláció. Csak száj környéke elég.

A project szerint mobil készüléken futtatjuk majd a rendszert, és ezeknek az eszközöknek a mérete arra vezetett minket, hogy igyekezzünk a rendelkezésre álló alacsony felbontást (max 320x240) minél hasznosabban felhasználni. Siketeket megkértünk, hogy ismerjék fel a mobiltelefon kijelzőjén megjelenő száj által mondottakat. Úgy találtuk, hogy nincs elhanyagolható a különbség, ha a siket csak a szájat látja, az arc többi részét nem, ezért a továbbiakban kizárólag a száj mozgására fókuszáltunk.

Mivel a munkánk elsősorban a jel feldolgozására irányul, úgy döntöttünk, hogy egy elérhető fejmodellel dolgozunk. Ezért az MPEG-4 szabvány FP-jeit használtuk, amivel sikeresen összekapcsoltuk a hangfeldolgozó részt a fejmodellel.

3.2Felvétel

Az adatbázis lényege, hogy összekapcsoljuk a hangot a képpel. Ahogy az x ábrán látható, keretre bontjuk a hangot, és keretenként egy képet feleltetünk meg neki.

Az MPEG-4 szabványban egy fejmodell kezelését írják le, mi ezt a modellt választottuk, hogy könnyebben kapcsolhassuk a munkánkat más kész rendszerekhez. Az általunk leggyakrabban használt fogalom a Feature Point (FP), ami kitüntetett pontot jelent, amiből 84 meghatározza az teljes fejet. Ebből a 84 pontból az előzőek alapján a száj körüli 15 pontot választottuk

[kép: rajzolt fej pontokkal]
Kereskedelmi forgalomban kapható videókamerákkal készítettünk videófelvételeket olyan modellekről, akik profi tolmácsok. Az arcukon megjelöltük a száj körüli MPEG-4 FP-ket, fejük mozgását korlátoztuk.
Ezzel 25 fps (40 ms) időfelbontású képanyaghoz jutottunk. A megjelölt pontokat képelemzési módszerekkel kinyertük, és az arc egy nyugvó pontját kiválasztottuk origónak. A hangfelvétel 48000 Hz mintavételezési frekvenciával, 16 bites, mono formátumban készült.
Röviden kamera, fények, mikrofon, követés,
A felvételen a modell arcára zöldessárga pontokat festettünk, és a fényviszonyokat úgy állítottuk be, hogy ezek a
pontok kiemelkedjenek. Az RGB komponensek alapján a pontok könnyen megkereshetőek voltak, és a rögzített fejnek köszönhetően az azonosítás sem okozott nagy problémát. A kapott foltokon erózióval nyertük ki a folt közepét.

4.Converting speech to animation

[Ide a rendszer teljes jó fig.]
Our implemented conversion system is a PC-based demo software. Firstly, we survey the complete system at glance, as it is shown in Figure 1, and the details of the building blocks are detailed in the appropriate subpoints.

The input speech sound is sampled at 16 bit/48 kHz and then the acoustic feature vectors (MFCC) are extracted from the signal. The feature vectors are sent to the neural network (NN), which computes a special weighting vector that describes the target frame of the animation. This weighting vector is a compressed representation of the feature point (FP) coordinates they are used to control the facial animation. The coordinates of FP set are obtained by linear combination of the principal component vectors with the weights coming from the neural net (1).

(1)

This coordinate-recovery operation is denoted by the term “PCA^-1” in the block diagram, because predefined constant vectors p⁽ⁱ⁾ come from the Principal Component Analysis (PCA). Vector c is the FP coordinates of a selected frame with closed mouth and neutral face. The FP positions are computed in this way for 25 frames per second.

The final component in our system is LUCIA talking head model. We drive it with the computed coordinate sequences and then the facial animation that is coherent with the input speech sound appears on the screen.

4.1Acoustic feature extraction

The input speech is pre-emphasis filtered with H(z)=1-0.983z^-1. Then 21.33 long Hamming windows are applied to the signal, and 16 Mel-Frequency Cepstrum Coefficients (MFCC) are extracted from each analysis window.

The co-articulation phenomenon in processing visual speech has even more importance than in speech acoustics. There are visually dominant and flexible types of phonemes. The dominant phonemes highly affect the visual shape of the mouth during even the neighboring phonemes, and the flexible ones tend to suffer the effects of the dominant neighbors [Czap]. For that reason the conversion algorithm could not predict properly the actual shape of the surfacial articulators if there is no acoustic information available from the neighboring phonemes.

MFCCs from 5 consecutive windows are sent to the input layer of the artificial neural network (ANN), which is in our system a layered perceptron net with 3 layers. The input layer contains 80 perceptrons, as for the 5 16 dimensional MFCC vectors. Hidden layer holds 40 perceptron, and there are 6 one in the output layer, according to the 6 principal component of the feature point coordinate vectors taken into consideration in our conversion algorithm. Coordinates of the animated feature points on the xy-plane are computed as the weighted sum of the stored principal component vectors, weighting them with the output of the ANN.
A felhasznált komponensek választásánál fontos szempont volt a hatékonyság, a mobil céleszközök miatt. Nem használtunk iteratív közelítő módszereket, szótármérettől függő kereséseket.

4.2Neurális hálózat.

e are using Matrix Backpropagation by David Anguita [hiv].
Rétegek, nodok, dim csökkentve van, perceptron halo, back prop, Anguita, tanító adatok

4.3PCA.

Az adatbázis minden képkockája 15 pontból áll, két dimenziós koordinátarendszerben ez 30 értéket jelent. Így az adatbázist egy 30 dimenziós térben felírt sorozatként kezeljük.

Az adatbázis elemein főkomponens elemzést végzünk, és a 6 legnagyobb sajátértékhez tartozó vektorokat mint bázist használva felírjuk az adatbázist.

W=(P^-1B)|_C

Ahol W az új, B az eredeti 30 dimenziós adatbázis, és P a főkomponensek mátrixa, C pedig az első 6 dimenzió alkotta altér.

Ezzel 1-3% adatvesztés történik, ami a pixeltérben 1-2 értéknyi eltérést jelenthet legfeljebb. Az origót a nyugalomban lévő száj pontjánál állapítottuk meg. Ezzel tanítjuk a neuronhálót, tehát működés közben a pixeltérbe kell visszatranszformálni.

B_res=([w_res ; mean]+origo)P’

Ahol w_res a neuronháló eredménye, mean a fel nem használt főkomponensekhez tartozó átlagos érték az B-ben, B_res a pixeltérben felírt 30 dimenziós vektor.

A PCA a dimenziócsökkentésen kívűl alkalmas a beszélő tátogási minőségének megállapítására is. Az x ábrán látható főkomponensek egy hivatásos tolmácsra jellemző képet mutatnak. Egy képzetlen ember szájmozgásában a különböző torzító hatások, mint például az alsó ajkak elharapása, oldalra mozgása már a második legerősebb komponens lehet.

4.4Fejmodell.

A munkához egy enyhén módosított Lucia fejmodellt használtunk, amit eredetileg Cosi[hiv] használt érzelemkifejezésre.
Kihagytuk az MPEG-4 FAP kezelését, ami alapvetően egy vizéma alapú mozgáskódolás, és igyekeztünk a saját méréseinket ráültetni a modellre. A vizéma alapú animáció egy mozgássorozatot olyan elemekre bont, amik önmagukban felismerhető állapotok. Ez a működés ellenkezik a mi hozzáállásunkkal, mert a vizémákhoz tartozó hangjelenségek felismerését kell megoldani ehhez az úthoz. Ez indokolatlanul megnehezítené a feladatot.

Itt kell írni az FP-k mozgatásának dinamikus súlyozásáról. Ennek hatása az is, hogy egy-egy megcélzott területnek a „rögzítése” is megoldható a módszerrel mivel a területhez legközelebb eső FP zero elmozdításának ez a hatása. A technika lehetővé tette pl.: az alsó állkapocs forgatásához hasonló megjelenés készítését 2D környezetben.

5.Mérési eredmények

Mérési módszer és körülmények megválasztása

5.1Mérési módszer és körülmények megválasztása

A siketek nagy szájról olvasási gyakorlatát kihasználva tudunk adatokat szerezni az elkészített rendszerről. A nagy gyakorlat segít abban, hogy a szájmozgás felismerhetőségének kicsiny változást is értékelni lehessen.
Rövid egymondatos tesztekkel gyűjtöttünk tapasztalatokat az alkalmazott nyelv megismerésére.

A jel tolmácsolás a munkája közben a száját jobban artikulálva, lassabban beszél. Ennek figyelmen kívül hagyása esetén a siketek panaszkodnak arra, hogy az animált fej beszéde kicsit „lapos” és nagyon széles.
A csend és a beszéd jól elkülönüljön. Zavaró a szájról olvasás során az hogy, ha az animált fej a bemeneti zaj hatására kis mértékben ugyan de mozog, remeg.

A szájról olvasás bizonyos beszéd információkat nem képes átvinni. Ilyen körülmények között a beszélő és „hallgató” között egy speciális nyelven történik a kommunikáció és gyakran előfordul a párbeszéd kialakulása az átvitt információ pontosítására. Az alkalmazott nyelvnek a jellemzője, hogy körülírásokkal határozza meg az egyes fogalmakat. Ebben a környezetben végzett teszteléshez a szavakat egy-egy jól meghatározott fogalomkörből kell kiválasztani és ezzel elkerülhető, hogy magyarázat érdekében párbeszédre kényszerüljön a „hallgató” a jeltolmáccsal. A tesztelési környezet kialakításánál ezeket a szempontokat kell figyelembe venni.

Olyan rövid szövegeket kell előállítani teszt céljára mely elkerüli a párbeszéd kialakulását, kellően nagy szókészlettel rendelkezik.
A teszteléshez az egy- és kétjegyű számok valamint a napok, hónapok neveit használtuk. Ez a szókészlet elég nagy az eredményes teszteléshez és kellően zárt jól körülírható. A tesztelés megkezdése előtt el lehet magyarázni a körülményeket, és így a teszt közben nem szorul a siket párbeszéd jellegű visszakérdezésre.
A tesztelés szempontjából a fejlesztési munkánkat elkülönülő részekre bontottuk

A jeltolmácsról készített video felvétel alapján a szintetizált fej mozgatása
A jeltolmács hangjának felhasználásával a szintetizált fej mozgatása

és az

Az eredeti jeltolmáccsal készült felvétel, mint control.

A fejlesztéstől függetlenül külön készítettük el az előző megfontolások alapján a szükséges tesztanyagot. Az anyag készítéséhez külön felvételen volt a jeltolmács. A felvett anyag egy részéből készítettük a video alapú, másik részéből pedig a beszéd alapú mozgatási feladatokat. A vázolt rendszerben három féle felvétel keletkezett

Az elkészült felvételek felhasználásával 60-80 különálló szóból álló tesztsorozatokat készítettünk, és a vizsgálatot ezen tesztsorozatok felhasználásával végeztük.
A fejlesztési munka során több alkalommal készítettünk teszteket és az eredmények kiértékelése, a siket hallgatósággal a teszt után folytatott beszélgetések és a jeltolmács szájmozgásának tanulmányozása határozta meg a további munkánkat.

5.2Mérési eredmények az elkészült rendszeren

A szófelismerésre végzett mérés eredményeit az „1. ábra Helyesen felismert szavak aránya” ábra tartalmazza

1. ábra Helyesen felismert szavak aránya

Az diagrammon ábrázolt oszlopok:

“A” oszlopban a jeltolmács által közvetlenül mondott eredeti felvételből visszajátszott szavak felismerési aránya.

“B” oszlopban a jeltolmács szájmozgásának adatai alapján vezérel fejmodell által mondott szavak felismerési aránya.

“C” oszlopban a jeltolmács hangjának alapján vezérel fejmodell által mondott szavak felismerési aránya.

Az “A” oszlopban a mérés szerinti hiba 2.9 % a méréseink szerint ez az érték 2% és 8% között lenni. A tolmácsról készített video felvétel alapján szintetizát 3D animáció további 42.2%-al csökkenti az érthetőséget. A beszédjelből előállított animáció ezt az értéket már csak 7.2%-al csökkenti. Az eredményekből megállapítható, hogy a beszédjelből történő feldolgozás már csak közel akkora hibát okoz mint a jeltolmács által eredendően elkövetett hiba.
A mérési eredmények és a siketekkel folytatott beszélgetések eredménye képen továbbfejlesztési célként az körvonalazódik, hogy a száj mozgatásán túl bizonyos más fejparaméterek használatbavétele is szükséges.
Jelentős információt hordoz a szájról olvasás közben a nyelv, és az arc bizonyos elmozdulása is. („L” –nél a nyelv B-nél, P-nél az arc változása „pufók”)

6.Conclusion

Folyamatosan szempont a mobil, hardver megszorítások, elsősorban Symbian technikai környezet, felbontás, csak száj hivatkozás? Többféle algoritmus tesztelés alatt mobilon. Ami még kelleni fog, az a mobilos fejmodell, amit majd meg fogunk csinálni. Megígérjük, hogy a tanítóadatbázist mobilminőségben is felvesszük.

7.Acknowledgement

Paper submission deadline: January 20, 2006

Notification of acceptance: April 7, 2006

Camera-ready final paper due: May 5, 2006

Deadline for authors’ registration: May 5, 2006

References

[1] A. B. Author, Title of Book. Address: ABC Press, 2000.

[2] A. B. Author and C. Author, "Title of journal paper,'' Journal, vol. 1, pp. 11–25, Jan. 1999.

[3] A. B. Author, C. Author, and D. E. Author, "Title of conference paper,'' in Proc. EUSIPCO 2006, Florence, Italy, September 4-8. 2006, pp. 221–224.

[1] R. Gutierrez-Osuna, P.K. Kakumanu, A, Esposito, O. N. Garcia, A. Bojorquez, J.L Castillo and I. Rudomin “Speech-driven Facial Animation with Realistic Dynamics” IEEE Transactions on Multimedia, Vol. 7. No. 1, February 2005

[2] J. Beskow, Talking Heads, Models and Applications for Multimodal Speech Synthesis: Doctoral Dissertation Stockholm, 2003

Yüklə 34,19 Kb.

Dostları ilə paylaş: