Caracter, cuvânt, paragraf în Word
Pentru identificarea elementelor din structura unui document, Word oferă utilizatorului două instrumente foarte utile: contorul Word Count, accesibil fie din fila contextuală Review, fie din bara de aplicații, în partea de jos a ferestrei, și butonul Show/Hide care gestionează caracterele neimprimabile. Word Count identifică și numără cu precizie paginile, cuvintele, caracterele, paragrafele și rândurile din Word așa cum acest program le interpretează, și nu conform imaginii tradiționale, desprinsă din cărțile de gramatică, pe care cei mai mulți dintre noi o avem despre aceste noțiuni.
Astfel, corelând caracterele gestionate de butonul Show/Hide cu statisticile contorului Word Count, identificarea unui caracter în Word este foarte simplă: acesta reprezintă orice element din text care poate fi selectat individual. Selectarea individuală se face plasând cursorul în dreapta sau în stânga acelui caracter și apăsând, o singură dată și în același timp, tasta Shift și una dintre tastele cu săgeți orizontale, în sensul selectării (stânga sau dreapta). Există o singură excepție de la acest mod de selectare individuală a caracterelor: jaloanele enumerative ale listelor generate automat, a căror selectare individuală presupune selectarea marcii de paragraf care le corespunde. Conform acestor două instrumente, caracterele Word pot fi clasificate în:
1) caractere imprimabile:
a) contorizate:
-
literele,
-
cifrele,
-
simbolurile ($, m, ‰),
-
semnele de punctuație,
-
semnele ortografice (cratima simplă, cratima insecabilă, de suprafață sau de profunzime, apostroful),
-
jaloanele enumerative generate automat, mai puțin En Dash (), contorizate cu statut de caracter și de cuvânt în același timp;
b) necontorizate:
-
textul ascuns (sublinierea punctată specifică textului ascuns nu este contorizată, iar în anumite condiții textul ascuns poate fi imprimat),
-
jalonul enumerativ En Dash (), contorizat doar cu statut de caracter;
2) caractere neimprimabile:
a) contorizate:
-
spațiul (simplu și insecabil),
-
simbolul pentru trecere forțată pe rândul următor (⤶),
-
simbolul pentru tasta Tab (),
-
simbolul pentru întreruperea unui text în cazul unei imagini (),
-
textul ascuns (caracterele mascate de acest caracter sunt contorizate și, în general, neimprimabile);
b) contorizate negativ ( 1):
-
sfârșitul de secțiune cu salt la pagina următoare (Next Page),
-
sfârșitul de secțiune continuu (Section Break Continuous),
-
sfârșitul de secțiune și salt la prima pagină impară (Odd Page),
-
sfârșitul de secțiune și salt la prima pagină pară (Even Page);
c) necontorizate:
-
marca pentru paragraf (¶),
-
cratima condițională (¬),
-
întreruperea coloană (Column Break),
-
sfârșitul de pagină (Page Break),
-
acoladele pentru anumite câmpuri (elementele unui Index);
-
chenarul notei de subsol.
Acestui inventar i se adaugă alte trei caractere neimprimabile gestionate de către butonul Show/Hide care nu au fost incluse în clasificarea de mai sus pentru simplul fapt că nu pot fi selectate individual. În plus, nu sunt nici contorizate. Cele trei caractere neimprimabile sunt:
1) săgeata ce apare imediat după un jalon enumerativ generat automat, identică celei generate de tasta Tab;
2) simbolul care marchează sfârșitul de celulă într-un tabel, numit „soleil” în limba franceză din cauza formei specifice: ¤;
3) pătrățelul negru care apare în stânga unui paragraf care are, dintre toate caracterele neimprimabile, cele mai multe funcții: paragrafe solidare (Keep with next), rânduri solidare (Keep lines together), marcă pentru nivel de titlu, rând numerotat (Line Numbers).
Identificând caracterele în acest fel și lucrând doar la suprafața documentului, putem selecta nu numai caractere imprimabile, ci și caractere neimprimabile contorizate, ceea ce probează încă o dată necesitatea lucrului cu caracterele neimprimabile afișate, altfel o simplă eroare de selectare poate vicia numărul de cuvinte sau de caractere dintr-un document.
Cuvântul informatic în Word reprezintă orice caracter imprimabil contorizat sau suită de caractere de acest tip încadrate sau nu de spații. Răspund acestei cerințe și secvențele de text care au un spațiu marcat în dreapta și marginea paginii, cu sau fără alineat, în stânga.
Astfel, contrar a ceea ce știm despre cuvinte, o cifră, un semn de punctuație sunt interpretate drept cuvinte într-un text linear scris în Word, dacă sunt izolate de alte caractere de tip sapțiu. Aceeași cifră va pierde statutul de cuvânt (în sensul informatic din Word), dacă va figura într-un număr format din două, trei sau mai multe cifre, precum cazurile în care cerințe lingvistice sau convenții de scriere impun scrierea numerelor mari într-un singur bloc, de exemplu scrierea numărului unui imobil într-o adresă din Canada (1452, 25e Avenue) sau scrierea codului poștal în România (200094). Dacă blocul de cifre este fragmentat de un spațiu, de obicei insecabil, același număr va figura ca o suită de mai multe cuvinte.
Să analizăm acum modul în care Word interpretează un număr complex, pornind de la imaginea următoare:
După cum se vede, numărul complex, 2 000 000, apare ca o suită de trei cuvinte, și nu ca un cuvânt de sine stătător cum am fi tentați să-l considerăm într-un text linear. Se poate vedea și numărul de caractere, șapte (fără spații), și nouă (cu spații cu tot), precum și faptul că mărcile de paragraf nu sunt contorizate.
La fel se întâmplă și cu unele semne de punctuație. Dacă aceste caractere sunt scrise separat în text, adică izolate prin spații, acestea capătă statut de cuvânt de sine stătător și sunt inventariate ca atare de către Word Count. Fac excepție doar caracterele En Dash (), linia de pauză în română și Em dash (—), folosit în limba franceză pentru linia de dialog, care, încadrate de spații, nu sunt contorizate drept cuvinte, ci rămân doar cu statutul de caracter.
Scrierea separată a unora dintre aceste caractere este, de altfel, greșită. Dacă izolăm cratima prin spații, unul în stânga și altul în dreapta, aceasta va fi contorizată atât cu statut de caracter, cât și de cuvânt. În cazul altor caractere, dimpotrivă, izolarea acestora cu ajutorul spațiilor este obligatorie (semnele de punctuație duble din limba franceză). Această precizare este importantă pentru cei care lucrează cu tarif pentru fiecare caracter sau cuvânt, dar parcă mai importantă este pentru cei care plătesc aceste caractere, cuvinte, uneori rânduri.
În acest sens, prezentăm mai jos imaginile aceleiași secvențe de text, în care am inserat două semne mai puțin cunoscute utilizatorului român, respectiv cratima insecabilă și cratima condițională, dar și două greșeli tipografice, cratima precedată și urmată de un spațiu simplu și virgula precedată de un spațiu. Prima imagine a fost făcută la suprafață, a doua în structura profundă, amândouă imaginile având alături contorul Word Count. A se observa, în prima imagine, linia ondulată de culoare verde generată de corectorul automat pentru a marca o greșeală (aici, de spațiere). Să observăm, de asemenea, forma cratimei, aparent normală, și numărul de cuvinte contorizate, respectiv zece. Nicio urmă de cratimă condițională sau insecabilă. Le vom „vedea” în imaginea a doua, reprezentând structura de profunzime a aceleiași scevențe.
Deși la suprafață primul cuvânt este sudat, în structura profundă acesta este fragmentat de cratima condițională (¬), introdusă pentru a indica locul cezurii (despărțirii în silabe) la capăt de rând a acestui cuvânt, dacă acesta ar ajunge în această poziție. Observăm apoi aspectul cratimei insecabile în structura profundă, un pic mai lungă decât cratima obișnuită și folosită tocmai pentru a nu permite cuvântului în care apare să fie fragmentat la capăt de rând. Alături, contorul Word Count indică aceleași valori ca la suprafață.
Ceea ce frapează este numărul de cuvinte, respectiv zece (10). Dacă am face o numărătoare a „cuvintelor” din punct de vedere lingvistic, am obține doar șapte astfel de unități. Diferența este dată de ceea ce am spus mai sus: Word înregistrează drept cuvinte cratima izolată prin spații de cuvintele pe care le leagă, virgula separată cu un spațiu simplu de cuvântul care o precedă, precum și semnul întrebării care, în limba franceză, este precedat de un spațiu insecabil obligatoriu. Dacă în primele două cazuri avem a face cu erori de spațiere, în al treilea caz avem o situație normală, așadar semnul întrebării, ca și celelalte semne precedate sau, uneori, urmate în mod obligatoriu de spații insecabile în limba franceză, vor avea statut de cuvinte în Word. Corectarea greșelilor de spațiere pare să aducă situația la normal.
De data aceasta avem doar șapte cuvinte, dar intervine totuși o anomalie: dacă semnul întrebării reprezintă tot un singur cuvânt, secvența „parcourrons-nous” nu cuprinde, în Word, două cuvinte, ci unul singur, creat prin sudura celor două elemente lexicale cu o cratimă obișnuită, situație care validează definiția cuvântului în Word, respectiv orice caracter imprimabil contorizat sau suită de caractere de acest tip încadrate de spații.
În rest, statisticile privind caracterele contorizate și necontorizate validează clasificarea inedită operată mai sus, care sporește și originalitatea acestui proiect.
Clasificarea este validată și de numărul caracterelor dintr-un cuvânt inventariate de Word Count. Prezentăm mai jos o imagine a unui singur cuvânt din propoziția de mai sus.
Imaginea reproduce structura de profunzime a cuvântului. Deși noi vedem șaptesprezece (17) caractere, Word Count înregistrează doar șaisprezece (16) caractere, aceasta deoarece cratima condițională (¬) adusă la suprafață aici cu ajutorul unui cod alfanumeric este un caracter neimprimabil necontorizat.
Paragraful este definit în general ca o subdiviziune a unui text în proză care grupează mai multe fraze organizate în jurul unei idei comune. Această definiție este valabilă în orice domeniu al cărui obiect poate fi descris printr-un text linear.
În tipografie, paragraful dă numele unui simbol § folosit în interiorul textului, pentru a marca debutul unui paragraf, sau în referințele bibliografice pentru a face trimiteri în text. În Word însă paragraful desemnează orice porțiune de text care comportă cel puțin un caracter imprimabil contorizat și este cuprinsă între două apăsări consecutive pe tasta Enter, apăsări având ca efect generarea a două mărci de paragraf (¶). În structura profundă a documentului, orice apăsare a acestei taste generează un simbol specific (¶) numit și marcă de paragraf. Pentru a avea un paragraf în Word avem nevoie de două astfel de mărci de paragraf care să încadreze o porțiune de text. Porțiunea de text poate fi reprezentată doar de un simplu caracter pentru că Word interpretează diferit nu numai noțiunea de paragraf, ci și pe cea de caracter sau cuvânt.
În imaginea de mai jos, realizată în structura de suprafață, avem un exemplu de paragraf Word.
Contorul Word Count ne arată clar că avem a face cu un singur paragraf, dar și cu un singur caracter (interpretat ca un cuvânt de sine stătător).
Să vizualizăm încă o dată această secvență, făcând însă o „poză” structurii de profunzime a acesteia.
Aceeași situație (un singur caracter, un singur cuvânt, un singur paragraf), dar și posibilitatea vizualizării celor două mărci de paragraf care întăresc definiția paragrafului în Word, respectiv porțiunea de text care comportă cel puțin un caracter imprimabil contorizat și este cuprinsă între două apăsări consecutive pe tasta Enter. Această porțiune de text poate fi constituită dintr-un singur cuvânt sau, ca în cazul de față, un singur caracter, în sensul informatic folosit în Word, care este, cum am arătat, departe de cel lingvistic.
Până în acest punct al demersului nostru, se poate afirma că analiza, din punct de vedere informatic a caracterului, a cuvântului și a paragrafului în Word stabilește o diferență între acestea și corespondentele lor lingvistice. Dacă, în lingvistică, acestea au o „formă” și un „conținut”, „un signifiant” și „un signifié”, Word operează doar cu forma caracterului, a cuvântului și a paragrafului, formă care, dacă nu este corect lucrată, poate vicia întreg conținutul unui document.
Am descoperit de asemenea că un singur caracter poate avea, în același timp, statut de cuvânt și de paragraf. Aceeași analiză ne-a oferit și indicii privind eventualele greșeli ale documentului nostru, dar și instrumentele necesare stabilirii valorii de piață a acestuia, asta dacă lucrăm în domeniul editorial, al redactării computerizate sau al traducerilor, de exemplu.
Nu degeaba am ținut să demonstrăm că o greșeală de spațiere poate să scadă calitatea documentului nostru, dar și, paradoxal, să îi crească valoarea de piață, pentru că, reluând exemplul, o cratimă izolată de spații este contorizată și drept caracter, și drept cuvânt de sine stătător. Beneficiarii unor astfel de documente trebuie să cunoască acest detaliu, pentru a nu plăti mai mult decât este cazul.
Dostları ilə paylaş: |