Sumar: Sumar: Traducere Automatizată ≠ Traducere Automată Cum funcționează traducerea statistică? Totul este despre DATE!
Traducerea nu poate fi calculată cu o formulă exactă (oricât de complicată ar fi ea) Traducerea nu poate fi calculată cu o formulă exactă (oricât de complicată ar fi ea) - Un cuvânt/o propoziție poate însemna mai multe lucruri
- Mai multe moduri de a spune același lucru
- Înțelesul depinde de context
- Limbaj literal și figurativ (metafore)
- Limbă și cultură (moduri diferite de a conceptualiza același lucru)
- Ambiguitate lexicală, sintactico-semantică, …
S-au încercat: traducere automată bazată pe teorii și gramatici formale (conținând câteva reguli în anii ’50 până la zeci de mii de reguli în anii ‘80) Cum procedăm? Învățare Automată (după anii ’90) - Învață din date datele sunt esențiale
- Soluție aproximativă imperfectă,
- necesită îmbunătățiri
- Post-editare de către traducători profesioniști
Traducerea automată statistică = date Traducerea automată statistică = date Învață să traducă din date Date - Traduceri (texte paralele în limba sursă țintă)
- Date monolingve (în limba țintă)
- Dicționare, terminologii, ontologii, entități denumite, liste de abreviații, etc.
Traducerea automată statistică este performantă pe texte din domeniul din care a învățat
Ce propoziții din limba sursă corespund propozițiilor în limba țintă : aliniere la nivel de propoziție Ce propoziții din limba sursă corespund propozițiilor în limba țintă : aliniere la nivel de propoziție
Ce propoziții din limba sursă corespund propozițiilor în limba țintă : aliniere la nivel de propoziție Ce propoziții din limba sursă corespund propozițiilor în limba țintă : aliniere la nivel de propoziție
Mult mai bună ca traducerea statistică simplă! Tehnologie standard: Google, Microsoft, Baidu, SDL, Asia-Online etc. Cel mai răspândit sistem PB-SMT Cercetarea finanțată de Comisia Europeană Folosită de centrul comisiei DGT MT@EC
Refolosirea datelor existente (traduceri umane, memorii de traducere, dicționare și terminologii multilingve, etc.) este cel mai bun mijloc de a îmbunătăți calitatea traducerii automate Refolosirea datelor existente (traduceri umane, memorii de traducere, dicționare și terminologii multilingve, etc.) este cel mai bun mijloc de a îmbunătăți calitatea traducerii automate Nu subestimați valoarea resurselor lingvistice pe care le aveți sau le veți crea în activitatea dumneavoastră Previzionați (dacă nu ați făcut-o deja) un plan de management al resurselor! ELRC are nevoie de implicarea noastră pentru a face, și pentru limba română, din CEF.AT un success
Dostları ilə paylaş: |