2. Comment constituer un corpus ?



Yüklə 445 b.
tarix14.12.2017
ölçüsü445 b.
#34819



2. Comment constituer un corpus ?

  • 2. Comment constituer un corpus ?

    • Comment trouver des textes ? Ou et comment trouver des ressources (glossaires, dictionnaires, corpus parallèles) ?
    • Comment exploiter au mieux les fonctionnalités des moteurs de recherche?
    • Comment choisir quel texte inclure ou pas dans le corpus ?
    • Sous quelle forme faut-il le stocker pour qu’il soit facilement utilisable ? (rappel : formats de fichiers)


























  • Formats de fichiers (documentation de l’équipe système de l’UFR EILA) :

  • www.eila.univ-paris-diderot.fr/sysadmin/gestion-docs/formats



Fichiers texte : contenu pouvant être interprété comme du texte. Suite de caractères d’un ensemble donné.

  • Fichiers texte : contenu pouvant être interprété comme du texte. Suite de caractères d’un ensemble donné.

    • en codage ASCII ou une extension de ASCII (UTF-8, UTF-16 ou extension régionale). Exemples : fichiers .XML ; .txt
  • Le contenu d'un fichier binaire n'est pas du texte et correspond souvent à un format précis.

    • fichier exécutable ;
    • fichier de base de données structuré en enregistrements de taille fixe ou variable ;
    • document de traitement de texte ;
    • fichiers multimédias : images, sons, vidéos.


associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers.

  • associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers.

  • Exemples d’encodage :

    • Le code Morse
  • Le code ASCII

  • ISO-8859-1

  • UNICODE



associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers.

  • associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers.

  • Exemples d’encodage :

    • Le code Morse


US-ASCII (1967): American Standard Code of Information Interchange

    • US-ASCII (1967): American Standard Code of Information Interchange
    • Lettres (alphabète anglais), numéraux, ponct
    • 7 bits (128 codes) 98 signes définis
    • Ex :
      • A : 065, B : 066, C : 067
      • a : 097, b : 098, c : 099, etc.
    • Très limité  extensions.


ISO 8859 (1987) : International Standards Organization

  • ISO 8859 (1987) : International Standards Organization

  • étend US-ASCII en ajoutant les caractères accentués

  • – 8 bits (256 codes) 191 signes définis

  • ISO 8859-1 : Europe le l’Ouest

    • 8859-2 : Latin 2, Europe de l’Est
    • 8859-3 : Latin 3, Europe du Sud Est
    • 8859-4 : Latin 4, Scandinavie, Baltique
    • 8859-5 : cyrillique
    • 8859-6 : arabe, 8859-7 : grec, etc


Approche systématique : UNICODE (norme d’encodage) : tous les systèmes d’écriture (100.000 caractères)  permet le mélange de langues

    • Approche systématique : UNICODE (norme d’encodage) : tous les systèmes d’écriture (100.000 caractères)  permet le mélange de langues
    • Permet l’encodage de toutes les langues vivantes et mortes
      • UTF-8 (8-bit UCS/Unicode Transformation Format) un format d’encodage pour UNICODE
      • UTF-16




Quels champs indiquer pour chaque type de document ? (JabRef) :

  • Quels champs indiquer pour chaque type de document ? (JabRef) :

  • Article : Auteur|Auteur et al. (2008). Titre. Revue, Vol, No., pages

  • Site web : Titre, (Auteur|institution), Url (localisation), date de consultation.

  • Livre : Auteur|Auteur et al. (2008). Titre. Maison d’édition (collection)



Thèse de doctorat : Auteur.(2008). Titre. Ecole. (directeur de recherche)

  • Thèse de doctorat : Auteur.(2008). Titre. Ecole. (directeur de recherche)

  • Actes de colloque : Auteur(2008). Tire. Conférence (Date, Lieu), pages ou adresse URL.



  • Démonstration : comment stocker les fichiers constituant son corpus ?



Portable Document Format

  • Portable Document Format

  • créé par Adobe Systems

  • préserve la mise en forme (polices, images, objets graphiques…) quelles que soient l'application et la plate-forme

  • PDF est un format ouvert (Adobe Systems autorise des programmes tiers à réutiliser son format), mais se réserve la propriété de nombreux brevets déposés et donc le droit de demander des redevances.

  • les spécifications sont publiques et utilisables librement et gratuitement (à l'exception de quelques très importantes sociétés commerciales).



Si aucun autre format n’est pas disponible (vérifier, écrire des mails, etc !!):

  • Si aucun autre format n’est pas disponible (vérifier, écrire des mails, etc !!):

  • Utiliser les logiciels OCR. Exemple : Omnipage ! Démonstration.

  • Utiliser la version démo de Acrobat 8 Professional (30 jours seulement!). Démo.

  • Vérifier l’intégrité du texte scanné (surtout lorsqu’il s’agit de texte en colonnes, avec images).



Créer un répertoire CORPUS_NOM_PRENOM

  • Créer un répertoire CORPUS_NOM_PRENOM

  • Créer les sous-répertoires ANGLAIS & FRANCAIS (non pas FRANÇAIS)

  • Stocker dans les deux des articles convertis en format .txt, avec l’encodage UFT-8

  • Nom du fichier :

    • le nom de l’auteur +
    • - +
    • année de publication +
    • a,b,c (optionnel, si plusieurs articles de la même année) +
    • .txt
    • Ex : DUPONT_2006.txt


Yüklə 445 b.

Dostları ilə paylaş:




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin