Réunions « sous-groupe IPRI »
Liris (Insa /Villeurbanne) – mercredi 17 septembre 2008.
Compte-rendu de la réunion n°3
« Analyse sémantique du pluralisme »
*Présents:
Franck, Anne-Lise, Sylvie, Samuel, Guy, Loïc, Elöd
* Rappel des travaux à effectuer
Pour la partie "Analyse sémantique du pluralisme", nous pouvons désormais distinguer 4 phases :
1) Constitution du corpus
2) Constitution de la base de données
3) Analyse du contenu
4) Mesure du degré de diversité
* Etat d'avancement des travaux et propositions
1) Constitution du corpus
L'option 1, consistant à fonder le corpus sur une cartographie quasi-exahustive de sites, est abandonnée suite à l'absence d'implication de Web Atlas
L'option 2 a en conséquence été activée : une liste d'une centaine de sites d'information d'actualité, français et francophones, avec au moins 5 sites par catégorie (presse en ligne, agences, blogs, portails, etc.) a été établie par Annelise, Eric, Franck et Nikos en conjuguant connaissance experte de l'information d'actualité sur l'internet et recours à des répertoires variés : bases de Google Actualités, de Wikio, de Rezo.net et de IPLJ (site professionnel : "Internet pour les journalistes").
--> Voir tableau correspondant "URL RSS" sur le wiki
Lors de la réunion, nous devions ramener ce corpus de 103 à 60 (50 français + 10 francophones)
En fait, le procédé d'extraction automatique des contenus via RSS (voir phase 2 ci-dessous) permet un traitement rapide qui n'entraîne pas un trop grand surcroît de travail et nous amène donc à conserver près de 90 sites.
Ont été exclus du corpus les sites ne disposant pas de flux RSS : Ouest-France (ce qui est dommage car Ouest-France avait fait l'objet d'une enquête socio-économique dans le cadre du programme précédent), Aujourd'hui Le Maroc, Vox Populi, Le Grand Soir, Le Monde Citoyen, Oulala.net, Samizdat.net, Daily Motion (chaîne Actu)et Net Vibes.
A noter : hormis Ria Novosti, les sites d'agences de presse ne disposent pas de flux RSS. Cette catégorie devant être absolument représentée dans le corpus, il est décidé de réaliser une aspiration "manuelle" de ces sites d'agence lors des jours choisis pour l'observation (voir phase 3).
Nous pouvons considérer que cette phase 1 de constitution du corpus est quasi-achevée.
2) Constitution de la base de données
Elod a présenté le travail réalisé au Liris sur ce point.
Un système de crawling a été développé permettant d'extraire en continu de chaque flux RSS le titre de l'article, sa description (équivalent du "chapô" dans la presse écrite), le lien vers son texte intégral ainsi que la date et l'horaire de sa mise en ligne.
Cet outil est d'ores et déjà opérationnel et se révèle extrêmement satisfaisant car il permet d'alimenter la base de données seconde par seconde.
A noter : le champ "lien vers l'URL du texte intégral" n'aura de validité que provisoire. Si nous souhaitons consulter le texte intégral en question au moment des analyses de contenu, il faudra avoir l'avoir préalablement enregistré, et ceci contitue une opération à part.
Mise en place à partir d'une dizaine de flux RSS, cette base sera complétée avec l'ensemble des flux du corpus.
La proposition de rajouter un champ supplémentaire à la base est également avancée : ce champ concernerait la catégorie de chaque site. Cela pourrait être extrêmement utile par rapport à la problématique de la recherche car permettant de voir par la suite quel peut être le parcours d'un contenu d'une catégorie à l'autre, ou entre plusieurs sites à l'intérieur d'une même catégorie.
A noter : les conditions de réalisation de des ces flux RSS (organisation de la production ? rythme d’actualisation ? supervision par un rédacteur en chef spécifique ?) pourront être connues en intégrant ces questions au guide d’entretien pour les enquêtes socio-économiques.
3) Analyse du contenu
Cette phase est celle pour laquelle les interrogations demeurent les plus nombreuses.
On peut néanmoins noter quelques avancées :
- Le travail d'analyse du contenu aura une base homogène si nous nous centrons sur les titres des articles, présents dans tous les flux RSS. La description de l'article est elle aussi très présente, dans quasiment tous les flux RSS, mais avec un format assez variable (longueur de la description notamment) et donc une homogénéité moindre pour la comparaison.
- Le système d'extraction en continu dans la base de données autorise en théorie un travail sur plusieurs semaines d'enregistrement de titres et de description. Cela n'est en revanche pas possible pour le texte intégral (seulement lien vers le texte intégral enregistré dans la base). Il est donc possible de réaliser une analyse automatisée sur les titres et les descriptions, mais l'analyse des textes intégraux, lorsqu'elle sera requise, nécessitera un enregistrement à part et une analyse manuelle. Ceci renforce l'idée déjà émise lors de réunions précédentes de combiner analyse quantitative sur de larges échantillons de contenus et analyse quantitative sur des échantillons beaucoup plus restreints.
- Nous avions imaginé travailler sur deux sondes ponctuelles, en prenant deux jours au hasard pour l'analyse automatique de contenus. Sachant que nous aurons a priori à peu près 90 flux RSS, avec chacun une cinquantaine d'articles livrés par jour, cela donne un échantillon de 4500 articles sur une journée. Une analyse automatisée est envisageable sur un tel volume d'articles. L'analyse automatisée de tous les articles publiés en RSS sur plusieurs semaines (ex: en deux mois ou huit semaines = 4500x7x8 = 252000 articles) paraît peu réaliste. On peut en revanche imaginer utiliser cet échantillon large de façon plus ciblée, pour par exemple retracer l'origine et le parcours de certains articles sur plusieurs jours.
Travailler a minima sur les titres des articles ; combiner analyses automatisées quantitatives et analyses manuelles qualitatives ; compléter les sondes ponctuelles par des études longitudinales ciblées : telles sont donc les orientations que nous suivrons.
Pour autant, la question fondamenatle du procédé d'analyse sémantique automatisée n'est pas résolue :
Le plus simple serait de travailler sur les co-occurrences de termes à l'intérieur des titres des articles.
Pour aller plus loin, la lemmatisation des termes pourrait arriver à des rapprochements plus fins. Des outils comme Treetagger (outil de lemmatisation de texte - http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/) ou Open Calais (outil de taggage automatique de textes et de leurs relations) pourraient être explorés et mobilisés.
Il resterait toutefois à aller plus loin, au-delà de la seule analyse lexicale pour aller jusque vers une analyse sémantique. Sur des corpus aussi généralistes que ceux des articles de notre corpus, le thésaurus le plus adapté serait Rameau (BNF), mais il n'est pas exploitable, sauf pour des analyses manuelles (en recherchant directement termes associés ou génriques sur rameau.bnf.fr).
Surtout, entre l'analyse lexicale et l'analyse sémantique, nous ne sommes pas à l'abri de mauvaises interprétations, et là encore il faudrait procéder à des vérifications manuelles et qualitatives.
Pour toutes ces raisons, les décisions suivantes sont prises :
- Se renseigner sur les logiciels d'analyse de contenu existants auprès de personnes-ressources. Franck sollicitera à cette occasion ses collègues spécialistes au sein d'Elico.
- Il est nécessaire de procéder progressivement, en avançant à tâtons. Une découverte "artisanale" de ce que peut offrir notre base pour l'analyse de contenu doit être menée de façon exploratoire.
4) Mesure du degré de diversité.
Un rappel rapide des avancées à ce sujet lors des dernières réunions laisse penser que une fois les questions liées à l'analyse de contenu résolues, le traitement des résultats de ces analyses à travers la grille élaborée entre variété, équilibre et distribution (voir compte-rendus des précédentes réunions du sous-groupe) ne devrait pas poser de problème majeur.
* Prochaine échéance :
Une réunion aura lieu le mercredi 15 octobre, de 9h à 12h30.
Objectifs : premier test de l'exploitation de la base de données, avec a minima une analyse manuelle, et au mieux une analyse automatisée si nos connaissances sur le sujet ont suffisamment avancé d'ici là.
Entre-temps, des rencontres informelles pourront avoir lieu à l'Insa pour mieux découvrir la base, et faire ressortir des besoins, des requêtes.
Dostları ilə paylaş: |