Convertir des corpus téléchargés sur Internet


Cette page n'envisage que les solutions gratuites. Il est possible d'acheter divers logiciels de conversion, non envisagés ici.

Exploiter au mieux la mise en page initiale

Afin d'exploiter au mieux la mise en page, il est conseillé de sauvegarder les fichiers au format HTML et d'ensuite les convertir dans un autre format (*.doc, *.rtf, *.txt...) à l'aide d'un logiciel de traitement de texte tel que Word. En effet, cela permettra d'établir un lien entre la mise en forme et des types de données appelant un balisage particulier.

Nettoyer les scories

Dans tous les cas, le fichier « texte seulement » (*.TXT) obtenu doit être inspecté systématiquement, les problèmes de conversion de caractères n’étant pas rares. On sera par ailleurs vigilant à confronter systématiquement le texte original et la version « texte seulement » pour rechercher toutes les causes de rupture du texte suivi, notamment :

Le passage du correcteur orthographique est souvent très utile pour dépister les problèmes qui subsistent.

Il est important de souligner que toute manipulation d'un texte d'autrui doit être faite dans le respect des droits d'auteur.

Du format HTML au traitement de texte

  1. Enregistrer le fichier au format HTML (et non pas TXT, car les fins de ligne deviennent souvent des fins de paragraphe) ;
  2. Ouvrir le fichier HTML à partir du traitement de texte ;
  3. Sauvegarder au format du traitement de texte (p.ex. *.TXT, *.RTF ou *.DOC).

Du format PDF (Acrobat Reader) au format TXT grâce à un gratuiciel

Si l'on ne souhaite pas tenir compte de la mise en forme pour baliser certains éléments du texte, une solution simple et performante consiste à utiliser le gratuiciel Convert associé au concordancier PhraseContext.

Du format PDF (Acrobat Reader) au format TXT via le format HTML (via Internet)

  1. Convertir le fichier au format HTML via un courrier électronique ou via un formulaire sur le site d'Adobe
  2. Agir ensuite comme au point précédent « Du format HTML au traitement de texte ».

Du format PDF (Acrobat Reader) au format TXT via le format HTML (via un plug-in)

  1. Installer le plug-in Access 4.05 pour Acrobat Reader
  2. Dans Acrobat Reader, utiliser le menu « Fichier - Export document to HTML »
  3. Dans un logiciel de traitement de texte, p.ex. Word, récupérer les données et les enregistrer au format désiré.

Attention, ce plug-in ne fonctionne pas (en octobre 2003) avec les nouvelles versions 5 du logiciel Acrobat Reader (voir point suivant).

Du format PDF (Adobe Acrobat) au format RTF (via un plug-in)

Cette méthode peut-être utilisée par ceux qui possèdent un logiciel Adobe Acrobat complet (payant).

  1. Installer gratuitement le plug-in Make Accessible pour Acrobat 5
  2. Dans Acrobat Reader, utiliser le menu « Fichier - Traitement par lot - Enregistrer tout sous RTF »
  3. Dans un logiciel de traitement de texte, p.ex. Word, récupérer les données et les enregistrer au format désiré.

Le résultat est relativement décevant dans la mesure où toutes les fins de ligne sont considérées comme des fins de paragraphe.

Du format PostScript au format TXT via les formats PDF et HTML

Le format PostScript est très utilisé par les communautés scientifiques utilisant les systèmes UNIX et LINUX.

  1. Exemple de fichier PostScript à télécharger
  2. Pour ouvrir un fichier PostScript sous Windows, installer le logiciel GhostScript et son interface graphique GSview
  3. Ouvrir le fichier PostScript à l’aide de Gsview
  4. Utiliser le menu « Fichier - Convert… » et choisir le type PDFwrite
  5. Sauvegarder le fichier avec une extension *.PDF
  6. Ouvrir le fichier PDF avec Acrobat Reader et le sauvegarder au format HTML conformément au point précédent
  7. Dans un logiciel de traitement de texte, p.ex. Word, récupérer les données et les enregistrer au format désiré.

Remarque : la conversion ne semble pas fonctionner pour un document PDF incluant des caractères particuliers (p.ex. la phonétique ou des symboles mathématiques). Dans un tel cas, il convient d'utiliser la procédure du fichier attaché à un courrier adressé à Adobe (cf. ci-dessus).

Comment baliser le corpus ?

Consulter le site de la revue Texto : Fiches cuisine et équipement de survie pour corpus


[Logo Termisti] Retour à la page d'accueil de Termisti


dernière mise à jour : 20 décembre 2005
© .