Sarkozy l'Orateur (1) : version prévue et prononcée du discours de la conférence de presse
Devinette : du sketch de quel humoriste engagé sont tirées les lignes qui suivent ?
« Le G8, mais enfin qu'est-ce que c'est ? On se réunit deux jours et demi, sans la Chine, sans l'Inde, sans le Brésil, sans le Mexique, sans l'Afrique du Sud. Simplement, deux milliards et demi de gens qu'on oublie. Ah, alors évidemment, on les invite pour le déjeuner du troisième jour. Le plus extraordinaire c'est qu'ils viennent. »



Bon, et maintenant, jouons aux 7 différences entre les deux versions. Pour comparer deux fichiers j'utilise habituellement CompareIt qui essaie d'identifier des lignes entre fichiers (fichier du texte originalement prévu), et présente une visualisation plutôt bien faite de l'alignement effectué, la bande verticale sur la gauche. Pour un meilleur contraste, j'ai mis les lignes identiques en noir, celles ajoutées en vert, celles supprimées en rouge, et celles modifiées en bleu. CompareIt permet aussi d'exporter un rapport des différences avec les textes sur deux colonnes, que vous trouverez ici.
Peut être trouvez-vous plus lisible de voir sur un seul texte les deux versions, comme Jean Véronis l'avait fait pour le discours de Ségolène Royal à Villepinte. Pour cela j'ai utilisé Diff'Doc, qui est gratuit, voilà donc la synthèse des textes prévu et prononcé.
Evidemment ce document est une mine d'informations pour qui veut analyser le style oratoire de Sarkozy, puisqu'on y trouve à la fois ses longs passage d'improvisation, mais aussi ses petites corrections de détail, ou encore les passages qu'il a finalement décidé d'oublier. Il est flagrant sur la bande-image de gauche qu'il se lâche au fur et à mesure, et finit son discours en oubliant complètement le dernier paragraphe initialement prévu.
Au programme de la seconde partie de ce billet, bien sûr les nuages arborés des deux textes : est-ce que les modifications lors de la prononciation du discours changent radicalement les arbres ? Et peut-être aussi une analyse plus en profondeur des différences (le verbe épouser a été ajouté oralement par deux fois par rapport au texte original ;))...
Pour ceux qui ont lu en diagonale : le discours prévu, le discours prononcé, le diff Diff'Doc sur 1 colonne de texte, le diff CompareIt sur deux colonnes de texte, mon billet suivant sur le sujet.
8 commentaires:
Excellente idée (et bravo pour la transcription, ça demande un courage qui confine à la dévotion...)
Voulant également faire l'arbre du discours "officiel", j'ai récupéré le PDF sur le site de l'Elysee, sans difficulté apparemment ; quel(s) problème(s) rencontrez-vous ? J'ai mis le PDF ici, mais vous rencontrerez peut-être les mêmes soucis avec le fichier...
C'est pas du courage mais de l'inconscience, je pensais au début que les différences seraient mineures par rapport au texte de base.
C'est marrant, ils ont changé la version sur le site de l'Elysée (l'ancienne version ici). Les polices incluses ne sont pas les mêmes, ce n'est pas la même version de PostScript qui a fait la conversion depuis un fichier Word, c'est peut-être ça qui explique l'impossibilité d'extraire le texte correctement ?
Sinon on peut aussi noter l'auteur original, Ilhame BOUCHIKHI passée de Sarkozy.fr à Elysee.fr, et remplacée par "presidence" dans la dernière version.
Les infos du PDF1, les infos du PDF2
Ah, je ne suis pas le seul à avoir vu du Bedos dans cette conférence de presse...
Merci à hpchavaz qui m'indique par mail un lien vers le programme Free PDF to Word Doc Converter qui est venu à bout du fichier PDF récalcitrant ! En fait, le fichier Word produit contenait un cadre de texte par ligne, il a fallu finir par un export HTML pour récupérer le texte d'un seul tenant...
Concernant la production d'un cadre de texte par ligne par "Free PDF to Word Doc Converter", il faut "décocher" l'option Uses Text-box pour récupérer le texte d'un seul tenant.
C'est marrant, je me suis tapé le même boulot : vidéo + texte sur le site + pdf (impossible à copier-coller, je confirme...) pour chercher l'endroit où ça parle d'intelligence...
On devrait collaborer. Je prends les jours pairs!
jr
Héhé, enfin comme tu le dis chez toi, "attention à l'addiction". Surtout après avoir pris plusieurs heures pour retransrire le discours, j'ai eu ma dose pour quelques semaines :).
En revanche si tu détectes quelques erreurs d'accord de pronoms relatifs, au détour d'un discours, ça ça m'intéresse !
Enregistrer un commentaire