9 janvier 2008

Sarkozy l'Orateur (1) : version prévue et prononcée du discours de la conférence de presse

Devinette : du sketch de quel humoriste engagé sont tirées les lignes qui suivent ?

« Le G8, mais enfin qu'est-ce que c'est ? On se réunit deux jours et demi, sans la Chine, sans l'Inde, sans le Brésil, sans le Mexique, sans l'Afrique du Sud. Simplement, deux milliards et demi de gens qu'on oublie. Ah, alors évidemment, on les invite pour le déjeuner du troisième jour. Le plus extraordinaire c'est qu'ils viennent. »
Non, pas Bedos. Non, pas Dieudonné... Mais bien notre Président, dans la version prononcée de son discours de conférence de presse d'hier, que vous ne trouverez pas en PDF sur le site de l'Elysée.Un petit aperçu de la réaction du public, avec Morin et Kouchner, et un troisième que je ne reconnais pas, qui se bidonnent. Bon, en fait tout le discours n'était pas prononcé sur un style aussi décontracté, qui apparaissait seulement dans les impros de Nico sur le texte original.

Alors évidemment, c'est le texte original qui m'avait attiré tout d'abord, pour en faire le nuage arboré. Contrairement au discours de voeux, la version PDF sur le site de l'Elysée a un codage étrange qui m'empêche d'en récupérer le texte (si vous comprenez ce qui se passe, ou savez comment le récupérer quand même, ça m'intéresse beaucoup !), heureusement que Linternaute (je n'ai jamais dit tout le bien que je pense de ce site où on trouve absolument tout et n'importe quoi) est là pour me fournir un document exploitable. Malheureusement les différences avec le discours réellement prononcé sont importantes ! Ni une, ni deux, me voilà parti dans la transcription. Mon temps de sommeil en a un peu pâti, mais le résultat est . Non seulement vous avez le texte, mais aussi une intuition sur sa prononciation, puisque je suis allé à la ligne à chaque pause. Les sauts de ligne indiquent seulement une différence thématique, ils correspondent à peu près aux sauts de paragraphe du discours prévu. Evidemment j'ai pu y glisser des erreurs ou omissions, n'hésitez pas à me les signaler...

Bon, et maintenant, jouons aux 7 différences entre les deux versions. Pour comparer deux fichiers j'utilise habituellement CompareIt qui essaie d'identifier des lignes entre fichiers (fichier du texte originalement prévu), et présente une visualisation plutôt bien faite de l'alignement effectué, la bande verticale sur la gauche. Pour un meilleur contraste, j'ai mis les lignes identiques en noir, celles ajoutées en vert, celles supprimées en rouge, et celles modifiées en bleu. CompareIt permet aussi d'exporter un rapport des différences avec les textes sur deux colonnes, que vous trouverez ici.

Peut être trouvez-vous plus lisible de voir sur un seul texte les deux versions, comme Jean Véronis l'avait fait pour le discours de Ségolène Royal à Villepinte. Pour cela j'ai utilisé Diff'Doc, qui est gratuit, voilà donc la synthèse des textes prévu et prononcé.

Evidemment ce document est une mine d'informations pour qui veut analyser le style oratoire de Sarkozy, puisqu'on y trouve à la fois ses longs passage d'improvisation, mais aussi ses petites corrections de détail, ou encore les passages qu'il a finalement décidé d'oublier. Il est flagrant sur la bande-image de gauche qu'il se lâche au fur et à mesure, et finit son discours en oubliant complètement le dernier paragraphe initialement prévu.

Au programme de la seconde partie de ce billet, bien sûr les nuages arborés des deux textes : est-ce que les modifications lors de la prononciation du discours changent radicalement les arbres ? Et peut-être aussi une analyse plus en profondeur des différences (le verbe épouser a été ajouté oralement par deux fois par rapport au texte original ;))...


Pour ceux qui ont lu en diagonale : le discours prévu, le discours prononcé, le diff Diff'Doc sur 1 colonne de texte, le diff CompareIt sur deux colonnes de texte, mon billet suivant sur le sujet.

8 commentaires:

LaurentLC a dit…

Excellente idée (et bravo pour la transcription, ça demande un courage qui confine à la dévotion...)
Voulant également faire l'arbre du discours "officiel", j'ai récupéré le PDF sur le site de l'Elysee, sans difficulté apparemment ; quel(s) problème(s) rencontrez-vous ? J'ai mis le PDF ici, mais vous rencontrerez peut-être les mêmes soucis avec le fichier...

FreeCorp a dit…

C'est pas du courage mais de l'inconscience, je pensais au début que les différences seraient mineures par rapport au texte de base.

C'est marrant, ils ont changé la version sur le site de l'Elysée (l'ancienne version ici). Les polices incluses ne sont pas les mêmes, ce n'est pas la même version de PostScript qui a fait la conversion depuis un fichier Word, c'est peut-être ça qui explique l'impossibilité d'extraire le texte correctement ?

Sinon on peut aussi noter l'auteur original, Ilhame BOUCHIKHI passée de Sarkozy.fr à Elysee.fr, et remplacée par "presidence" dans la dernière version.

FreeCorp a dit…

Les infos du PDF1, les infos du PDF2

FreeCorp a dit…

Ah, je ne suis pas le seul à avoir vu du Bedos dans cette conférence de presse...

FreeCorp a dit…

Merci à hpchavaz qui m'indique par mail un lien vers le programme Free PDF to Word Doc Converter qui est venu à bout du fichier PDF récalcitrant ! En fait, le fichier Word produit contenait un cadre de texte par ligne, il a fallu finir par un export HTML pour récupérer le texte d'un seul tenant...

hpc a dit…

Concernant la production d'un cadre de texte par ligne par "Free PDF to Word Doc Converter", il faut "décocher" l'option Uses Text-box pour récupérer le texte d'un seul tenant.

JR a dit…

C'est marrant, je me suis tapé le même boulot : vidéo + texte sur le site + pdf (impossible à copier-coller, je confirme...) pour chercher l'endroit où ça parle d'intelligence...
On devrait collaborer. Je prends les jours pairs!
jr

FreeCorp a dit…

Héhé, enfin comme tu le dis chez toi, "attention à l'addiction". Surtout après avoir pris plusieurs heures pour retransrire le discours, j'ai eu ma dose pour quelques semaines :).

En revanche si tu détectes quelques erreurs d'accord de pronoms relatifs, au détour d'un discours, ça ça m'intéresse !