31 mars 2009

Traduction d'xkcd et loi de Pareto

Le projet de traduction d'xkcd, conçu en un week-end et lancé début décembre, a plutôt bien démarré : 2/3 des planches de Randall Munroe sont maintenant traduites en français ! C'est plus que les versions russe (299/562) et espagnole (150/562)... pour une raison simple : le projet est collaboratif ! (Bon, et on traduit en dessous, et pas sur les images, aussi, hein, il faut reconnaître que c'est plus rapide). Une trentaine de personnes a participé : quelques amis, et une majorité d'internautes que je ne connais pas (vous pouvez vous signaler en commentaire de ce post afin que j'ajoute un petit lien sous votre pseudo dans la liste des traducteurs ;)).

Voici quelques données sur l'avancement du projet, au cas où vous voudriez vous lancer dans une aventure similaire. Tout d'abord, la chronologie de l'avancement du projet. J'ai indiqué par une bande rouge une période d'indisponibilité de l'interface de traduction (du 21 février au 13 mars) qui avait échappé à mon attention, le reste du site étant fonctionnel. La forme de la courbe en escaliers correspond à l'arrivée de participants motivés, qui se lassent au bout d'un moment, ou ont fini de traduire tout ce qui les intéressait (ou pensent que le site est cassé, à partir du 21 février :s).

Passons justement à la distribution des contributions. Pour la Wikipedia anglaise, Aaron Swartz nous apprenait en 2006 que 2% des contributeurs font presque 75% des modifications de l'encyclopédie. Pour la traduction d'xkcd, les pourcentages de participation des divers traducteurs se trouvent ici (quand plusieurs collaborateurs ont contribué à la traduction d'une planche, je leur attribue naturellement l'inverse du nombre de contributeurs et je divise finalement ces scores par le nombre total de planches en anglais pour obtenir les pourcentages). Notons que ces pourcentages ne prennent pas en compte la longueur des traductions réalisées (tout comme l'étude d'Aaron Swartz d'ailleurs), ce qui ne rend pas vraiment compte, par exemple, du travail de Kith sur la série à propos du Ministre de l'Internet. Toujours est-il que ces données font apparaître une loi classique : la loi de Pareto ! 20% des utilisateurs (les 6 plus gros collaborateurs) ont réalisé 80% des traductions. Ce soir, le nombre précis est même 79.62%, ce qui semblerait donc moins "élitiste" que la Wikipedia !

En fait, on voit même apparaître une distribution de Pareto (une loi de puissance qui vérifie la règle des 80-20), comme nous le montre la courbe log-log ci-contre.

On peut aussi avoir un aperçu des horaires et des jours de la semaine où les traducteurs montrent le plus d'activité (j'ai exclu les valeurs me concernant) : valeurs anormalement élevées le dimanche, à midi, et en pleine nuit, tout ça rappelle les habitudes de surf des étudiants.
Un petit aperçu de ces traductions, maintenant, avec le nuage arboré des mots apparaissant plus de 10 fois, ci-dessous. Je ne l'ai pas annoncé en grande pompe, j'attends une jolie interface web pour ça, mais ça y est (enfin), un outil pour créer des nuages arborés avec plein de paramètres personnalisés est disponible sur www.treecloud.fr (ou treecloud.org pour les anglophones). Attention, c'est un outil en ligne de commande, qui nécessite un détour par le manuel d'utilisation, en anglais. Mais ça en vaut la peine : le programme permet d'obtenir de jolis résultats, en particulier grâce à la coloration "chronologique" : les mots du nuage arboré ci-dessous apparaissent plutôt rouge s'ils se trouvaient dans les premières planches de xkcd, plutôt bleu s'ils sont beaucoup présents dans les planches récentes. On est en train, avec Jean, de tenter d'ajouter à ça des informations sur la dispersion des mots : plus de nouvelles quand ce sera prêt !
Et si ce nuage arboré vous intrigue, allez jeter un oeil à ces traductions de xkcd, ou abonnez-vous au flux RSS pour recevoir les dernières traductions dès qu'elles sont validées ! A propos, petit aparté sur le spam : les robots n'ont pas tardé à trouver le site et envoyer des traductions bien peu fiables, incitant plutôt à l'achat de petites pilules bleues, mais le flux reste faible (un spam par jour en moyenne) et la procédure de modération manuelle permet d'éviter de les laisser passer.

Pour finir, un grand merci à tous les participants à la traduction ! Internet est de plus en plus collaboratif, alors si vous avez un peu de temps, profitez-en pour vous lancer dans quelques aventures. C'est l'occasion de faire un peu de pub pour les JeuxDeMots, et Pti Clic, qui, dans le genre de Google Image Labeler ou VideoTagName, sont en train de construire petit à petit un magnifique réseau sémantique, à faire pâlir Wordnet. Les données récoltées sont en plus mises à disposition en format brut, ou consultables par des interfaces web, qui peuvent déjà être utilisées pour retrouver, par association d'idées, ces mots qu'on a sur le bout de la langue. Le premier jeu permet d'aider le système à apprendre des relations sémantiques entre mots (synonyme, contenu/contenant, lieu d'une action, etc), et le second (dont on devient vite accro, même en jouant au touchpad...) de renforcer ou préciser ces relations. Le meilleur moyen pour comprendre le principe est de tester en mode invité, et le meilleur moyen pour comprendre l'utilité des données produites est de les utiliser dans des applications diverses... ce qui ne manquera pas d'être fait bientôt sur ce blog !


Comme toujours, les données liées à ce billet sont disponibles : dans ce fichier tableur Open Office. Et le nuage arboré à ouvrir avec SplitsTree pour pouvoir zoomer, etc. Il a été construit par SplitsTree et TreeCloud avec une stoplist française, et les options distance=hyperlex minnb=11 window=100 unit=1 color=chronology.

Episodes précédent et suivant.

3 commentaires:

doc a dit…

Alors là, retrouver Gambeeeette dans un projet de traduction d'xkcd... disons que ça ne m'étonne pas tant que ça.

Enigme à résoudre, my name is Doc' :-)

Philippe a dit…

CHG ??? Sinon, j'ai du mal, il va falloir que les anonymes qui connaissent mon trouble passé s'identifient un peu mieux (avis au mystérieux mister PM, aussi, hein !)

Joshua Guthrie a dit…

http://www.lirmm.fr/~gambette/xkcd/index.php?id=559

Le "au temps pour moi" est la MEILLEURE traduction possible. J'ai failli hurler au scandale avant de relire l'originale et me rappeler que l'originale avait déjà un troll du genre.

Chapeau bas, je vous salue dignement.