tag:blogger.com,1999:blog-285106652024-03-13T23:35:52.980+01:00Je véronise...Petits travaux ludico-informatiquesPhilippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.comBlogger87125tag:blogger.com,1999:blog-28510665.post-11204741541731651012013-10-08T23:55:00.001+02:002013-10-09T00:07:04.880+02:00Hommage en nuage<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="margin-left: auto; margin-right: auto; text-align: center; width: 680px;">
<br />
<object data="http://philippe.gambette.free.fr/Blog/BlogJeanVeronis.txt.liddell.colored.10wordwindow.80words.svg" height="450" name="Graph" type="image/svg+xml" width="680">Nuage arboré du blog de Jean Véronis</object></div>
<div dir="ltr" style="text-align: left;" trbidi="on">
<span style="text-align: left;"><br /></span>
<br />
<p style="text-align: justify;">C'est sur son blog qu'étaient apparus <a href="http://aixtal.blogspot.com/2007/12/actu-une-ferrari-dans-un-arbre.html">pour la première fois</a> ces nuages de mots organisés autour d'un arbre. Et tant d'autres choses qui m'avaient épaté, inspiré, motivé. Attiré vers le TAL pendant mon master (les excursions à Orsay, les samedis de l'ATALA), mon doctorat (les collaborations à l'interface avec les sciences humaines), et aujourd'hui encore dans mon activité <a href="http://www.treecloud.org/">de recherche</a> et <a href="http://www.lirmm.fr/~gambette/EnsInfoling2013.php">d'enseignement</a>. Poussé à récolter des données, expérimenter, programmer, puis diffuser codes sources, outils, et résultats préliminaires, sur un mode plus souple, plus réactif, que celui de la publication scientifique.</p>
<p style="text-align: justify;">Dans les <a href="http://storify.com/PhilippeG/jean-veronis/">hommages que j'ai pu lire</a> après cette triste journée de rentrée, j'ai constaté à quel point les personnes qui ont croisé la route de Jean dans diverses occasions ont été marquées et inspirées, pour des raisons variées. Cet arbre des thématiques du <a href="http://blog.veronis.fr/">blog Aixtal</a> peine à représenter la diversité de ses travaux, et ne dit rien de son enthousiasme communicatif. Il lui manque probablement quelques <a href="https://plus.google.com/105059116491476261709/about">rayons de soleil provençal</a>... et le <a href="http://blog.veronis.fr/2008/08/actu-clochemerle-en-provence.html">bruit des cigales</a> !</p>
</div>
</div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com0tag:blogger.com,1999:blog-28510665.post-18631303630781620552013-03-27T16:37:00.000+01:002013-03-28T15:35:58.268+01:00Pour alimenter le débat sur les blagues Carambar<div dir="ltr" style="text-align: left;" trbidi="on">
<a href="http://philippe.gambette.free.fr/Blog/201009Carambars/CarambarData.jpg" onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}"><img alt="" border="0" src="http://philippe.gambette.free.fr/Blog/201009Carambars/CarambarData.jpg" style="cursor: hand; cursor: pointer; float: right; margin: 0 0 10px 10px; width: 100px;" /></a>Quelques liens pour ceux qui auraient lu <a href="http://www.lemonde.fr/idees/article/2013/03/27/nos-petites-madeleines_3148785_3232.html">cet article du Monde</a> :<br />
<ul style="text-align: left;">
<li>deux billets sur ce blog :</li>
<ul>
<li><a href="http://gambette.blogspot.fr/2009/11/mathematiques-des-papillotes.html">Mathématiques des papillotes (1/2)</a></li>
<li><a href="http://gambette.blogspot.fr/2010/09/mathematiques-des-papillotes-22.html">Mathématiques des papillotes (2/2) Carambars</a></li>
</ul>
<li>une <a href="http://www.youscribe.com/catalogue/tous/loisirs-et-hobbies/humour/estimation-du-nombre-de-citations-de-papillotes-et-de-blagues-carambar-2054872">parodie d'article scientifique sur le sujet</a></li>
<li>et un <a href="http://fr.slideshare.net/PhilippeGambette/estimation-du-nombre-de-citations-de-papillotes-et-de-blagues-carambar">diaporama de présentation</a>.</li>
</ul>
<div>
Ma madeleine personnelle, en ce moment, c'est de retrouver du temps pour bloguer... A bientôt sur ces pages ?<br />
<br />
<br />
<div id="__ss_1395793" style="text-align: left; width: 425px;">
<object height="355" style="margin: 0px;" width="425"><param name="movie" value="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=re20090506papillotes-090506132447-phpapp01&stripped_title=estimation-du-nombre-de-citations-de-papillotes-et-de-blagues-carambar"><param name="allowFullScreen" value="true"><param name="allowScriptAccess" value="always"><embed src="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=re20090506papillotes-090506132447-phpapp01&stripped_title=estimation-du-nombre-de-citations-de-papillotes-et-de-blagues-carambar" type="application/x-shockwave-flash" allowscriptaccess="always" allowfullscreen="true" width="425" height="355"></embed></object></div>
<br />
<br /></div>
<div style="overflow: hidden; position: relative;">
<iframe allowfullscreen="" frameborder="0" height="442" marginheight="0" marginwidth="0" mozallowfullscreen="" scrolling="no" src="http://www.youscribe.com/BookReader/IframeEmbed?productId=2054872&documentId=2032530&token=&width=620&height=400&startPage=1&displayMode=double&fullscreen=0" style="border: solid 1px #BCBDBC; overflow: hidden;" webkitallowfullscreen="" width="620"></iframe></div>
</div>
Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com0tag:blogger.com,1999:blog-28510665.post-25199990257187872822011-06-12T17:20:00.001+02:002011-06-12T17:21:58.323+02:00Le vocabulaire des entreprises pour booster son CV<a href="http://www.amazon.fr/gp/product/1409298086/ref=as_li_ss_il?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=1409298086" onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}"><img style="float:right; margin:0 0 10px 10px;cursor:pointer; cursor:hand;width: 68px; height: 110px;" src="http://ws.assoc-amazon.fr/widgets/q?_encoding=UTF8&Format=_SL110_&ASIN=1409298086&MarketPlace=FR&ID=AsinImage&WS=1&tag=lescritiqucin-21&ServiceVersion=20070822" border="0" alt="" /></a><div>Utiliser le vocabulaire de l'entreprise est un conseil donné aux <a href="http://jd.apec.fr/Emploi-stage/Premier-job/Tous-nos-conseils/Etudiants-et-stages/Commencez-a-chercher-avant-la-fin-de-vos-etudes/(linked)/47700">jeunes diplômés de l'université</a> en recherche de leur premier emploi, ou aux <a href="http://adoctalentmanagement.blogspot.com/2010/02/entretien-dembauche-une-question-de.html">jeunes docteurs</a> qui veulent s'orienter dans le privé après la thèse. CV, lettre de motivation, entretien, pour tout cela il faut <b>s'adapter au langage de son interlocuteur</b>. Sans pour autant parler uniquement en <a href="http://jd.apec.fr/Emploi-stage/Premier-job/Tous-nos-conseils/Entretien/Jargon-d-entreprise-drole-mais-utile">jargon d'entreprise</a>, <a href="http://www.dicomoche.net/">mots moches</a> compris.</div><div><br /></div><div>C'est suite à une sensibilisation à cette problématique par <a href="http://www.univ-montp2.fr/espace-etudiants-um2/aide-a-linsertion-professionnelle-827/id-menu-343">Naïma Maybel</a> lors d'un <a href="http://www.adum.fr/as/ed/contact/page.pl?page=e_ptidej#cr8">P'tit Déj' d'information</a> de <a href="http://contact.asso.fr/">Contact</a>, l'association des doctorants et docteurs de l'Académie de Montpellier, que nous nous sommes lancés avec <a href="http://boostercv.fr/info/contact.php">Paola Salle</a>, la présidente de l'asso, dans la conception d'un site web qui aide à <a href="http://boostercv.fr/candidatures/index.php"><b>connaître ce vocabulaire spécifique en l'extrayant des offres d'emploi du site de l'APEC</b></a>.</div><div><br /></div><div>En fait, <b><a href="http://boostercv.fr/">boosterCV.fr</a></b> va plus loin, en offrant des outils d'<b>exploration des offres d'emploi </b>(<a href="http://boostercv.fr/map/index.php">par région, par entreprise</a>, par <a href="http://boostercv.fr/hypertree/">métier</a>) qui manquent un peu au site de l'APEC, conçus par Paola. Ce n'est qu'un début, n'hésitez pas à nous <a href="http://boostercv.fr/info/contact.php">signaler des fonctionnalités que vous aimeriez voir sur le site</a>, ou à <a href="http://boostercv.fr/info/newsletter.php">laisser vos coordonnées</a> pour recevoir des informations sur les prochaines mises à jour. On envisage aussi de faire le même travail avec les offres d'emploi de <a href="http://www.profilculture.com/">ProfilCulture</a>, à destination des étudiants, doctorants et docteurs en sciences humaines et sociales, pour qui les offres de l'APEC peuvent sembler inadaptées.</div><div><br /></div>Bien sûr, ce site web n'est pas la solution miracle, et les doctorants les mieux préparés pour poursuivre leur carrière en entreprise sont ceux qui <b>s'y sont intéressés dès le début de leur thèse</b>. Formations doctorales pour être en contact avec des professionnels du secteur privé, échanges avec des chefs d'entreprise ou des responsables de ressources humaines dans les rencontres docteurs/entreprises (le mois dernier <a href="http://www.webtv.univ-montp2.fr/6658/6eme-rencontre-docteurs-et-entreprises-languedoc-roussillon/">à Montpellier</a>, bientôt à <a href="http://forum.aquidoc.fr/">Bordeaux</a> et <a href="http://phdtalent.com/home/visitors">Paris</a>), valorisation des travaux de thèse sur les pages web des doctorants ou sur <a href="http://hal.archives-ouvertes.fr/">HAL</a> (utilisé par les structures de transfert technologique pour répondre à des besoins des entreprises)... Tout cela permet de mettre un pied dans l'entreprise, et peut déboucher sur un emploi pour un docteur, ou une <a href="http://fr.wikipedia.org/wiki/Contrat_doctoral#Mission_du_.C2.AB_doctorant_contractuel_.C2.BB">mission d'expertise</a> pour un doctorant.<div><br /></div><div>Participer, à distance, à la compilation des CV des participants à la <a href="http://www.rencontre-docteurs-entreprises.com/">Rencontre Docteurs Entreprises de Montpellier</a> m'a permis de constater, cette année, à quel point les doctorants et docteurs <b>savent mettre en valeur leurs compétences en utilisant le vocabulaire de l'entreprise</b>. Evidemment, il faut qu'ils y aient été <b>sensibilisés </b>(ce qui était le cas pour la plupart des participants à cette rencontre), et qu'ils aient un <b>petit coup de pouce</b> : contrairement à <a href="http://www.contact.asso.fr/fip/2010/">l'an dernier</a> nous avons imposé cette année des <b>CV d'une page</b>, en fournissant un <a href="http://contact.asso.fr/fip/2011/CV/CVexemple.pdf">exemple</a> <span class="Apple-style-span">(<a href="http://contact.asso.fr/fip/2011/CV/CVexemple.odt">version OpenOffice</a>)</span>. Cela a conduit à une grosse majorité de documents très professionnels, dont voici le nuage arboré :</div><div><a href="http://philippe.gambette.free.fr/Blog/2011Apec/CompetencesDocteursNuageArbore.png" onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 585px; height: 402px;" src="http://philippe.gambette.free.fr/Blog/2011Apec/CompetencesDocteursNuageArbore.png" border="0" alt="" /></a></div><div><br /></div><div>Notez les <b>compétences transversales</b> dans le sous-arbre <b>en haut à gauche</b> (qui correspondent assez bien <a href="http://boostercv.fr/candidatures/#arbrecompet">à la demande</a>) et les <b>compétences linguistiques et bureautiques</b> dans celui<b> en haut à droite</b>. <b>En bas à droite</b>, les <b>compétences techniques</b>, bien marquées par le grand nombre de jeunes chercheurs en chimie ou biologie-santé parmi les participants de cette année.</div><div><br /></div><div>Pour compléter sur ce sujet, pour les spécialistes, j'ajouterai que la <b>classification arborée</b> de la centaine de CV reçus, selon une distance intertextuelle, a également très bien fonctionné pour faire apparaître <b>quatre sous-arbres</b> : sciences du vivant, sciences chimiques, sciences de l'ingénieur, et sciences humaines et sociales... en utilisant un <b><a href="http://fr.wikipedia.org/wiki/Mot_vide">anti-dictionnaire</a> approprié </b>! En effet, les participants ayant utilisé le CV fourni en exemple se retrouvaient initialement dans un même sous-arbre à cause des mots "loisirs", "intérêts" ou encore "sports" qui causaient ce rapprochement. En fait, la classification thématique était améliorée en enlevant l'ensemble des mots attendus dans ces CV de doctorants et docteurs montpelliérains, je vous dévoile ici l'<a href="http://philippe.gambette.free.fr/Blog/2011Apec/AntidicoCv.txt">anti-dictionnaire utilisé</a>.</div><div><br /></div><div>Je termine ce billet par un dernier outil à destination des doctorants et docteurs attirés par une poursuite de carrière dans le secteur privé, un <b>répertoire des compétences généralement acquises au cours du doctorat</b>, sous les deux formes les plus intéressantes que j'ai pu trouver à ce jour <span class="Apple-style-span">(en espérant que l'<a href="http://www.competences-docteurs.fr/">enquête d'ADOC Talent Management</a> débouchera sur un document qui les complétera utilement)</span> :</div><div>- une <a href="http://philippe.gambette.free.fr/Blog/2011Apec/CompetencesDocteurs1.jpg">liste structurée de compétences acquises par l'expérience de la recherche, ou l'expérience personnelle de la thèse</a> <span class="Apple-style-span">(source : Florent Olivier, Yann Cadiou, Philippe Larrue, Elisabeth Zaparucha & Aubépine Dahan, <i><a href="http://cms-files.univ-brest.fr/guest/EDSICMA/Rapport_final_TECHNOPOLIS_Competences_doctorants_docteurs_23-11-2007.pdf">Compétences professionnelles des doctorants et des docteurs</a></i>, 2007, p.49)</span>,</div><div>- un <a href="http://philippe.gambette.free.fr/Blog/2011Apec/CompetencesDocteurs2.jpg">tableau de correspondance des compétences acquises pendant le doctorat et recherchées par les recruteurs</a> <span class="Apple-style-span">(source : Anne-Flora Morin-Poulard, <a href="http://a2d2.free.fr/divers/rapport_docteurs_2005.pdf"><i>Insertion des jeunes docteurs</i></a>, 2005, p.45)</span>.</div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com0tag:blogger.com,1999:blog-28510665.post-39427039275641985272011-02-28T22:51:00.002+01:002011-03-01T01:21:46.262+01:00Compléter sa CD-thèque : Set Cover pour une intégrale Dvorak ?Un peu de <b>programmation linéaire en nombres entiers</b> aujourd'hui, appliquée à la constitution d'une <b>collection de CD</b>. Depuis son <a href="http://www.amazon.fr/gp/product/B000A0HFZS?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B000A0HFZS">édition intégrale des oeuvres de Mozart en 2005</a>, Brilliant Classics a récidivé avec <a href="http://www.amazon.fr/gp/product/B000GCG8Y4?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B000GCG8Y4">Bach</a> en 2006, <a href="http://www.amazon.fr/gp/product/B000JJRAZ0?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B000JJRAZ0">Chopin</a> et <a href="http://www.amazon.fr/gp/product/B000VHTS3C?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B000VHTS3C">Beethoven</a> en 2007, <a href="http://www.amazon.fr/gp/product/B0012Y1J3K?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B0012Y1J3K">Brahms</a> et <a href="http://www.amazon.fr/gp/product/B001I4YWGA?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B001I4YWGA">Haydn</a> et <a href="http://www.amazon.fr/gp/product/B001IAGQXG?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B001IAGQXG">Rachmaninov</a> en 2008. A chaque fois avec <a href="http://operacritiques.free.fr/css/index.php?2007/04/12/584-integrales-brilliant-classics-brillant-mozart-bach-chopin-beethoven-complete-works-samtliche-werke-saemtliche">des prix canons</a>. Pour Schubert et Dvorak, en revanche, il faut être patient, et ça m'embête bien...<br /><br />Alors comment <b>réunir une intégrale d'un compositeur en achetant le minimum de CD</b> <span class="Apple-style-span" style="font-size: x-small;">(sans pirater bien sûr !)</span> ? Cela correspond précisément au <b>problème <a href="http://en.wikipedia.org/wiki/Set_cover_problem">SetCover</a></b>. Les données : des éléments (les oeuvres), et des ensembles de ces éléments (les CD qui réunissent une ou plusieurs oeuvres). Le problème : sélectionner un minimum de ces ensembles pour couvrir tous les éléments. Si vous voulez optimiser non pas le nombre de CD mais le prix total, il faut considérer la version pondérée du problème, en attribuant à chaque CD un poids qui correspond à son prix, et en cherchant à <b>couvrir tous les éléments par des ensembles dont la somme des poids est minimale</b>.<br /><br />Illustrons cela sur les 9 symphonies de Dvorak. Le <a href="http://fr.wikipedia.org/wiki/Graphe_biparti">graphe biparti</a> ci-dessous représente les CD sur la ligne du haut, les symphonies sur la ligne du bas, et chaque CD est relié aux symphonies qu'il contient.<br /><br /><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 700px; height: 378px;" src="http://philippe.gambette.free.fr/Blog/2011CDtheque/SetCover.png" border="0" alt="" usemap="#MAPSETCOVER" /><map name="MAPSETCOVER"><area shape="POLY" coords="700,94,700,0,634,0,636,20,656,20,666,39,645,42,645,94,700,94" href="http://www.amazon.fr/gp/product/B00004VEPS?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B00004VEPS" target="_self"><area shape="POLY" coords="601,120,656,120,656,94,639,94,641,37,656,37,653,20,623,20,604,24,604,39,623,44,623,62,604,66,601,120" href="http://www.amazon.fr/gp/product/B00005UOY7?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B00005UOY7" target="_self"><area shape="POLY" coords="558,0,623,0,623,19,599,22,601,39,619,42,619,64,601,64,602,94,567,94,567,40,584,40,584,20,558,20,558,0" href="http://www.amazon.fr/gp/product/B0000042EI?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B0000042EI" target="_self"><area shape="POLY" coords="528,121,584,120,584,98,564,96,562,37,582,37,579,22,530,20,530,40,542,40,542,66,530,67,528,121" href="http://www.amazon.fr/gp/product/B000A6OC6M?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B000A6OC6M" target="_self"><area shape="POLY" coords="506,96,525,96,523,66,542,64,542,44,526,42,523,19,542,19,540,0,486,0,486,20,506,20,506,39,491,44,491,94,506,96" href="http://www.amazon.fr/gp/product/B000069IIJ?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B000069IIJ" target="_self"><area shape="POLY" coords="456,121,506,121,506,98,488,98,488,40,503,37,501,20,452,24,454,39,472,39,472,66,457,69,456,121" href="http://www.amazon.fr/gp/product/B0001CPLWE?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B0001CPLWE" target="_self"><area shape="POLY" coords="412,0,472,0,472,20,450,20,450,40,467,40,469,66,454,64,452,93,434,93,417,89,418,42,434,39,434,19,412,19,412,0" href="http://www.amazon.fr/gp/product/B003DQWPAG?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B003DQWPAG" target="_self"><area shape="POLY" coords="434,120,380,115,380,64,393,61,393,42,376,40,376,24,403,19,425,25,425,39,415,39,415,91,432,96,434,120" href="http://www.amazon.fr/gp/product/B000TLEGR8?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B000TLEGR8" target="_self"><area shape="POLY" coords="361,115,376,115,376,64,393,61,393,42,375,42,373,20,388,19,388,0,332,0,332,20,361,20,361,39,344,44,342,93,361,96,361,115" href="http://www.amazon.fr/gp/product/B0000013NU?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B0000013NU" target="_self"><area shape="POLY" coords="305,123,354,125,353,100,337,96,339,39,361,35,353,24,305,20,305,40,322,44,322,64,305,67,305,123" href="http://www.amazon.fr/gp/product/B0000013NU?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B0000013NU" target="_self"><area shape="POLY" coords="261,0,322,0,321,20,300,19,300,42,322,42,322,64,300,64,300,89,268,94,265,42,285,39,285,17,260,17,261,0" href="http://www.amazon.fr/gp/product/B00008Y4II?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B00008Y4II" target="_self"><area shape="POLY" coords="226,121,285,120,283,96,261,96,261,40,280,37,278,20,256,17,228,24,228,35,248,40,248,64,229,67,226,121" href="http://www.amazon.fr/gp/product/B0009J2S0C?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B0009J2S0C" target="_self"><area shape="POLY" coords="192,93,228,94,224,62,245,62,245,40,224,40,224,24,248,17,245,0,184,0,186,20,206,20,206,34,189,46,192,93" href="http://www.amazon.fr/gp/product/B0000013NT?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B0000013NT" target="_self"><area shape="POLY" coords="153,123,206,120,204,100,184,98,186,44,191,39,204,34,202,22,148,20,150,34,172,40,172,66,159,69,153,123" href="http://www.amazon.fr/gp/product/B000AA7DFK?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B000AA7DFK" target="_self"><area shape="POLY" coords="170,62,148,62,147,96,115,94,118,44,132,37,132,20,115,20,115,0,172,0,172,19,145,19,145,39,169,40,170,62" href="http://www.amazon.fr/gp/product/B001OBV9WM?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B001OBV9WM" target="_self"><area shape="POLY" coords="76,123,132,125,132,100,113,98,113,39,130,35,125,24,105,20,78,24,79,35,93,40,93,64,83,66,76,123" href="http://www.amazon.fr/gp/product/B00000355N?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B00000355N" target="_self"><area shape="POLY" coords="44,0,89,0,89,20,72,20,72,39,93,42,93,61,76,62,76,96,40,91,37,40,54,39,54,17,39,17,44,0" href="http://www.amazon.fr/gp/product/B0000274WI?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B0000274WI" target="_self"><area shape="POLY" coords="0,17,49,20,51,37,34,37,39,93,54,98,54,123,0,123,0,17" href="http://www.amazon.fr/gp/product/B0000274WP?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=B0000274WP" target="_self"></map>La solution est montrée en rouge. Comment l'ai-je trouvée ? Le problème est NP-complet, il n'existe donc probablement pas d'algorithme rapide (qui s'exécutera en temps polynomial par rapport à la taille de l'entrée du problème) pour le résoudre. Cependant, il existe un moyen rapide en pratique pour de petites instances du problème : le coder par un programme linéaire en nombres entiers <span class="Apple-style-span" style="font-size: x-small;">(cette expression barbare est déjà apparue dans <a href="http://gambette.blogspot.com/2011/01/meme-scrabble-international.html">le billet précédent</a>)</span>. Vulgarisons un peu pour montrer comment ça fonctionne, en utilisant les mêmes notations que l'<a href="http://en.wikipedia.org/wiki/Set_cover_problem">article Wikipedia sur SetCover</a> : il s'agit d'associer à chaque CD appelé <i>S</i> une variable binaire <i>c</i>(<i>S</i>) qui prend la valeur 1 si le CD fait partie de la solution, 0 sinon. En appelant <i>x</i>(<i>S</i>) le coût du CD <i>S</i>, pour calculer le coût total de la solution, que l'on cherche à minimiser, il faut faire la somme (pour tout <i>S</i>) des <i>x</i>(<i>S</i>)*<i>c</i>(<i>S</i>). On ajoute des contraintes pour assurer que chaque symphonie est bien présente dans un des CD de la solution : pour toute symphonie <i>e</i>, la somme des <i>c</i>(<i>S</i>), pour l'ensemble des CD <i>S</i> qui contiennent la symphonie <i>e</i>, est supérieure ou égale à 1.<br /><br />Et maintenant que le problème est ainsi formulé de manière mathématique, comment trouver les valeurs solutions pour les variables <i>c</i>(<i>S</i>) ? En théorie, on résout rapidement une relaxation du problème (c'est-à-dire la version du problème où on laisse prendre à <i>c</i>(<i>S</i>) n'importe quelle valeur entre 0 et 1, comme si on avait le droit d'acheter des portions de CD...), puis une fois cette solution trouvée, on va essayer d'en déduire (et c'est cette étape qui risque de prendre du temps) une solution où les <i>c</i>(<i>S</i>) prennent soit la valeur 0, soit la valeur 1. En pratique, on utilise par exemple le programme <a href="http://www.gnu.org/software/glpk/">GLPK</a> qui est gratuit, et <a href="http://gnuwin32.sourceforge.net/packages/glpk.htm">s'installe aussi sous Windows</a>. On commence par s'inspirer du fichier exemple (ou on lit la doc') pour formuler le problème dans le langage voulu, et on obtient le fichier de paramètres <a href="http://philippe.gambette.free.fr/Blog/2011CDtheque/dvorak.mod">dvorak.mod</a>. On exécute alors GLPK avec la ligne de commande :<br /><span class="Apple-style-span" style="font-family:Courier;">"C:\Program Files\GnuWin32\bin\glpsol.exe" -m "C:\Program Files\GnuWin32\bin\examples\dvorak.mod"</span><br />La réponse s'affiche : <span class="Apple-style-span" style="font-family:Courier;">"Optimal set cover has cost 4460 with 3 elements with sets: 3 8 16"</span>, ce qui correspond à ma solution en rouge qui coûte donc 44 euros 60.<br /><br />Vous allez me dire que dans une bonne intégrale de musique classique, le prix n'est pas votre critère de sélection. Vous voulez assurer une certaine <b>cohérence dans votre collection</b>, en achetant toutes les symphonies enregistrées par le même orchestre ? Dans ce cas regroupez en un seul tous les ensembles qui correspondent à ces enregistrements. Vous voulez ajouter un <b>critère de qualité</b> ? N'utilisez pas le simple prix comme pondération, mais, par exemple, divisez-le par votre score de qualité pour chaque CD, score d'autant plus élevé que vous appréciez le CD.<br /><br />Pour Dvorak, malheureusement, cette modélisation n'a pas suffi à résoudre ma quête d'une intégrale en CD, tout simplement parce que <b>certaines oeuvres ne sont à ma connaissance pas enregistrées</b>. En voici la liste, au cas où vous voudriez vous lancer dans des "world premiere recordings", les numéros de référence correspondent au <a href="http://fr.wikipedia.org/wiki/Liste_des_%C5%93uvres_d'Anton%C3%ADn_Dvo%C5%99%C3%A1k">catalogue Burghauser</a> :<br /><ul><li>B11 intégrale des chants du cycle Cyprès,</li><li>B13 22 Songs,</li><li>B16 Alfred,</li><li>B22/B43 Potpourri on King and Charcoal Burner,</li><li>B48b Nocturne in B major (piano 4 mains),</li><li>B113 Festival Song,</li><li>B119 Gallop in E major,</li><li>B125 Josef Kajetán Tyl,</li><li>B143 Hymn of the Czech Peasants,</li><li>B204 Song of the Smith of Lešetín.</li></ul>A défaut des enregistrements, je suis <b>preneur d'infos sur les partitions</b> ! Et je vous laisse découvrir le reste de son oeuvre sur le <a href="http://alain.cf.pagesperso-orange.fr/">site francophone de référence sur Antonin Dvorak</a>.Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com5tag:blogger.com,1999:blog-28510665.post-9832771613145613262011-01-23T23:41:00.006+01:002011-02-03T21:41:28.654+01:00Mème : Scrabble international<a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/2011Scrabble/Diffusion.png"><img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/2011Scrabble/DiffusionMini.png" border="0" alt="" /></a><div>Nouvelle chaîne dans ma boîte mail, nouvelle analyse de <a href="http://fr.wikipedia.org/wiki/M%C3%A8me">mème</a> sur ce blog (après la <a href="http://gambette.blogspot.com/2007/03/analyse-du-buzz-f-list-de-la-blogosphre.html">F-list</a>, et <a href="http://gambette.blogspot.com/2009/09/bilan-du-questionnaire-fait-ou-pas.html">fait-ou-pas</a>) : le "<b>Scrabble International</b>".</div><div><br /></div><div>Il s'agit d'une liste de mots de 6 lettres, à laquelle on doit ajouter un mot français :</div><div>- de 6 lettres pas encore présent dans la liste</div><div>- ayant exactement une lettre de différence avec le mot précédent (dont les lettres sont éventuellement réordonnées).</div><div><br /></div><div>Sont ajoutés le prénom et la ville du participant, ainsi que sa date de participation. Voilà l'exemple de la <a href="http://philippe.gambette.free.fr/Blog/2011Scrabble/ScrabbleInternational.txt">liste que j'ai reçue</a> (209 mots). J'en ai trouvé quatre autres sur le net, de <a href="http://fr.groups.yahoo.com/group/cyclades2006/message/193">124</a>, <a href="http://fr.dir.groups.yahoo.com/group/AFRIQUALITE/message/1988?l=1">85</a>, <a href="http://agri-convivial.forumactif.com/t11965-petit-jeux">216</a> et <a href="http://patrice38.wordpress.com/2010/04/22/scrabble-international-de-6-lettres/">89</a> mots, qui montre que la liste a voyagé (par mail, pas sur la blogosphère apparemment) en Belgique d'où elle est partie, en France, en Algérie, en Suisse, au Canada, au Maroc... L'arbre de diffusion à gauche résume l'historique de ces listes.</div><div><br /></div><div>Je me suis demandé quelle taille pourrait atteindre cette liste, en théorie. Eh oui, car en pratique, comme pour tous les mèmes, les participants ne suivent pas toujours les règles, <i>éviter</i> et <i>tourbe </i>sont deux fois dans la première liste, <i>piéger</i> et <i>pingre</i> dans la cinquième, et je ne parle pas de ceux qui oublient d'inscrire la date, ou prennent un malin plaisir à changer le format pour que je ne puisse pas récupérer toutes les infos facilement avec un script.</div><div><br /></div><div>Bref, supposons que tout le monde suive les règles, le jeu correspond à construire un chemin qui ne repasse jamais pas le même sommet (en bleu dans l'illustration ci-dessous) dans un graphe :</div><div>- dont les sommets sont les mots français de 6 lettres</div><div>- dont les arêtes rejoignent deux mots qui ont une lettre de différence.</div><div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/2011Scrabble/Graphe.png"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/2011Scrabble/GrapheMini.png" border="0" alt="" /></a></div><div>Quelles sont les propriétés de ce graphe ? Quelle est la taille du plus long chemin qu'il contient ? Est-ce que 6 lettres est la taille de mots la plus adaptée pour assurer le succès de ce mème ? Voici les quelques questions auxquelles je vais tenter de répondre dans ce billet, avant une suite éventuelle qui sera dédiée à une analyse des données des les 5 listes récoltées.</div><div><br /></div><div>Première chose à faire, construire ce graphe à partir d'une liste de tous les mots français. Je récupère ça <a href="http://pageperso.lif.univ-mrs.fr/~michel.vancaneghem/mait/devoir1/francais.mots">chez un collègue marseillais</a>, regroupe les mots par taille en passant tout en minuscules et en enlevant les lettres accentuées : 2 mots de taille 1, 81 de taille 2, 427 de taille 3, 1799 de taille 4, 5897 de taille 5, 13931 de taille 6... Tiens tiens, ça augmente comme ça jusqu'à 50097 (taille 10) avant de redescendre. Mais la longueur du plus long chemin n'est pas directement reliée à la taille du graphe : certes, celui des mots de 10 lettres a plus de sommets, mais il est moins dense (moins d'arêtes), et contient donc probablement moins de longs chemins. Grâce à quelques scripts en Python, voici les réseaux obtenus pour les mots de taille <a href="http://philippe.gambette.free.fr/Blog/2011Scrabble/Mots3.graph.txt">3</a>, <a href="http://philippe.gambette.free.fr/Blog/2011Scrabble/Mots4.graph.txt">4</a>, <a href="http://philippe.gambette.free.fr/Blog/2011Scrabble/Mots5.graph.txt">5</a>, <a href="http://philippe.gambette.free.fr/Blog/2011Scrabble/Mots6.graph.txt">6</a>, <a href="http://philippe.gambette.free.fr/Blog/2011Scrabble/Mots7.graph.txt">7</a>, <a href="http://philippe.gambette.free.fr/Blog/2011Scrabble/Mots8.graph.txt">8</a> <span class="Apple-style-span">(18 Mo pour le dernier...)</span>.</div><div><br /></div><div>Première chose à faire, calculer les composantes connexes, les parties du graphes où toute paire de sommets est reliée par un chemin. Pour cela <span class="Apple-style-span">(merci <a href="http://sites.google.com/site/anaisbaudot/home">Anaïs </a>!)</span> la bibliothèque iGraph en R fait tout le boulot. <a href="http://www.r-project.org/">Téléchargez-la</a>, installez-la (<span class="Apple-style-span" style="font-family: 'courier new'; font-size: small; color: rgb(51, 51, 255); ">install.packages("igraph")</span>), puis lancez le code suivant :</div><div><span class="Apple-style-span" style="font-family: 'courier new'; font-size: small; color: rgb(51, 51, 255); ">library(igraph)</span></div><div><span class="Apple-style-span" style="font-family: 'courier new'; font-size: small; color: rgb(51, 51, 255); ">g<-read.graph("http://philippe.gambette.free.fr/Blog/2011Scrabble/Mots6.graph.txt",format="ncol")</span></div><div><span class="Apple-style-span" style="font-family: 'courier new'; font-size: small; color: rgb(51, 51, 255); ">cc<-clusters(g)</span></div><div><span class="Apple-style-span" style="font-family: 'courier new'; font-size: small; color: rgb(51, 51, 255); ">cc$csize</span></div><div><br /></div><div>On obtient une composante connexe de taille 13865, et 5 de taille 2. Pour avoir la composition des cinq paires :</div><div><span class="Apple-style-span" style="font-family: 'courier new'; font-size: small; color: rgb(51, 51, 255); ">V(g)[which(cc$membership==1)-1]</span></div><div><span class="Apple-style-span" style="font-family: 'courier new'; font-size: small; color: rgb(51, 51, 255); ">V(g)[which(cc$membership==2)-1]</span></div><div><span class="Apple-style-span">...</span></div><div>Les 5 paires sont donc : {rococo, corozo}, {hiboux, bijoux}, {puffin, muffin}, {okoume, loukoum}, {zozota, zozote}.</div><div><br /></div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/2011Scrabble/DistributionDegres.png"><img style="float:right; margin:0 0 10px 10px;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/2011Scrabble/DistributionDegresMini.png" border="0" alt="" /></a><br /><div>Et la <a href="http://en.wikipedia.org/wiki/Degree_distribution">distribution des degrés</a> ? </div><div><span class="Apple-style-span" style="font-family: 'courier new'; font-size: small; color: rgb(51, 51, 255); ">dd <- degree.distribution(g)</span></div><div><span class="Apple-style-span" style="font-family: 'courier new'; font-size: small; color: rgb(51, 51, 255); ">plot(dd)</span></div><div>On obtient l'image ci-contre, qui sent le <a href="http://fr.wikipedia.org/wiki/Loi_de_Poisson">Poisson</a>...</div><div><br /></div><div>Quelle est la taille du plus long chemin dans ces graphes ? Eh bien ce problème est <a href="http://en.wikipedia.org/wiki/Longest_path_problem">NP-complet</a><span class="Apple-style-span"> (difficile à résoudre pour un ordinateur)</span>, et je n'ai pas encore essayé de le soumettre <span class="Apple-style-span">(pour les mots de taille 3, car je doute qu'il arrive à traiter un graphe à 10000 sommets et 400000 arêtes)</span> au programme linéaire en nombres entiers récemment ajouté par <a href="http://www-sop.inria.fr/members/Nathann.Cohen/">Nathann</a> dans <a href="http://www-sop.inria.fr/members/Nathann.Cohen/tut/Graphs/">Sage</a> <span class="Apple-style-span">(au moins j'ai - enfin - installé le logiciel)</span>. En revanche j'ai programmé un script qui lance un millier de chemins au hasard, en partant d'un sommet également choisi au hasard, et enregistre la taille de chacun des chemins obtenus.</div><div><br /></div><div>J'obtiens les valeurs moyennes suivantes : la longueur maximale parmi tous les chemins trouvés augmente jusqu'à 8 lettres inclus <span class="Apple-style-span">(je n'ai pas testé les graphes pour les mots de taille supérieure)</span>, en revanche la longueur moyenne des chemins atteint un maximum pour le graphe des mots de sept lettres <span class="Apple-style-span">(cliquez sur le graphique pour voir la distribution des longueurs de chemins obtenue)</span> :</div><div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/2011Scrabble/DistributionLongueursChemins.png"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 275px; height: 213px;" src="http://philippe.gambette.free.fr/Blog/2011Scrabble/LongueurMoyenneChemins.png" border="0" alt="" /></a></div><div>Vous me direz qu'en calculant simplement le degré moyen des sommets du graphe, on obtenait justement un maximum pour une taille de mots de 6, avec un nombre moyen de voisins de 28,7 qui correspond à peu près à la valeur où le pic de la loi de Poisson est atteint ci-dessus... J'aimerais bien savoir comment Eliane de Bruxelles a choisi la taille de 6 quand elle a conçu ce jeu. En tout cas c'était bien trouvé, et il ne reste plus qu'à trouver quelques milliers de participants pour commencer à rendre le jeu difficile... A moins que vous ne vouliez vous lancer dans une stratégie de blocage du jeu, en l'orientant vers un "cul-de-sac", soit en faisant revenir le chemin vers des sommets déjà visités, soit vers des sommets de faible degré...</div><div><br /></div><div>Si vous avez participé au mème, et que vous avez une liste différente de celles montrées ci-dessus, ça m'intéresse, dans la perspective d'un prochain billet sur le sujet : indiquez en commentaire une adresse de page web où vous l'avez placée, ou <a href="http://www.lirmm.fr/~gambette/PersoContact.php">envoyez-la moi par courriel</a> en indiquant dans le sujet "Scrabble International". Et si vous voulez lancer le mème sur la blogosphère, faites-vous plaisir, en <a href="http://gambette.blogspot.com/2007/04/analyse-du-buzz-f-list-de-la-blogosphre_20.html">citant des blogs pour les inciter à propager la chose</a> ! Plutôt des blogs féminins, au vu des prénoms dans mes listes...</div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com2tag:blogger.com,1999:blog-28510665.post-46937315575535458062010-12-03T08:04:00.002+01:002011-03-02T19:12:16.333+01:00Classement Wikio Sciences HumainesEn ce début décembre, de nouveaux <a href="http://www.wikio.fr/blogs/top">classements thématiques de blogs</a> fleurissent sur <a href="http://www.wikio.fr/">Wikio</a>. Claire, qui travaille dans leur département marketing, m'a proposé de diffuser celui des blogs en les sciences humaines. Alors ça y est, les informaticiens ont encore frappé, et leurs<b> <a href="http://blog.veronis.fr/2008/10/blogs-dans-les-entrailles-du-classement.html">évaluations à la sauce bibliométrique</a> touchent désormais la blogosphère française de la recherche en SHS</b> ? Allez, pour se faire pardonner, on va organiser à Montpellier en juillet 2011 en satellite de <a href="http://www.taln2011.fr/">TALN</a>, un colloque (<a href="http://contact.asso.fr/dish2011">Doctorants, Informatique et Sciences Humaines</a>) où les doctorants en informatique se mettront au service des doctorants en sciences humaines qui leur soumettront des problématiques traitables par l'outil informatique <span class="Apple-style-span" style="font-size: x-small;">(plus de nouvelles bientôt sur ce blog et sur les canaux habituels de diffusion...)</span>.<div><br /></div><div>Sans plus attendre, voilà ce Top 20 :<div><div><table cellpadding="0" cellspacing="0" width="100%" border="0"><tbody><tr class="bg"><td class="td1" valign="top" width="30">1</td><td class="td2"><a href="http://www.scriptopolis.fr/" target="_blank" rel="nofollow">Scriptopolis</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">2</td><td class="td2"><a href="http://coulmont.com/" target="_blank" rel="nofollow">Baptiste Coulmont</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">3</td><td class="td2"><a href="http://www.inrp.fr/vst/blog" target="_blank" rel="nofollow">Ecrans de veille en éducation</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">4</td><td class="td2"><a href="http://evaluation.hypotheses.org/" target="_blank" rel="nofollow">Évaluation de la recherche en SHS</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">5</td><td class="td2"><a href="http://www.mapping-experts.fr/" target="_blank" rel="nofollow">Mapping Expert</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">6</td><td class="td2"><a href="http://socioargu.hypotheses.org/" target="_blank" rel="nofollow">Socio-informatique et argumentation</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">7</td><td class="td2"><a href="http://emma.hypotheses.org/" target="_blank" rel="nofollow">Les émotions au Moyen Âge</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">8</td><td class="td2"><a href="http://agora.hypotheses.org/" target="_blank" rel="nofollow">AGORA / sciences sociales</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">9</td><td class="td2"><a href="http://mexiqueancien.blogspot.com/" target="_blank" rel="nofollow">Mexique ancien</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">10</td><td class="td2"><a href="http://gambette.blogspot.com/" target="_blank" rel="nofollow">Je véronise...</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">11</td><td class="td2"><a href="http://mameetfils.hypotheses.org/" target="_blank" rel="nofollow">Mame & fils</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">12</td><td class="td2"><a href="http://adane.canalblog.com/" target="_blank" rel="nofollow">Archéologie poitevine</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">13</td><td class="td2"><a href="http://decouvertes-archeologiques.blogspot.com/" target="_blank" rel="nofollow">Les découvertes archéologiques</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">14</td><td class="td2"><a href="http://archeomellois.over-blog.com/" target="_blank" rel="nofollow">Le blog archeomellois</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">15</td><td class="td2"><a href="http://demosocio.blogspot.com/" target="_blank" rel="nofollow">DemoSocio</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">16</td><td class="td2"><a href="http://fht.hypotheses.org/" target="_blank" rel="nofollow">Femmes au travail</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">17</td><td class="td2"><a href="http://parisdesignlab.hypotheses.org/" target="_blank" rel="nofollow">Paris Design Lab - ENSCI Les Ateliers</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">18</td><td class="td2"><a href="http://chicoineau.blogspot.com/" target="_blank" rel="nofollow">Making Science Public*</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">19</td><td class="td2"><a href="http://blog.bafouillages.net/" target="_blank" rel="nofollow">Bafouillages</a></td></tr><tr class="bg"><td class="td1" valign="top" width="30">20</td><td class="td2"><a href="http://amades.hypotheses.org/" target="_blank" rel="nofollow">Amades</a></td></tr></tbody></table><p><em> <a title="Classement réalisé par Wikio" href="http://www.wikio.fr/" target="_blank">Classement réalisé par Wikio</a></em></p><p>Comme tout classement, ce qui importe est ce qu'on en fait ! Alors évidemment, le jour où l'<a href="http://fr.wikipedia.org/wiki/Agence_nationale_de_la_recherche">ANR</a> commencera à l'utiliser pour attribuer ses financements on pourra se faire du souci. Je le vois plutôt comme une façon de mettre en avant une communauté de blogueurs, et faire découvrir quelques carnets de notes virtuels qui méritent le détour<span class="Apple-style-span" style="font-size: x-small; "> (il est possible de consulter la suite du classement sur Wikio)</span>, de manière plus pertinente que la <a href="http://gambette.blogspot.com/2007/03/analyse-du-buzz-f-list-de-la-blogosphre.html">F-list</a> et ses déclinaisons thématiques par exemple. On pourra s'étonner de l'absence de certains grands blogs français de SHS, ils sont peut-être à chercher du côté de la section <a href="http://petitepasserelle.canalblog.com/archives/2010/12/02/19770495.html">Sciences de l'information</a>. Si vous repérez d'autres grands absents, vérifiez <a href="http://www.wikio.fr/blogs/top">si Wikio les connaît</a>, signalez-les si non, et citez-les dans vos blogs si oui !</p><p>Une autre remarque : dans ce Top 20, on trouve pas moins de 8 carnets de recherche hébergés chez <a href="http://hypotheses.org/">Hypotheses.org</a>. Cela souligne un beau succès de cette plateforme, et je souhaite à <a href="http://www.plume.info/">Plume!</a> la même réussite avec la <a href="http://www.plume.info/blog/2010/11/plume-se-reinvente-sur-le-web/">plateforme-réseau de blogs de vulgarisation scientifique</a> qu'ils viennent de lancer <span class="Apple-style-span" style="font-size: x-small;">("scientifique" inclut bien évidemment les sciences humaines !)</span>.</p><p>Et comme je n'aime pas faire uniquement du relai d'informations, j'en profite pour diffuser un autre classement polémique, fait maison : celui des villes universitaires françaises, en fonction des demandes de mutation des professeurs d'université et maîtres de conférences. Eh oui, les mathématiciens, dans leur grande bonté, ont dédié une <a href="http://postes.smai.emath.fr/echanges/">Machine Ouverte aux Universitaires qui Veulent Echanger</a>, qui mentionne les souhaits de mutation. On récupère tout dans un <a href="http://philippe.gambette.free.fr/Blog/2010Postes.ods">fichier tableur OpenOffice</a>, on fait la différence pour chaque ville des demandes d'arrivée moins les demandes de départ, et on obtient, tada, un <b>Top 15 des villes attractives pour les enseignants-chercheurs</b> :</p><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/2010ClassementVillesUniversitaires.png"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 348px; height: 460px;" src="http://philippe.gambette.free.fr/Blog/2010ClassementVillesUniversitaires.png" border="0" alt="" /></a><p>Pour <b>dissuader </b>ceux qui seraient tentés de l'utiliser de manière sérieuse, je précise que MOUVE propose aussi d'indiquer des régions souhaitées, que je n'ai pas prises en compte ici <span class="Apple-style-span" style="font-size: x-small;">(pour une raison autre que vouloir faire figurer en tête la ville où j'ai obtenu mon doctorat : ceux qui indiquent vouloir déménager en "région parisienne" sont-ils vraiment prêts à prendre un poste indifféremment au centre de Paris, ou dans les diverses banlieues ?</span>), et que je n'ai même pas pris le temps de refaire l'expérience sur des données à jour (celles-ci datent de mai 2010).</p></div></div></div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com3tag:blogger.com,1999:blog-28510665.post-47965364112294044672010-10-22T23:43:00.002+02:002010-10-22T23:47:15.562+02:001000 chercheurs parlent d'avenirLa <a href="http://www.fetedelascience.fr/">Fête de la Science</a> a commencé, elle est marquée cette année par la projection sur les murs du Panthéon de<a href="http://blogs.lexpress.fr/nouvelle-science/2010/10/18/1000-chercheurs-parlent-davenir/"> 1000 portraits de chercheurs</a> accompagnés d'une phrase sur leur vision de l'avenir <span class="Apple-style-span" style="font-size: x-small;">(et de vidéos <a href="http://www.cnrs.fr/1000chercheurs/">sur le site du CNRS</a>)</span>. <a href="http://www.maraval.org/">Pierre Maraval</a>, le photographe à l'origine de ce projet, dévoile les <a href="http://www.maraval.org/spip.php?article240">1000 phrases sur son site web</a>. Voici une <a href="http://gambette.blogspot.com/2010/08/nuages-arbores-en-ligne.html">visualisation des mots les plus fréquents</a> construite avec le logiciel NuageArboré sur <a href="http://www.treecloud.org/">treecloud.org</a>, glissez la souris sur chaque mot pour voir son nombre d'occurrences :<div><br /><div style="text-align: center;"><object type="image/svg+xml" width="620" height="400" name="Graph" data="http://philippe.gambette.free.fr/Blog/201010Chercheurs/Treecloud1000phrases.svg">Image SVG</object></div><div><br /></div><div>Les distances entre mots calculées ci-dessus le sont d'après les cooccurrences dans des fenêtres glissantes de 10 mots. Mais ces fenêtres peuvent concerner la fin de la phrase d'un chercheur, et le début de la phrase du suivant. Pour éviter cela, il faut télécharger TreeCloud et utiliser la fonction "séparateur" afin que la distance entre mots dans l'arbre reflète le nombre de chercheurs qui les utilisent ensemble dans leur phrase. Si l'on classe chaque chercheur en "sciences exactes", "sciences de la vie" et sciences humaines"<span class="Apple-style-span" style="font-size: x-small;"> (comme dans </span><a href="http://philippe.gambette.free.fr/Blog/201010Chercheurs/Chercheurs.ods"><span class="Apple-style-span" style="font-size: x-small;">ce fichier tableur OpenOffice</span></a><span class="Apple-style-span" style="font-size: x-small;">)</span>, voici les nuages obtenus par <a href="http://www.treecloud.org/">TreeCloud</a> et <a href="http://www.splitstree.org/">SplitsTree</a> :</div></div><div style="text-align: center;"><a href="http://philippe.gambette.free.fr/Blog/201010Chercheurs/Treecloud1000phrasesSEX.png"><img src="http://philippe.gambette.free.fr/Blog/201010Chercheurs/Treecloud1000phrasesSEXmini.png" border="0" alt="" /></a> <a href="http://philippe.gambette.free.fr/Blog/201010Chercheurs/Treecloud1000phrasesSDV.png"><img src="http://philippe.gambette.free.fr/Blog/201010Chercheurs/Treecloud1000phrasesSDVmini.png" border="0" alt="" /></a> <a href="http://philippe.gambette.free.fr/Blog/201010Chercheurs/Treecloud1000phrasesSHS.png"><img src="http://philippe.gambette.free.fr/Blog/201010Chercheurs/Treecloud1000phrasesSHSmini.png" border="0" alt="" /></a></div><div style="text-align: center;"><br /></div><div style="text-align: center;"></div><div>Le voisin du mot "recherche" dans chacun des nuages arborés (respectivement "liberté", "passion", "sauvons") me semble intéressant <span class="Apple-style-span" style="font-size: x-small;">(même s'il n'est pas nécessairement celui qui est le plus cité conjointement avec "recherche")</span>. Les mots des sous-arbres autour d'"avenir" d'une part et "recherche" d'autre part, me semblent intéressants pour esquisser des visions contrastées de ces domaines. On peut aller plus loin en cherchant le vocabulaire statistiquement sur-représenté dans un domaine par rapport aux deux autres. D'après les calculs de spécificité de Lexico 3, les mots <span class="Apple-style-span" style="font-size: x-small;">(non vides)</span> sur-représentés sont les suivants :</div><div><ul><li>sciences exactes (total de 501 phrases) : <span class="Apple-style-span" style="font-size: large;"><b><span class="Apple-style-span">univers</span></b></span><span class="Apple-style-span">, Terre, énergie, demain, futur</span></li><li>sciences de la vie (total de 379 phrases) : <b><span class="Apple-style-span" style="font-size: large;"><span class="Apple-style-span">recherche</span></span></b><span class="Apple-style-span">, </span><span class="Apple-style-span" style="font-size: large;"><b><span class="Apple-style-span">espoir</span></b></span><span class="Apple-style-span">, mieux, chercher</span></li><li>sciences humaines (total de 120 phrases) : <span class="Apple-style-span">pas, </span><span class="Apple-style-span" style="font-size: small;"><span class="Apple-style-span">passé</span></span></li></ul><div>A partir du prénom, j'ai également tenté de repérer les mots sur-représentés dans les phrases de 331 chercheuses par rapport à celles de 599 chercheurs. Pas de grosses différences : seuls <span class="Apple-style-span">service</span> (systématiquement dans l'expression "au service de" chez les femmes), <span class="Apple-style-span">recherche</span> et <span class="Apple-style-span">pour</span>, sont sur-représentés chez les femmes alors que <span class="Apple-style-span"><span class="Apple-style-span" style="font-size: small;">plus</span></span> est sous-représenté par rapport aux hommes.</div></div><div><br /></div><div>N'hésitez pas à commenter ces résultats, et proposer d'autres méthodes d'analyse de ce corpus !</div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com0tag:blogger.com,1999:blog-28510665.post-61267248777178717202010-09-14T17:09:00.002+02:002013-03-27T20:08:36.990+01:00Mathématiques des papillotes (2/2) Carambars<div dir="ltr" style="text-align: left;" trbidi="on">
<a href="http://philippe.gambette.free.fr/Blog/201009Carambars/CarambarData.jpg" onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}"><img alt="" border="0" src="http://philippe.gambette.free.fr/Blog/201009Carambars/CarambarData.jpg" style="cursor: hand; cursor: pointer; float: right; height: 307px; margin: 0 0 10px 10px; width: 200px;" /></a>La question du <b>nombre de blagues Carambar</b> était restée sans réponse à la fin de <a href="http://gambette.blogspot.com/2009/11/mathematiques-des-papillotes.html">l'épisode 1 de mon étude du nombre de citations de papillotes</a>. El Jj <a href="http://eljjdx.canalblog.com/archives/2010/09/12/19039630.html">s'y est collé</a> sur son blog <i><a href="http://eljjdx.canalblog.com/">Choux romanesco, vache qui rit et intégrales curvilignes</a></i>. De mon côté j'ai également fini de recueillir les blagues (séquences reconstituées ci-contre) de 3 paquets de Carambar qui traînaient depuis un an <span class="Apple-style-span" style="font-size: x-small;">(j'en suis visiblement moins friand que des papillotes...)</span>, qui me permettent d'apporter quelques nouvelles précisions sur les obstacles à l'application de la "méthodologie-papillotes" à l'estimation du nombre de blagues Carambars, et de proposer des méthodes alternatives. J'avais évoqué ces deux problèmes, et El Jj mentionne également dans son billet, en les négligeant toutefois pour le calcul :<br />
<ul>
<li>certaines blagues sont <b>plus longues que d'autres</b></li>
<li>certaines blagues sont présentes avec des <b>doublons</b>, c'est-à-dire qu'elles apparaissent à plusieurs endroits dans la "chaîne de blagues" (entourées de blagues voisines différentes)</li>
</ul>
A cause de ces deux phénomènes, toutes les blagues ne sont pas équiprobables. Une remarque sur les données permet de se débarrasser du second problème : en regardant attentivement les emballages, on se rend compte que <b>le recto coïncide toujours avec le verso</b>. Je m'explique : si l'on tombe deux fois sur la même blague au recto, le verso, visible par transparence, est toujours calé au même niveau vertical... sauf quand la blague apparaît en doublon (avec un voisinage différent) ! Ainsi, si l'on trouve une blague en double avec un calage vertical différent pour les motifs au verso, on peut les considérer comme des blagues différentes lors du calcul. Ces doublons sont indiqués par les cadres de couleur dans le <a href="http://philippe.gambette.free.fr/Blog/201009Carambars/CarambarData.jpg">scan des séquences de blagues</a>.<br />
<br />
Quant aux <b>autres méthodes d'estimation de tailles d'une population</b> (de blagues), je les dois à <a href="http://www.lirmm.fr/~low-kam/">Cécile</a> qui m'a indiqué celle de la <b>capture-recapture</b>, aussi appelée <a href="http://en.wikipedia.org/wiki/Mark_and_recapture">mark-recapture en anglais</a> <span class="Apple-style-span" style="font-size: x-small;">(comme quoi une mi-temps d'Uruguay-Allemagne peut aussi être scientifiquement enrichissante)</span>. Elle est basée sur l'indice de Lincoln-Petersen, le second l'ayant utilisée en 1894 sur des poissons, et le premier en 1930 sur des oiseaux. Elle consiste à capturer <i>M</i> animaux, à les marquer puis à les relâcher. S'il y a un total de <i>N</i> animaux dans le périmètre choisi, et que chaque animal a la même probabilité d'être capturé, on a une probabilité de <i>M</i>/<i>N</i> de recapturer un animal marqué. Ainsi, si l'on effectue une seconde capture de <i>n</i> animaux, on s'attend à en obtenir <i>nM</i>/<i>N</i> marqués. En appelant <i>m</i> le nombre d'animaux marqués effectivement recapturés, on s'attend donc à avoir <i>m</i>=<i>nM</i>/<i>N</i>, et donc on estime le nombre total d'animaux à <i>nM</i>/<i>m</i> (<b>indice de Lincoln-Petersen</b>).<br />
<br />
Appliquons la méthode sur les blagues Carambar, en prenant par exemple <i>M</i>=10. Mangez assez de Carambar pour trouver 10 blagues différentes. Mangez alors <i>n</i> Carambars et comptez ceux dont la blague associée faisait partie des 10 choisies au départ. Vous vous attendez à obtenir <i>m</i>=<i>n</i><span class="Apple-style-span" style="font-size: small;"><span class="Apple-style-span">x</span></span>10/<i>N</i>, et donc le nombre estimé de blagues différentes est 10<i>n</i>/<i>m</i>.<br />
<div>
<br /></div>
<div>
Ce <a href="http://www.agroparistech.fr/IMG/pdf/Biodiv2008.pdf">cours sur la biodiversité</a> évoque également, page 6, une estimation du nombre d'espèces par une <b>détermination graphique de l'asymptote de la courbe</b> qui indique le nombre total d'espèces observées en fonction du temps d'observation. L'avantage est que pour cette méthode il n'y a pas besoin de faire d'hypothèse sur l'équiprobabilité d'observer chaque espèce, contrairement à celles présentées précédemment. Toutefois elle semble peu précise, et très dépendante du modèle de régression choisi. Quant à l'application aux Carambars, il suffit de l'utiliser sur la courbe du nombre total de blagues trouvées en fonction du nombre de Carambars mangés (en rouge sur la <a href="http://www.slideshare.net/PhilippeGambette/estimation-du-nombre-de-citations-de-papillotes-et-de-blagues-carambar">diapo 17 ici</a>).</div>
<div>
<br /></div>
<div>
Vous voilà prêts à faire vos estimations avec ces méthodes, en évaluer la fiabilité <span class="Apple-style-span" style="font-size: x-small;">(m'indiquer de la littérature sur le sujet ?)</span>, ou en proposer d'autres... A vous de jouer !</div>
<div>
<br /></div>
<div>
<br /></div>
<div>
<span class="Apple-style-span"><i><span class="Apple-style-span" style="font-size: small;">Le billet d'El Jj : </span></i></span><span class="Apple-style-span" style="line-height: 19px;"><span class="Apple-style-span"><a href="http://www.canalblog.com/cf/fe/tb/?bid=210892&pid=19039630"><i><span class="Apple-style-span" style="font-size: small;">¡ Ay, Carambar !</span></i></a></span></span></div>
<div>
<span class="Apple-style-span" style="line-height: 19px;"><span class="Apple-style-span"><i><span class="Apple-style-span" style="font-size: small;">Le premier billet de la série : </span></i><i><span class="Apple-style-span" style="font-size: small;"><a href="http://gambette.blogspot.com/2009/11/mathematiques-des-papillotes.html">Mathématiques des papillotes (1/2)</a></span></i></span></span><br />
<span class="Apple-style-span" style="line-height: 19px;"><span class="Apple-style-span"><i>Un article du Monde suite à la blague du retrait des blagues Carambar : <a href="http://www.lemonde.fr/idees/article/2013/03/27/nos-petites-madeleines_3148785_3232.html">Nos petites madeleines</a></i></span></span></div>
</div>
Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com0tag:blogger.com,1999:blog-28510665.post-38642782869465442622010-08-31T23:11:00.004+02:002010-09-02T20:22:05.102+02:00Nuages arborés en ligne<a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/TreeCloudExample.png"><img style="float:right; margin:0 0 10px 10px;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/TreeCloudExample.png" border="0" alt="" /></a>Vous avez vu le concept apparaître <a href="http://aixtal.blogspot.com/2007/12/actu-une-ferrari-dans-un-arbre.html">sur le blog de Jean</a>, et quelques exemples <a href="http://gambette.blogspot.com/search/label/TreeCloud?max-results=100">sur ce blog</a>, mais ça fait quelque temps que je n'en ai pas parlé ici, des nuages arborés de mots. Après quelques semaines de test d'une interface web de construction de ces outils de visualisation, il est temps de dévoiler le nouveau site web de TreeCloud : <a href="http://www.treecloud.org/">treecloud.org</a> !<div><br /></div><div>Grâce à <a href="http://poulphunter1.free.fr/">Jean-Charles</a>, étudiant en licence d'informatique à la <a href="http://www.ufr.univ-montp2.fr/">Faculté des Sciences</a> de l'<a href="http://www.univ-montp2.fr/">Université de Montpellier 2</a>, qui a programmé tout ça sur son temps libre, cette méthode de visualisation qui n'était alors disponible que sous forme d'un logiciel libre un peu contraignant à installer <span class="Apple-style-span" style="font-size:x-small;">(il y a encore des problèmes sous Mac pour cette version en développement </span><a href="http://www.projet-plume.org/fr/relier/treecloud"><span class="Apple-style-span" style="font-size:x-small;">référencée par le Projet Plume</span></a><span class="Apple-style-span" style="font-size:x-small;">)</span>, est maintenant offerte sous forme d'une interface web que vous pouvez installer sur votre site web, sous le nom <a href="http://sourceforge.net/projects/nuagearbor/">NuageArboré</a>. Ce que j'ai fait pour <a href="http://www.treecloud.org/">treecloud.org</a>, après des petites modifications pour adapter les paramètres par défaut, et voilà le tout <a href="http://www.lirmm.fr/~gambette/treecloud/NuageArboreFra.cgi">prêt à utiliser en un clic</a> !</div><div><br /></div><div>Alors quelle utilité pour ces nuages de mots grimpés aux arbres ? Simple aperçus esthétiques du contenu d'un texte ? Eh bien pas seulement, comme nous l'avons montré avec Delphine, ma co-autrice dans notre article présenté en juin aux <a href="http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2010/tocJADT2010.htm">JADT 2010</a> à <a href="http://philippe.gambette.free.fr/Photos/201006_Rome.htm">Rome</a>. C'est maintenant dans la <a href="http://www.lirmm.fr/~gambette/treecloud/SiteFaqFra.htm">foire aux questions</a> de TreeCloud, ces visualisations peuvent également servir à analyser des textes dans le cadre d'une démarche assistée par ordinateur :</div><div><div><ul><li>en suscitant, en formalisant et en étayant des hypothèses de travail,</li><li>en comparant des textes selon leur représentation arborée,</li><li>en hiérarchisant l'utilisation d'autres outils textométriques,</li><li>en représentant les résultats de l'analyse.</li></ul></div></div><div>Je vous laisse <a href="http://hal-lirmm.ccsd.cnrs.fr/lirmm-00448436/fr/">lire notre article</a> ou découvrir <a href="http://www.slideshare.net/PhilippeGambette/utilisation-de-la-visualisation-en-nuage-arbor-pour-lanalyse-littraire">notre présentation aux JADT</a> pour en savoir plus.</div><div><br /></div><div><div style="width:425px" id="__ss_4480742"><object id="__sse4480742" width="425" height="355"><param name="movie" value="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=re20100611-100612014915-phpapp02&stripped_title=utilisation-de-la-visualisation-en-nuage-arbor-pour-lanalyse-littraire"><param name="allowFullScreen" value="true"><param name="allowScriptAccess" value="always"><embed name="__sse4480742" src="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=re20100611-100612014915-phpapp02&stripped_title=utilisation-de-la-visualisation-en-nuage-arbor-pour-lanalyse-littraire" type="application/x-shockwave-flash" allowscriptaccess="always" allowfullscreen="true" width="425" height="355"></embed></object></div><br /></div><div>Et maintenant, à vous de jouer, pour trouver d'autres usages ! <a href="http://www.lirmm.fr/~gambette/PersoContact.php">Contactez-moi</a> si ça vous donne des idées, ou suscite des <a href="http://www.lirmm.fr/~gambette/treecloud/SiteFaqFra.htm">questions</a>. En tout cas ces nouvelles visualisations sous forme de nuages de mots sont à la mode, et des chercheurs d'IBM et de Microsoft qui ont évoqué les nuages arborés dans des articles à <a href="http://vis.computer.org/">InfoVis</a> <a href="http://www.research.ibm.com/visual/papers/wordle_final2.pdf">l'an dernier</a> et <a href="http://research.microsoft.com/en-us/um/redmond/groups/cue/publications/TVCG2010-SparkClouds.pdf">cette</a> <a href="http://research.microsoft.com/en-us/um/redmond/groups/cue/publications/TVCG2010-ManiWordle.pdf">année</a> planchent sur de nouvelles améliorations et de nouveaux usages des nuages de mots.</div><div><br /></div><div>Je terminerai en remerciant le projet ANR <a href="http://www.lirmm.fr/phylariane/">PhylAriane</a> qui a financé la présentation des travaux sur les nuages arborés <a href="http://www.slideshare.net/PhilippeGambette/visualising-a-text-with-a-tree-cloud">à IFCS</a> l'an dernier et <a href="http://www.slideshare.net/PhilippeGambette/utilisation-de-la-visualisation-en-nuage-arbor-pour-lanalyse-littraire">aux JADT</a> cette année. En effet, cet outil de visualisation construit grâce à des méthodes issues de la bioinformatique, conçu pour des problématiques de sciences humaines, va bientôt trouver des applications en bioinformatique. Plus de détails à venir, dans un certain Chapitre 4...</div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com3tag:blogger.com,1999:blog-28510665.post-32952682167770928472010-06-30T13:17:00.001+02:002010-06-30T13:18:32.901+02:00Densité des idées<a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.lirmm.fr/~semindoc/Osidmesh.html"><img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;width: 200px; height: 342px;" src="http://philippe.gambette.free.fr/Blog/Osidmesh.png" border="0" alt="" /></a>La rencontre de doctorants <a href="http://www.lirmm.fr/~semindoc/Osidmesh.html">Osidmesh</a> <span class="Apple-style-span" style="font-size:x-small;">(évoquée </span><a href="http://gambette.blogspot.com/2009/10/linformatique-de-meche-avec-les.html"><span class="Apple-style-span" style="font-size:x-small;">précédemment sur ce blog</span></a><span class="Apple-style-span" style="font-size:x-small;">)</span> a débouché sur un joli projet qui a déjà donné ses premiers résultats, que mes coautrices vont présenter cette semaine et le mois prochain. Petit coup de projecteur, donc, sur ces travaux liés à la thèse d'<a href="http://www.univ-montp3.fr/praxiling/spip.php?article229">Hyeran</a> sur le <b>langage des malades d'Alzheimer</b>.<br /><br />En octobre dernier, elle m'avait parlé du logiciel <a href="http://www.ai.uga.edu/caspr">CPIDR</a> qui permet d'estimer, pour un texte en anglais, sa "<span style="font-style:italic;"><b>densité des idées</b></span>". Le concept de ce score linguistique, qui correspond au nombre d'idées exprimées en 10 mots, nous vient de la psycholinguistique. La densité des idées représente une certaine <b>qualité informative des phrases d'un texte</b>, et les psycholinguistes soupçonnent que sa <b>dégradation </b>est liée à un <b>déclin de l'activité cognitive</b>. Ainsi, Hyeran cherchait à vérifier que les <b>malades d'Alzheimer</b> avaient généralement une <b>densité des idées inférieure</b> aux personnes non atteintes, première étape avant d'utiliser ce critère pour des applications plus poussées comme le diagnostic de la maladie, ou l'analyse précise des dégradations de la capacité langagière en vue de proposer des exercices de rééducation adaptés.<br /><br />Nous avons donc réutilisé la méthode du logiciel CPIDR pour le calcul de la densité des idées d'un texte : on détermine la <b>nature grammaticale</b> de tous les mots (par exemple de façon automatique avec TreeTagger), et on utilise cette information comme base pour déterminer si le mot peut être considéré comme <b>représentant une idée</b> ou non. En fait, les mots comptant pour une idée sont principalement les <b>verbes</b>, les <b>adverbes </b>et <b>adjectifs</b>, ainsi que les <b>prépositions </b>et <b>conjonctions</b>. Des <b>règles linguistiques </b>permettent d'ajuster ce principe de base et de traiter certains cas particuliers, éventuellement spécifiques au discours oral.<br /><br /><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.blogger.com/post-edit.g?blogID=28510665&postID=3295268216777092847" fr="" 00495768=""><img style="float:right; margin:0 0 10px 10px;cursor:pointer; cursor:hand;width: 280px; height: 320px;" src="http://philippe.gambette.free.fr/Blog/DensideesCorrelation.png" border="0" alt="" /></a>Nous avons donc codé dans un logiciel libre en Python, <a href="http://code.google.com/p/densidees/"><b>Densidées</b></a>, ce principe de base et quelques premières règles grammaticales, qui nous ont permis d'obtenir assez rapidement une approximation intéressante des valeurs de densité des idées trouvées manuellement. Et par un prompt renfort de deux étudiantes lyonnaises en orthophonie, Constance et Elsa, un joli <b>corpus étiqueté manuellement</b> <span class="Apple-style-span" style="font-size:x-small;">(le rêve de tout <a href="http://fr.wikipedia.org/wiki/Traitement_automatique_des_langues">TAL</a>eux !)</span> a été constitué, permettant d'améliorer le logiciel en comparant les résultats de l'analyse automatique et manuelle, pour trouver les nouvelles règles à ajouter pour<b> réduire le taux d'erreur</b>. Nous arrivons finalement à de très bons résultats, comme détaillé dans <a href="http://halshs.archives-ouvertes.fr/halshs-00495768/fr/">cet article</a> à <a href="http://www.groupes.polymtl.ca/taln2010/recital.php">RECITAL 2010</a> et montré dans le graphique de <b>corrélation entre analyse manuelle et automatique</b> ci-contre.<br /><br /><div>Deuxième étape, vérifier que la <b>densité des idées</b>, en particulier celle calculée par Densidées, est effectivement <b>plus faible chez les malades d'Alzheimer</b>. Les résultats du mémoire d'Elsa et Constance pour un groupe de 22 personnes (dont 11 malades), sont confirmés dans notre <a href="http://www.lirmm.fr/~gambette/2010LeeGambetteBarkatPoster.pdf">poster</a> à <a href="http://w3.u-grenoble3.fr/lidilem/colloque-ec/cedil2010/index.php">CEDIL 2010</a> pour un groupe de 40 personnes.</div><div><br /></div><div>Hyeran va poursuivre la constitution de son corpus, et elle a d'autres pistes de critères linguistiques pouvant jouer le rôle d'indices de la maladie d'Alzheimer, mais la partie de son travail à laquelle j'ai eu la chance de participer a précisé de manière très concrète l'image que j'esquissais <a href="http://gambette.blogspot.com/2010/05/graphe-oriente-et-politique-le-cercle.html">dans le billet précédent</a> de recherches en sciences humaines d'une grande qualité malgré la faiblesse, ou l'absence, des financements. La <b>motivation </b>et le <b>travail </b>d'une doctorante, en lien avec une équipe d'étudiantes énergiques et passionnées, et un <a href="http://www.univ-montp3.fr/praxiling/spip.php?article22"><b>bon encadrement de thèse</b></a>, sont visiblement des clés pour compenser la <b>faiblesse des moyens pour la recherche en sciences humaines</b>. Mais jusqu'à quand si les financements n'arrivent pas à la suite des bons résultats obtenus ? Le minimum vital est de pouvoir les présenter, afin de recueillir l'avis et les suggestions de la communauté scientifique. Pour l'article de RECITAL (à Montréal cette année avec TALN), nous remercions le <a href="http://www.univ-montp3.fr/praxiling/">laboratoire Praxiling</a> et l'<a href="http://recherche.univ-montp3.fr/index.php?option=com_content&task=view&id=166&Itemid=290">école doctorale 58</a>, ainsi que l'<a href="http://www.atala.org/">ATALA</a> et l'<a href="http://www.edi2s.univ-montp2.fr/">école doctorale I2S</a> pour leur soutien financier.</div><div><br /></div><div>A très vite pour évoquer un autre logiciel libre et une autre collaboration à l'interface avec les sciences humaines...</div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com0tag:blogger.com,1999:blog-28510665.post-80880549177032813682010-05-31T01:25:00.007+02:002010-08-19T14:12:14.875+02:00Graphe orienté et politique : le cercle vertueuxLes graphes apparaissent rarement sur ce blog, alors qu'ils constituent l'une de mes thématiques de recherche. Une utilisation dans le cadre du débat politique me donne l'occasion d'en parler aujourd'hui.<div><br /></div><div>Combats <a href="http://www.universcience.tv/media/1281/les-statistiques-sont-elles-objectives--.html">de chiffres parfois</a>, d'égos souvent, de mots toujours, les débats politiques s'enlisent bien souvent sans faire apparaître clairement le fond du problème, sorte de <i>plus petit commun désaccord</i>. Des outils informatiques de <a href="http://mindmeister.com/"><b>brainstorming</b></a> et de <a href="http://nanosciences.hypotheses.org/"><b>web-débat</b></a> commencent à voir le jour pour <b>structurer les discussions et les confrontations</b>. Mais ceux que je connaissais ne me satisfaisaient pas au moment où nous avons commencé avec d'autres doctorants des universités montpelliéraines à <b>débattre sur la future charte des thèses</b>.</div><div><br /></div><div>Un peu d'éléments de contexte avant d'aborder l'outil proposé. La charte des thèses existe dans les établissements d'enseignement supérieur pour donner un cadre à la préparation du <a href="http://fr.wikipedia.org/wiki/Doctorat_(France)">doctorat</a>. Ces chartes détaillent de façon plus ou moins poussée les droits et devoir des doctorants, de leurs encadrants, et des structures liées au doctorat. Selon les universités et les domaines de recherche, elles assurent aux doctorants un statut clair de professionnel de la recherche recruté sur un projet précis <span class="Apple-style-span" style="font-size:small;">(en affirmant par exemple que tout doctorant doit être rémunéré)</span> ou bien restent plus vagues, pour diverses raisons. Raisons historiques, contextuelles, et scientifiques se mélangent bien souvent dans les explications, il est difficile de faire le tri. Face à cette confusion, la <a href="http://cjc.jeunes-chercheurs.org/">Confédération des Jeunes Chercheurs</a> tient un discours clair, argumenté et <a href="http://cjc.jeunes-chercheurs.org/expertise/chartes-des-theses/">documenté</a> sur le sujet.</div><div><br /></div><div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/201005Charte/CercleVertueuxMoleskine.jpg"><img style="float:right; margin:0 0 10px 10px;cursor:pointer; cursor:hand;width: 120px; height: 170px;" src="http://philippe.gambette.free.fr/Blog/201005Charte/CercleVertueuxMoleskine.jpg" border="0" alt="" /></a>J'ai donc essayé de regrouper l'ensemble de ces arguments dans une synthèse qui ferait apparaître la cohérence d'ensemble de ce discours, et permettrait rapidement de mettre le doigt sur les points de désaccord. Les arguments étant souvent liés les uns les autres, il semblait apparaître une sorte de cercle vertueux, et c'est cet aspect que j'ai essayé de mettre en valeur dans un graphe orienté <span class="Apple-style-span" style="font-size:x-small;">(un </span><a href="http://fr.wikipedia.org/wiki/Graphe_simple#Graphe_simple_orient.C3.A9"><span class="Apple-style-span" style="font-size:x-small;">ensemble de points reliés par des flèches</span></a><span class="Apple-style-span" style="font-size:x-small;">)</span>, à l'occasion d'une pause <a href="http://gambette.blogspot.com/2006/10/mcdonalds-macdo-mac-donalds-et-vorono.html">MacDo</a> par un sombre dimanche d'hiver. Les flèches s'interprètent comme des implications logiques, mais comme tout modèle mathématique, il s'agit d'une simplification de la réalité, où les flèches doivent plutôt être interprétées comme "conduisent à" ou "favorisent".</div><div><br /></div><div>Il fallait ensuite passer de l'ébauche sur <a href="http://fr.wikipedia.org/wiki/Moleskine">carnet Moleskine</a> au document clair et utilisable, ça a été fait grâce à l'outil de dessin de Google Docs (afin de laisser la possibilité à d'autres participants de notre <a href="http://www.lirmm.fr/~gambette/PRES/Charte.htm">groupe de réflexion</a> de modifier la figure), et aux conseils esthétiques de <a href="http://www.lirmm.fr/~salle">Paola</a> et <a href="http://alban.cornillet.free.fr/">Alban</a> pour mieux faire ressortir le cercle vertueux, et faire apparaître la charte des thèses, et ses effets sur le cercle, en position centrale :</div><div><br /></div><div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.lirmm.fr/~gambette/PRES/CharteCercleVertueux.php"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/201005Charte/CercleVertueuxMini.jpg" border="0" alt="" /></a></div><div><br /></div><div>Etape suivante, rendre la figure entièrement cliquable pour expliquer les flèches et les cases dans une interface très navigable. L'outil de création de maps HTML d'OpenOffice a permis de faire ça très rapidement, le résultat se trouve <a href="http://www.lirmm.fr/~gambette/PRES/CharteCercleVertueux.php">ici</a>.</div><div><br /></div><div>Résultat sur les discussions et le débat ? On y gagne une <b>vision d'ensemble assez claire</b> : ce <b>cercle fonctionne bien</b> actuellement pour les doctorants en <a href="http://fr.wikipedia.org/wiki/Sciences_exactes">sciences exactes</a>, en revanche c'est moins le cas pour les doctorants en <a href="http://fr.wikipedia.org/wiki/Sciences_humaines">sciences humaines</a>. La clé du débat est alors de savoir <b>comment l'amorcer</b> : en imposant de nouvelles contraintes sur les doctorants (obligation de financement pour s'inscrire en thèse, durée limitée de façon stricte à 3 ans), ou bien en améliorant les conditions d'encadrement et de travail en équipe ? La réponse est vite trouvée, et correspond à l'évolution en cours dans les écoles doctorales montpelliéraines en sciences humaines : <a href="http://www.edeg.univ-montp1.fr/">EDEG</a>, <a href="http://recherche.univ-montp3.fr/index.php?option=com_content&task=view&id=166&Itemid=290">58</a> et <a href="http://recherche.univ-montp3.fr/index.php?option=com_content&task=view&id=167&Itemid=290">60</a>. Pour <a href="http://www.univ-montp1.fr/recherche/ecoles_doctorales/droit_et_sciences_sociales">Droit et sciences sociales</a>, le chemin à parcourir semble plus important...</div><div><br /></div><div>C'est justement dans cette école doctorale qu'on nous dit que le "cercle vertueux" est inadapté, en <b>ciblant les cases et les flèches qui ne sont pas correctes</b>. L'insertion professionnelle dans le privé aurait peu de lien avec le bon déroulement de la thèse, en droit, et serait même à l'origine d'un grand nombre d'abandons de thèse. De plus, le rapport personnel et subjectif du doctorant à son sujet de thèse et aux textes de sa bibliographie, ainsi que la maturation de la réflexion nécessaire à produire un résultat de recherche intéressant, seraient à l'origine d'une impossibilité de borner une thèse à une durée maximale de trois ans. Là, toute la question est de savoir s'il s'agit d'un principe qui fait consensus en droit voire dans d'autres domaines scientifiques (philosophie ? littérature ?), ou si elle concerne seulement certains sujets de thèse exceptionnels qui demandent des durées adaptées en conséquence... auquel cas une simple exception à la règle, bien encadrée dans la charte des thèses, suffirait.</div><div><br /></div><div>Verdict attendu suite aux discussions dans les écoles doctorales et les conseils scientifiques... En tout cas la phase de réflexion des doctorants est en train d'aboutir, grâce à une <a href="http://www.lirmm.fr/~gambette/PRES/Charte.htm">consultation de l'ensemble des doctorants montpelliérains</a>, et ce graphe orienté aura contribué à<b> faciliter le débat et sa synthèse</b>.</div><div><br /></div><div><i>Edit du 19/08/2010 : une <a href="http://www.thedailyshow.com/watch/wed-august-18-2010/news-corp--gives-money-to-republicans">autre utilisation des graphes orientés en politique</a>...</i></div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com0tag:blogger.com,1999:blog-28510665.post-56884445855573689682010-04-20T00:14:00.005+02:002010-04-20T08:42:09.826+02:00Sous-titrage xkcd : 100% !J'ai eu le plaisir de valider ce matin la 729ème traduction en français d'une vignette xkcd, qui a permis d'atteindre les 100% dans la petite barre de progression d'<a href="http://xkcd.free.fr/">xkcd.free.fr</a> !<br /><br />En à peine moins de 500 jours, avec un total de 100 participants (dont les 20 plus actifs ont réalisé 90% des traductions), toutes les vignettes de xkcd ont été sous-titrées en français. Merci donc à useless, Djool, Antoine, justt, Manutaust, I5, pascal, <a href="http://www.perdu.com/">Zuiter</a>, <a href="http://insolitegrandiose.blogspot.com/">Kith</a>, Yun-Kang, PH TRIVIER, <a href="http://sites.google.com/site/jmfork/">Jmfork</a>, <a href="http://monftpamwa.free.fr/dotclear/">Mutte</a>, Lolouf, François, Quark, Arnaud R, <a href="http://fant.webnode.com/">Eniotna</a>, Anouck, Anonyme, Di@bl@l, Nicomm, Tejgad, Malta, relaurelius, Nitrec, LS, cwoodin, Romain, Lagierl, anonyme, Iain, Pierre Ligot, <a href="http://samuel.benoit.online.fr/">brazzmonkey</a>, Jules.LT, <a href="http://xavier.borderie.net/blog">Xavier</a>, Phersv, Kasui, <a href="http://barrejadis.azeau.com/">Oaz</a>, iuchiban, GG, <a href="http://www.laquadrature.net/fr/xkcd-a-webcomic-steal-this-comic">neurone</a>, Christophe, Alice, Carrot, Le pti yo, Fanch, crox, Romu, Takhiarel, Sioc, CaptainDangeax, egogramme, azerwhite, <a href="http://ianux.fr/">ianux</a>, Thieums, Yves, Alexis, P., <a href="http://nightgeek.free.fr/">Nightgeek</a>, DVLish, DenisQC, Bab, Niaatan, <a href="http://jrfactor.blogspot.com/">J. Ruaud</a>, irqy, Cynoid, <a href="http://fr.wikisource.org/wiki/Le_Corbeau_(traduit_par_Charles_Baudelaire)">Baudelaire</a>, Bernard Tribot, PL, wed, cerca, Wen, Philippe MacKay, Yves Roumazeilles, Arnaud, Johngeek, medard, <a href="http://amidelanval.wordpress.com/">AmideLanval</a>, Delphine, Padreik, RJL, Egogramme, Guilac, seb, Ozh, oDn, Aelfgar, Nic, Em, Christophe Thill, Fractal, raph, dgryski, Ha3, Christophe S., mrlargo, Krom et kercoz.<div><br /></div><div>Le graphique ci-dessous montre l'évolution de la traduction. J'ai indiqué pour les 14 plus gros contributeurs le moment où ils avaient particulièrement participé :</div><div><span class="Apple-style-span" style="font-size:x-small;"><br /></span></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 574px; height: 382px;" src="http://philippe.gambette.free.fr/Blog/Xkcd/Progression.png" border="0" alt="" /></div><div>Je précise tout de même que ce graphique n'indique pas la difficulté de la contribution. En participant dès le début, j'ai pu traiter les plus simples et donc participer sur une grosse quantité. Au contraire, ceux arrivés plus récemment ont eu le courage de s'attaquer à quelques gros morceaux (je pense par exemple à Nicomm pour le <a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=24">24</a>, Manutaust pour la <a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=124">Blogofractale</a>, ou encore <a href="http://samuel.benoit.online.fr/">brazzmonkey</a> pour le <a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=472">472</a>).</div><div><br /></div><div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.lirmm.fr/~gambette/xkcd/20091121-Liberation.png"><img style="float:right; margin:0 0 10px 10px;cursor:pointer; cursor:hand;width: 200px; height: 153px;" src="http://philippe.gambette.free.fr/Blog/Xkcd/Xkcd_Liberation.png" border="0" alt="" /></a>Merci également à ceux qui ont fait connaître ce projet, en particulier Astrid Girardeau dont <a href="http://www.ecrans.fr/XKCD-une-Case-en-plus,8594.html">l'article dans Libération/Ecrans</a> a bien augmenté le nombre de visiteurs, ou encore <a href="http://www.macgeneration.com/unes/voir/127701/2010-du-mac-et-des-jeux">MacGeneration</a> et <a href="http://www.commentcamarche.net/news/5850559-le-site-de-comic-strip-xkcd-a-enfin-sa-traduction-francaise">CommentCaMarche</a>.</div><div><br /></div><div>Le projet peut maintenant passer dans une autre phase. Outre bien sûr la traduction au jour le jour, il faut désormais améliorer les traductions existantes (j'ai un gros mois de retard sur la modération de ces améliorations), et passer de cette version sous-titrée à une version "en VF", traduite directement sur l'image. Heureusement, <a href="http://www.lapin.org/phiip.php">Phiip</a> a commencé ce travail sur <a href="http://xkcd.lapin.org/">xkcd.lapin.org</a> de façon indépendante il y a quelques semaines, il avance vite et bien, et pourra utiliser ou améliorer les traductions d'<a href="http://xkcd.free.fr/">xkcd.free.fr</a>.</div><div><br /></div><div>Deux flux RSS à ajouter donc : celui d'<a href="http://feeds.feedburner.com/FrenchXkcd">xkcd.free.fr</a> pour continuer à recevoir les textes des traductions le jour de leur sortie, et celui d'<a href="http://xkcd.lapin.org/fluxrss.xml">xkcd.lapin.org</a> pour recevoir les images au fur et à mesure de leur traduction !</div><div><br /></div><div>Encore une fois bravo et merci à tous, l'aboutissement (relatif) de ce projet d'équipe constitue une excellente motivation pour en terminer <a href="http://philippe.gambette.free.fr/These/">un autre, qui m'occupe depuis près de 3 ans</a>... Et bon courage pour les traducteurs <a href="http://xkcde.dapete.net/">allemands</a> (145/729), <a href="http://es.xkcd.com/">espagnols</a> (204/729) et <a href="http://xkcd.ru/">russes</a> (422/729) !</div><div><br /></div><div><a href="http://xkcd.com/77/"><i><span class="Apple-style-span" style="font-size: small;">xkcd77</span></i></a><i><span class="Apple-style-span" style="font-size: small;"> sur </span></i><a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=77"><i><span class="Apple-style-span" style="font-size: small;">xkcd.free.fr</span></i></a><i><span class="Apple-style-span" style="font-size: small;"> et sur </span></i><a href="http://xkcd.lapin.org/index.php?number=30#strips"><i><span class="Apple-style-span" style="font-size: small;">xkcd.lapin.org</span></i></a><i><span class="Apple-style-span" style="font-size: small;"> :</span></i><br /><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://xkcd.lapin.org/index.php?number=30#strips"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://xkcd.lapin.org/strips/30marre-de-internet.jpg" border="0" alt="" /></a><br /></div><div><i><span class="Apple-style-span" style="font-size:small;">Episodes précédents : </span></i><a href="http://gambette.blogspot.com/2009/03/traduction-dxkcd-et-loi-de-pareto.html"><i><span class="Apple-style-span" style="font-size:small;">traduction d'xkcd et loi de Pareto</span></i></a><i><span class="Apple-style-span" style="font-size:small;"> (31 mars 2009), </span></i><a href="http://gambette.blogspot.com/2008/12/xkcd-en-franais.html"><i><span class="Apple-style-span" style="font-size:small;">xkcd en français</span></i></a><i><span class="Apple-style-span" style="font-size:small;"> (13 décembre 2008)</span></i></div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com1tag:blogger.com,1999:blog-28510665.post-90015041953262814352010-03-31T23:14:00.005+02:002010-04-01T18:02:56.057+02:00Comment translater les titres de films (2)<div>J'avais proposé <a href="http://gambette.blogspot.com/2007/01/comment-translater-les-titres-de-films.html">dans un billet précédent</a> une petite typologie de la traduction des titres de films, et je vois ressortir ce <a href="http://www.hyperbate.com/dernier/?p=5490">sujet</a> <a href="http://www.tuxboard.com/?titres-des-films-francais-traductions-ratees-titres-longs">un</a> <a href="http://www.lepost.fr/article/2009/06/24/1592841_la-faute-au-traducteur.html">peu</a> <a href="http://www.lepost.fr/article/2009/06/24/1592841_la-faute-au-traducteur.html">partout</a>, en particulier au début du mois dans <a href="http://www.lepost.fr/article/2010/03/04/1970920_pourquoi-le-mot-enfer-dans-les-titres-francais-de-films-americains.html">un article de Julien Jouanneau pour Le Post</a>. Il y notait en particulier une utilisation assez importante du mot "enfer" dans les traductions de titres anglais et américains.</div><div><br /></div><div>Dès 2007, je m'étais lancé dans la récupération d'un corpus de titres et leur étiquetage selon cette typologie. Il est temps de mettre à disposition mes données et mes premiers résultats, même si leur quantité et leur qualité est améliorable, je pense qu'il y a des choses intéressantes à en tirer.</div><div><br /></div><div>Quelques infos sur <a href="http://spreadsheets.google.com/ccc?key=0Am8vcDIRmKwodFA2VDJobmM2SVFRNU9HcEY1Y3BaYmc&hl=fr">ces données</a> pour commencer <span class="Apple-style-span" style="font-size:x-small;">(n'hésitez pas à me demander le droit d'édition du </span><a href="http://spreadsheets.google.com/ccc?key=0Am8vcDIRmKwodFA2VDJobmM2SVFRNU9HcEY1Y3BaYmc&hl=fr"><span class="Apple-style-span" style="font-size:x-small;">fichier</span></a><span class="Apple-style-span" style="font-size:x-small;"> en commentaires si vous voulez participer à l'étiquetage !)</span>. Elles ont été récupérées automatiquement sur le site <a href="http://www.allocine.fr/">Allociné</a>, ce qui est à l'origine de quelques erreurs sur la date de sortie : celle mentionnée est la date de dernière sortie cinéma en France, ce qui peut être une date de reprise. J'ai donc le projet de corriger cela un de ces jours...</div><div><br /></div><div>Les films ont alors été étiquetés de la manière suivante :</div><div>- F pour un titre français,</div><div>- O pour un titre anglais gardé en français,</div><div>- D pour une traduction littérale de l'anglais,</div><div>- T pour une traduction un peu plus subtile voire complètement différente,</div><div>- A pour une traduction "fashion", de l'anglais vers autre chose en anglais,</div><div>- N pour une traduction "note du traducteur", où le titre anglais est gardé mais complété par des mots en français,</div><div>- C pour une traduction "censure", où le titre anglais est tronqué,</div><div>- S pour une traduction "sans the", où le titre anglais est gardé mais en enlevant le premier "the" (Da Vinci Code, Last Kiss, etc.).</div><div>- la lettre ci-dessus doublée quand il s'agit du même phénomène avec une autre langue que l'anglais.</div><div><br /></div><div>Bref, j'arrive à une <a href="http://spreadsheets.google.com/ccc?key=0Am8vcDIRmKwodFA2VDJobmM2SVFRNU9HcEY1Y3BaYmc&hl=fr">base étiquetée de plus de 1600 titres traduits</a> de films dont la dernière sortie a eu lieu dans les années 1967-1974, 1982-1984, 1994, ou 2002-2006 : vous devinez que j'ai recherché des évolutions dans les habitudes de traduction... Et effectivement il semble avoir des variations, avec de plus en plus de titres gardés sous leur forme originale et de moins en moins de traductions littérales, et peut-être également un engouement ces dernières années pour les traductions "fashion" et "sans the". A confirmer quand la qualité et la quantité des données sera améliorée bien sûr.</div><div><br /></div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://spreadsheets.google.com/pub?key=tP6T2hnc6IQQ5OGpF5cpZbg&single=true&gid=2&output=html"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/201003TitresFilms/TitresFilmsEvolutionTraductionMini.png" border="0" alt="" /></a>Pour voir si d'autres mots comme "enfer" étaient particulièrement choisis dans les traductions subtiles, on peut extraire toutes les traductions subtiles d'une part (549 dans la colonne F), toutes les traductions littérales d'autre part (283 dans la colonne G), et comparer le vocabulaire qu'elles utilisent.<br /><div><br /></div><div>J'extrais donc la liste des mots les plus fréquents dans chacune de ces deux catégories avec <a href="http://sites.univ-provence.fr/veronis/logiciels/Dico/index.html">Dico</a>, puis je les compare en les explorant avec un multinuage de mots (les tailles des mots en bleu reflètent le nombre d'occurrences dans le corpus des traductions littérales, en rouge dans celui des traductions subtiles) :</div><div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/201003TitresFilms/TitresFilmsNuageMots.png"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/201003TitresFilms/TitresFilmsNuageMots.png" border="0" alt="" /></a></div><div>Attention toutefois un corpus a une taille deux fois plus importante que l'autre, il faut donc visualiser les fréquences, avec Lexico3 par exemple, voici les mots du nuage avec les différences de fréquences les plus significatives :</div><div><br /></div><div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/201003TitresFilms/TitresFilmsMots.png"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/201003TitresFilms/TitresFilmsMots.png" border="0" alt="" /></a></div><div><br /></div><div>Le mot "roi" est donc moins utilisé dans les traductions subtiles, alors que "mort", "enfer", "affaire" et "secret" y sont plus souvent employés. Attention toutefois : si l'on calcule les spécificités avec Lexico3, aucun de ces mots n'apparaît comme statistiquement sur-représenté dans un des deux corpus. Le fait qu'"enfer" ne soit pas présent dans les traductions littérales et 6 fois dans les traductions subtiles peut donc être dû au hasard. Plus de données permettra peut-être de conclure... avis aux amateurs qui voudraient participer à l'étiquetage du reste de la base !</div><div><br /></div><div>En tout cas voilà les titres à traduction subtile contenant le mot "mort" : <i>Side Street</i> (La rue de la mort), <i>I'll Sleep When I'm Dead</i> (Seule la mort peut m'arrêter), <i>The Bourne Supremacy</i> (<a href="http://monique.pantel.free.fr/Critiques/53335.htm">La mort dans la peau)</a>, <i>Touching the Void</i> (<a href="http://monique.pantel.free.fr/Critiques/54644.htm">La mort suspendue</a>), <i>Kiss of Death</i> (Le carrefour de la mort), <i>Double Indemnity</i> (Assurance sur la mort), <i>Stepping Razor - Red X</i> (La vie et la mort de Peter Tosh), <i>Battletruck</i> (Le camion de la mort), <i>Still of the Night</i> (La mort aux enchères).</div><div><br /></div><div>D'ailleurs, le mot avait bien été gardé pour la traduction officielle du titre du film <i><a href="http://monique.pantel.free.fr/Critiques/108247.htm">Deathproof</a></i> de Tarantino. A sa sortie, TFM Distribution avait lancé un <a href="http://www.allocine.fr/article/fichearticle_gen_carticle=18400472.html">concours de traduction</a>, je ne sais pas quel titre avait finalement gagné, mais le titre officiel "Boulevard de la mort" fait bien apparaître ce fameux mot-clé, et a apparemment <a href="http://tarantinofiction.com/forum/viewtopic.php?f=16&t=1122&start=30">conquis Tarantino</a>, même s'il a fait causer <a href="http://www.allocine.fr/article/fichearticle_gen_carticle=18434296.html">des</a> <a href="http://champignac.hautetfort.com/archive/2007/06/06/grindhouse.html">dizaines</a> <a href="http://www.allocine.fr/communaute/forum/message_gen_nofil=517899&cfilm=110281&refpersonne=&carticle=&refserie=&refmedia=.html">de </a><a href="http://fr.wikipedia.org/wiki/Discussion_utilisateur:Maxgalopin">cinéphiles</a>.</div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com1tag:blogger.com,1999:blog-28510665.post-3161147946734523432010-02-24T00:23:00.000+01:002010-02-24T00:24:21.869+01:00Miss Google 2010Avez-vous déjà invité une brésilienne à votre soirée d'anniversaire ? <a href="http://www.lirmm.fr/~salle">Paola</a> me raconte que ça suffit à obséder certains jeunes hommes que j'imagine charmés par les sonorités <a href="http://www.deezer.com/listen-3420694">de l'accent brésilien ou de la langue portugaise</a>. A moins que la brésilienne ait un statut particulier dans l'imaginaire collectif français...<br /><br />C'est l'hypothèse que j'ai testée en allant récupérer le nombre de réponses Google de "belle brésilienne", "jolie brésilienne", et en faisant de même pour un total de 152 nationalités. Je suis <a href="http://gambette.blogspot.com/2008/01/danger-accidents-mortels.html">fan</a> de ce genre de tests, <a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=458">tout</a> <a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=467">comme</a> <a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=696">xkcd</a>. Et mon petit <a href="http://freecorp.free.fr/programmes/FuryPopularity.exe">FuryPopularity</a> fonctionne toujours aussi bien pour effectuer des requêtes Google en masse <span class="Apple-style-span" style="font-size: x-small;">(contrairement aux requêtes Yahoo, qui a encore changé d'apparence récemment)</span>... en imposant un délai d'une vingtaine de secondes entre deux requêtes, pour éviter d'être détecté comme robot <span class="Apple-style-span" style="font-size: x-small;">(il y a quelques mois 8 secondes suffisaient, argh)</span>.<br /><br />Les résultats sont <a href="http://spreadsheets.google.com/ccc?key=0Am8vcDIRmKwodHNoUGNVazl0WDhOOUZyeGlsUF9TSXc&hl=fr">dans ce document tableur partagé</a>.<div><b>Top 10 des belles</b> : françaises, japonaises, marocaines, brésiliennes, chinoises, roumaines, mexicaines, allemandes, italiennes, américaines.<br /><b>Top 10 des jolies</b> : françaises, thaïlandaises, russes, indiennes, anglaises, italiennes, américaines, brésiliennes, espagnoles, allemandes.<br /><br /></div><div>Première remarque en se penchant un peu plus sur les résultats chiffrés : en les passant au logarithme on obtient une droite, excepté une irrégularité pour les nombres de résultats compris entre 10 et 40. Je ne serais pas étonné que ce soit le palier au delà duquel Google ne fournit pas les nombres exacts de résultats, mais seulement des approximations. En revanche je suis un peu étonné de ne pas tomber sur une loi de puissance comme ça a si souvent été le cas <a href="http://gambette.blogspot.com/search/label/loi%20de%20puissance?max-results=100">sur ce blog</a>.</div><div><br /></div><div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://spreadsheets.google.com/pub?key=tshPcUk9tX8N9FrxilP_SIw&single=true&gid=7&output=html"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 651px; height: 466px;" src="http://philippe.gambette.free.fr/Blog/201002Belles/GraphiqueLogBelles.png" border="0" alt="" /></a></div><div>Deuxième remarque, il y a une forte corrélation entre les résultats pour "belle" et ceux pour "jolie" (coefficient de corrélation 0.88), qui tendrait à indiquer qu'effectivement ces résultats correspondent à une tendance commune, et qu'on pourrait donc les interpréter comme un inconscient collectif (ou médiatique ?) d'association de la beauté féminine avec certaines nationalités.</div><div><br /></div><div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://spreadsheets.google.com/pub?key=tshPcUk9tX8N9FrxilP_SIw&single=true&gid=3&output=html"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/201002Belles/GraphiqueCorrelationFrancais.png" border="0" alt="" /></a></div><div>Mais j'entends déjà poindre les premières critiques : <a href="http://images.google.fr/images?q=%22belle+fran%C3%A7aise%22">belles françaises</a>, <a href="http://images.google.fr/images?q=%22belle+italienne%22">italiennes</a>, <a href="http://images.google.fr/images?q=%22belle+allemande%22">allemandes</a> et <a href="http://images.google.fr/images?q=%22belle+am%C3%A9ricaine%22">américaines</a>... Google Images nous confirme qu'on ne parle pas là que des habitantes de ces pays, mais aussi de leurs voitures. Les allemands ont semble-t-il un peu moins tendance à personnifier leurs voitures <span class="Apple-style-span" style="font-size:x-small;">(encore que, les motos </span><a href="http://images.google.fr/images?q=%22sch%C3%B6ne+Italierin%22"><span class="Apple-style-span" style="font-size:x-small;">peut-être un peu</span></a><span class="Apple-style-span" style="font-size:x-small;">)</span>, j'ai donc également lancé l'expérience également avec "schöne" et "hübsche", avec les <a href="http://fr.wikipedia.org/wiki/gentil%C3%A9">gentilés</a> allemands trouvés <a href="http://www.scribd.com/doc/7130935/Lander-Und-Leute">ici</a>.<br /><br /></div><div>Les résultats sont différents, mais tout de même un peu corrélés aux français (0.72 et 0.75). Voilà le <b>top 10 pour "schön"</b> : sud-africaines, russes, allemandes, italiennes, suédoises, danoises, françaises, indiennes, polonaises, autrichiennes ; et <b>pour "hübsch"</b> : japonaises, brésiliennes, allemandes, polonaises, françaises, chinoises, suédoises, italiennes, américaines, norvégiennes. Avec toujours une bonne corrélation entre les deux listes de résultats (0.86).</div><div><br /></div><div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://spreadsheets.google.com/pub?key=tshPcUk9tX8N9FrxilP_SIw&single=true&gid=5&output=html"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/201002Belles/GraphiqueCorrelationAllemand.png" border="0" alt="" /></a></div><div>Vous remarquez le point à droite, très "schön" mais moyennement "hübsch" ? Il s'agit de l'Afrique du Sud, représentée, pour les allemands, par <a href="http://images.google.fr/images?q=%22sch%C3%B6ne%20S%C3%BCdafrikanerin%22">Charlize Théron</a> qui truste les résultats de la requête. Elle me permet de remarquer une fois de plus combien les nombres de résultats Google sont variables du jour au lendemain, car il y a aujourd'hui beaucoup moins de résultats qu'hier soir quand j'ai récupéré les données.<br /><div><br /></div>N'hésitez pas à réutiliser le protocole pour obtenir des <b>résultats plus solides</b> (en réitérant les requêtes sur plusieurs jours pour éviter les résultats fantaisistes parfois fournis par Google), ou bien dans <b>d'autres langues</b>, ou <b>sur les hommes plutôt que les femmes</b>. Et peut-être, en testant assez de langues, pourrez-vous trouver le pays où français et française sont les mieux cotés ! Ou bien tout cela vous donnera envie de voyager un peu dans les pays du milieu et du bas du classement pour constater l'absurdité de ces stéréotypes.</div><div><br /><i>Données : </i><a href="http://philippe.gambette.free.fr/Blog/201002Belles/Resultats.ods"><i>document tableur OpenOffice</i></a><i>.</i></div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com1tag:blogger.com,1999:blog-28510665.post-84520419673788131882010-01-31T23:45:00.016+01:002011-03-10T08:12:54.464+01:00Prénom et profession<a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.amazon.fr/dp/B0014MSW30?tag=lescritiqucin-21&camp=2910&creative=19482&linkCode=as4&creativeASIN=B0014MSW30&adid=03ERS67ZY8BC1JHMF74S"><img style="float:right; margin:0 0 10px 10px;cursor:pointer; cursor:hand;width: 150px; height: 238px;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsCharlesMuller.jpg" border="0" alt="" /></a>Ca fait un certain temps que traînent sur mon ordinateur les données des prénoms et professions de plus de 100 000 signataires d'une pétition que j'évoquais dans <a href="http://gambette.blogspot.com/2007/10/dissection-dune-ptition-1.html">des</a> <a href="http://gambette.blogspot.com/2007/10/dissection-dune-ptition-2-quelle-heure.html">billets</a> <a href="http://gambette.blogspot.com/2007/10/dissection-dune-ptition-3-robustesse.html">précédents</a>. Alors que je me suis récemment plongé dans la passionnante <i><a href="http://www.amazon.fr/dp/B0014MSW30?tag=lescritiqucin-21&camp=2910&creative=19482&linkCode=as4&creativeASIN=B0014MSW30&adid=03ERS67ZY8BC1JHMF74S">Initiation aux méthodes de la statistique linguistique</a></i> de Charles Muller (sur <a href="http://aixtal.blogspot.com/">un conseil avisé</a>) pour un autre projet dont je parlerai bientôt ici, j'en profite pour appliquer ce que je viens d'y apprendre sur les écarts réduits. Les commentaires de vrais statisticiens sont les bienvenus...<div><br /></div><div>J'ai donc à disposition un tableau de 294 prénoms qui apparaissent plus de 40 fois chacun parmi les signataires, et pour chacun la répartition en 15 professions (étudiant, informaticien, ingénieur, employé, chercheur, auteur, cadre, enseignant, lycéen, retraité, profession, libérale, chômeur, fonctionnaire, bibliothécaire, journaliste). J'aimerais alors pour chaque profession savoir quels prénoms sont sous-représentés et sur-représentés. Une première approche consisterait à calculer simplement le pourcentage de représentation de chaque prénom. Par exemple, sur 1304 Philippe, il y a 33 étudiants (soit 2,5%), alors que sur 103312 signataires, il y a 14881 étudiants (soit 14,4%). Ainsi, parmi les Philippe, les étudiants seraient sous-représentés ?</div><div><br /></div><div>Malheureusement, ce raisonnement ne conduit qu'à une intuition et n'est pas encore confirmé statistiquement. Pour évaluer si cette sous-représentation est statistiquement significative, il faut calculer les <b>écarts réduits</b>, et pour cela abandonner les pourcentages pour revenir aux <b>valeurs théoriques et valeurs observées</b>. Comme il y a 14881 étudiants, 1304 Philippe et un total de 103312 personnes, le nombre théorique d'étudiants qui s'appellent Philippe est 14881/103312*1304 = 188 (environ). Le critère pour évaluer si cet écart absolu de -155 (=33-188) est bien significatif s'appelle l'<b>écart réduit</b>, il consiste à diviser l'écart absolu par l'écart-type.</div><div><br /></div><div>Là, j'ai cru comprendre qu'on prend l'<b>hypothèse d'une loi normale</b> pour calculer l'<b>écart-type théorique</b> comme la racine du nombre d'individus considérés (de Philippe, soit 1304) multiplié par la probabilité qu'ils soient étudiants (soit p=14881/103312=0,144) multiplié par la probabilité qu'ils ne le soient pas (1-0,144=0,856). Pour l'instant tout ça m'a l'air un peu magique, mais ça semble avoir un rapport avec le <a href="http://fr.wikipedia.org/wiki/Th%C3%A9or%C3%A8me_de_Moivre-Laplace">théorème de Moivre-Laplace</a> (qui demande que <i>n </i>soit suffisamment grand, d'où ma restriction initiale à des prénoms représentés plus de 40 fois, j'espère que c'est suffisant).</div><div><br /></div><div>Enfin bref, on trouve donc un écart réduit de -12,21 ce qui est statistiquement significatif, car la probabilité qu'un tirage au hasard (d'étudiants tirés à probabilité 0,144 avec 1304 tirages) conduise à un tel écart type est tellement faible qu'elle n'est même pas dans la table de référence des écarts réduits du bouquin de Muller page 175 (qui s'arrête à un écart réduit de 4,5 qui est atteint ou dépassé avec proba 0,000006. Cette opération peut être répétée pour tous les prénoms et conduit à <a href="http://philippe.gambette.free.fr/Blog/PetitionTouchePasMonAdnProfessionsPrenoms.ods">ce fichier tableur OpenOffice</a> (les écarts réduits sont sur la feuille 2, si vous avez la chance de trouver votre prénom parmi les 294 sélectionnés...), et en particulier cet histogramme des écarts réduits pour Philippe (on considère que les écarts réduits sont <b>significatifs en dessous de -2 et au-dessus de 2</b>) :</div><div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/PetitionPrenomsPhilippe.png"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 479px; height: 314px;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsPhilippe.png" border="0" alt="" /></a></div><div>On peut aussi faire un Top 10 des prénoms significativement sur-représentés dans diverses professions, en appliquant des calculs similaires (en feuille 3 du document tableur). Je les dispose ci-dessous sous forme de nuages construits avec <a href="http://freecorp.free.fr/FRA/programmesdivers.htm#TagCloudBuilder">TagCloudBuilder</a> (il y a visiblement encore des progrès à faire vis à vis de la parité, regardez les nuages des ingénieurs, chercheurs, cadres, et employés... Notez aussi les excès de Jean-Quelquechose chez les ingénieurs et les cadres.).</div><div style="text-align: center;"><i>Etudiants :</i></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsEtudiants.png" border="0" alt="" /></div><div style="text-align: center;"><i>Informaticiens :</i></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsInformaticiens.png" border="0" alt="" /></div><div style="text-align: center;"><i>Ingénieurs :</i></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsIngenieurs.png" border="0" alt="" /></div><div style="text-align: center;"><i>Employés :</i></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsEmployes.png" border="0" alt="" /></div><div style="text-align: center;"><i>Chercheurs :</i></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsChercheurs.png" border="0" alt="" /></div><div style="text-align: center;"><i>Cadres :</i></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsCadres.png" border="0" alt="" /></div><div style="text-align: center;"><i>Enseignants:</i></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsEnseignants.png" border="0" alt="" /></div><div style="text-align: center;"><i>Lycéens :</i></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsLyceens.png" border="0" alt="" /></div><div style="text-align: center;"><i>Retraités :</i></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsRetraites.png" border="0" alt="" /></div><div style="text-align: center;"><i>Professions libérales :</i></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsProfessionLiberale.png" border="0" alt="" /></div><div style="text-align: center;"><i>Chômeurs :</i></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsChomeurs.png" border="0" alt="" /></div><div style="text-align: center;"><i>Fonctionnaires :</i></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsFonctionnaires.png" border="0" alt="" /></div><div style="text-align: center;"><i>Bibliothécaires :</i></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsBibliothecaires.png" border="0" alt="" /></div><div style="text-align: center;"><i>Journalistes :</i></div><div><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/PetitionPrenomsJournalistes.png" border="0" alt="" /></div><div>A vous de les utiliser pour nommer vos enfants (je sens que je vais me reconvertir en <a href="http://www.rtlinfo.be/info/archive/110651/profession-consultant-en-prenom/?&archiveYear=2008">consultant en prénoms</a>). Toutefois, pas de chance, vous noterez qu'aucun prénom n'est significativement sous-représenté dans le groupe des chômeurs...<br /></div><div><br /></div><div><b><i>Edit du 2 février : pour amoindrir l'effet de l'âge, <a href="http://www.lirmm.fr/~lefort/">Vincent</a> me propose de refaire les calculs en enlevant des données les étudiants, lycées et retraités. Résultats ce soir ou demain soir... Mise à jour du 4 février : en fait ça méritera un billet séparé un peu plus long, car ces nouveaux résultats m'inspirent de nouvelles hypothèses et tests, pour les impatients les nouveaux nuages se trouvent <a href="http://philippe.gambette.free.fr/Blog/PetitionPrenomsNoageInformaticiens.png">ici</a> et les données <a href="http://philippe.gambette.free.fr/Blog/PetitionProfessionsPrenoms.ods">là</a>...</i></b></div><div><b><i><br /></i></b></div><div><i><span class="Apple-style-span" style="font-size: small;">Des lectures sur le même thème :</span></i></div><div><ul><li><span class="Apple-style-span" style="font-size: small; "><i><a href="http://coulmont.com/livres/prenoms/">http://coulmont.com/livres/prenoms/</a>,</i></span></li><li><i><a href="http://coulmont.com/blog/2009/06/19/structure-sociale-prenoms/"><span class="Apple-style-span" style="font-size: small;">http://coulmont.com/blog/2009/06/19/structure-sociale-prenoms/</span></a><span class="Apple-style-span" style="font-size: small;">,</span></i></li><li><i><a href="http://blogperso.univ-rennes1.fr/arthur.charpentier/index.php/post/2010/03/09/Les-actuaires-ne-sont-pas-bien-exotiques..."><span class="Apple-style-span" style="font-size: small;">http://blogperso.univ-rennes1.fr/arthur.charpentier/index.php/post/2010/03/09/Les-actuaires-ne-sont-pas-bien-exotiques...</span></a></i></li></ul></div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com4tag:blogger.com,1999:blog-28510665.post-62076940431266633862009-11-29T18:28:00.006+01:002013-03-26T16:44:14.474+01:00Mathématiques des papillotes (1/2)<div dir="ltr" style="text-align: left;" trbidi="on">
<a href="hhttp://www.papillotesrevillon.fr/" onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}"><img alt="" border="0" src="http://philippe.gambette.free.fr/Blog/200901Papillotes/PapillotesRevillonPhoto.jpg" style="cursor: hand; cursor: pointer; float: right; margin: 0 0 10px 10px;" /></a>A l'approche des fêtes de fin d'année, c'est l'occasion pour moi de vous parler d'un problème qui m'obsède depuis le collège, et que j'ai enfin résolu, celui de <b>l'estimation du nombre de citations de papillotes</b> <span class="Apple-style-span" style="font-size: x-small;">(oui, oui, trois compléments du nom successifs, c'est moche)</span>.<br />
<div>
<br /></div>
<div>
Alors je ne parle pas des <a href="http://desaacleco.over-blog.com/article-pas-a-pas-papillotes-39899246.html">papillotes en tissu de Linette</a> ou de <a href="http://broderie.over-blog.org/article-sorti-du-tambour--40030426.html">celles brodées par Brodstitch</a> pour les fêtes, encore moins de <a href="http://mespetitesfables.blogspot.com/2009/11/peppery-cod-en-papillote.html">la meilleure façon de préparer le poisson</a>, mais de cette délicieuse <a href="http://fr.wikipedia.org/wiki/Papillote#La_friandise_papillote">friandise en chocolat</a> enrobée d'un petit papier contenant blague ou citation, le tout dans un papier extérieur brillant. Ce concept <span class="Apple-style-span" style="font-size: x-small;">(associé en plus à la charmante <a href="http://fr.wikipedia.org/wiki/Papillote#La_l.C3.A9gende_des_papillotes">légende du sieur Papillot et de son apprenti chocolatier</a>)</span> m'a toujours passionné, et je lis toujours la citation avec autant d'attention que je mastique le chocolat<span class="Apple-style-span" style="font-size: x-small;"> (je ne suis visiblement pas </span><a href="http://laperche05.skyrock.com/2211470147-JOYEUX-NOEL.html"><span class="Apple-style-span" style="font-size: x-small;">le</span></a><span class="Apple-style-span" style="font-size: x-small;"> </span><a href="http://topazedu38.skyrock.com/2198001725-Noel-delires-enfin-tout-avec-vous.html"><span class="Apple-style-span" style="font-size: x-small;">seul</span></a><span class="Apple-style-span" style="font-size: x-small;"> dans ce cas)</span>. Et c'est assez frustrant de retomber sur une citation déjà lue quelques papillotes plus tôt. Voilà pourquoi j'ai commencé à enquêter sur <b>le nombre total de citations de papillotes différentes</b>, pour celles de la <a href="http://www.papillotesrevillon.fr/">marque Révillon</a> <span class="Apple-style-span" style="font-size: x-small;">(traditionnelle dans ma famille au moment des fêtes, vous comprendrez pourquoi en comparant avec d'autres... et non, ce billet n'est pas sponsorisé :p)</span>.</div>
<div>
<br /></div>
<div>
<a href="http://philippe.gambette.free.fr/Blog/200901Papillotes/PapillotesReconstitutionRevillon.jpg" onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}"><img alt="" border="0" src="http://philippe.gambette.free.fr/Blog/200901Papillotes/PapillotesReconstitutionRevillonMini.jpg" style="cursor: hand; cursor: pointer; float: left; margin: 0 10px 10px 0;" /></a>C'est comme ça que depuis le collège, chaque année, j'essaie plus ou moins de garder les citations de papillotes au moment des fêtes, pour résoudre ce problème, avec les moyens du bord. Alors comme sur un papier, on arrive à lire deux citations (au moins partiellement), après avoir remarqué que deux citations qui se suivaient dans un papier étaient systématiquement consécutives, j'ai commencé par les scotcher pour espérer <b>reconstruire un jour la séquence intégrale des citations</b>. Au gré des déménagements, ces données ont été perdues, retrouvées, et une année j'ai constaté avec horreur que la consécutivité d'une année précédente n'était plus respectée : la liste de citations avait changé et tout le travail était à refaire !</div>
<div>
<br /></div>
<div>
En licence, devant quelques éléments de proba, je me suis dit qu'il serait certainement possible d'<b>estimer mathématiquement la probabilité de trouver plusieurs fois une même citation en tirant un certain nombre de papillotes</b>, et que ceci me permettrait certainement d'<b>évaluer le nombre total de papillotes en comparant la probabilité théorique et celle trouvée en pratique</b>. C'est seulement l'an dernier que j'ai trouvé une meilleure façon de formuler le problème en terme de probabilités, et j'ai pu finir les calculs cette année. C'est cette approche que je vais maintenant présenter <span class="Apple-style-span" style="font-size: x-small;">(qui pourrait donner un sympathique exo de khôlle de math sup)</span>, j'évoquerai aussi une approche statistique qui donne les mêmes résultats. Pour mes lecteurs qui veulent éviter l'indigestion mais sont intéressés par le résultat de cette enquête mathématique, n'hésitez pas à sauter les paragraphes plus formels pour aller à la réponse en fin de billet, juste après l'image de la courbe.</div>
<div>
<br /></div>
<div>
L'idée consiste à évaluer la <b>probabilité </b><i><b>P</b></i><sub><i><b>d</b></i><b>,</b><i><b>k</b></i></sub><b>(</b><i><b>n</b></i><b>) de tirer </b><i><b>d</b></i><b> citations différentes, parmi un total de </b><i><b>n</b></i><b> citations, au bout de </b><i><b>k</b></i><b> tirages de citations</b> (en supposant que le tirage de chaque citation a la même probabilité). Par la dégustation de papillotes, on obtient un échantillon de citations où on connaît <i>d</i> et <i>k</i>, et la stratégie va consister à trouver la valeur de <i>n</i> qui maximise <i><span class="Apple-style-span" style="font-style: normal;"><i>P</i><sub><i>d</i>,<i>k</i></sub>(<i>n</i>) </span>.</i> Il faut donc calculer trouver une expression de cette valeur, que l'on peut exprimer en terme de mots dans un alphabet. En considérant chaque papillote comme une lettre, et chaque tirage de <i>k</i> papillotes comme un mot de k lettres, la probabilité <i>P</i><sub><i>d</i>,<i>k</i></sub>(<i>n</i>) est égale au nombre <i>a</i><sub><i>d</i>,<i>k</i></sub>(<i>n</i>) de mots de <i>k</i> lettres contenant <i>d</i> lettres différentes divisé par le nombre de mots de <i>k</i> lettres (les lettres étant choisies dans un alphabet de <i>n</i> lettres), c'est à dire <i>n</i><sup><i>k</i></sup>.</div>
<div>
<br /></div>
<div>
<a href="http://www.youscribe.com/catalogue/tous/loisirs-et-hobbies/humour/estimation-du-nombre-de-citations-de-papillotes-et-de-blagues-carambar-2054872" target="_blank" title="Estimation du nombre de citations de papillotes et de blagues Carambar">Estimation du nombre de citations de papillotes et de blagues Carambar</a> publié par <a href="http://www.youscribe.com/pgambette/" target="_blank">pgambette</a></div>
<div>
J'ai un peu bloqué sur le calcul de <i>a</i><sub><i>d</i>,<i>k</i></sub>(<i>n</i>) : on peut le définir de manière récursive, ce qui permet de faire les calculs pour des valeurs assez petites de <i>n</i>, je le détaille dans <a href="http://www.lirmm.fr/~gambette/2009GambettePapillotes.pdf">ce document</a>, mais une remarque de <a href="http://angel.elte.hu/~ssolo/">Gergely</a> m'a permis de faire les calculs de manière plus élégante. Ce nombre <i>a</i><sub><i>d</i>,<i>k</i></sub>(<i>n</i>) peut en effet s'exprimer uniquement en fonction de <i>a</i><sub><i>d</i>,<i>k</i></sub>(<i>d</i>) : puisque le mot a <i>d</i> lettres différentes, on peut en effet se restreindre à un alphabet de <i>d</i> lettres, en multipliant le résultat par le nombre de projections possibles de ces <i>d</i> lettres sur les <i>n</i> lettres de l'alphabet original<span class="Apple-style-span" style="font-size: x-small;"> (un exemple pour comprendre ça est donné en slide 9 de </span><a href="http://www.slideshare.net/PhilippeGambette/estimation-du-nombre-de-citations-de-papillotes-et-de-blagues-carambar"><span class="Apple-style-span" style="font-size: x-small;">ce diaporama</span></a><span class="Apple-style-span" style="font-size: x-small;">)</span>. Ainsi :</div>
<div style="text-align: center;">
<i>a</i><sub><i>d</i>,<i>k</i></sub>(<i>k</i>)=<i>a</i><sub><i>d</i>,<i>k</i></sub>(<i>d</i>).<i>C<sub>n</sub><sup>d</sup></i></div>
<div>
<br /></div>
<div>
Et là, magie, comme on cherche uniquement à trouver le maximum par rapport à <i>n</i> et que <i>a</i><sub><i>d</i>,<i>k</i></sub>(<i>d</i>) ne dépend pas de <i>n</i> <span class="Apple-style-span" style="font-size: x-small;">(si vous voulez savoir comment calculer </span><i><span class="Apple-style-span" style="font-size: x-small;">a</span></i><sub><i><span class="Apple-style-span" style="font-size: x-small;">d</span></i><span class="Apple-style-span" style="font-size: x-small;">,</span><i><span class="Apple-style-span" style="font-size: x-small;">k</span></i></sub><span class="Apple-style-span" style="font-size: x-small;">(</span><i><span class="Apple-style-span" style="font-size: x-small;">d</span></i><span class="Apple-style-span" style="font-size: x-small;">), allez voir </span><a href="http://www.physicsforums.com/showthread.php?t=301013"><span class="Apple-style-span" style="font-size: x-small;">par là</span></a><span class="Apple-style-span" style="font-size: x-small;">)</span> :</div>
<div style="text-align: center;">
max<sub><i>n</i></sub> <span class="Apple-style-span" style="font-size: x-large;">(</span><i>P</i><sub><i>d</i>,<i>k</i></sub>(<i>n</i>)<span class="Apple-style-span" style="font-size: x-large;">)</span> = max<sub><i>n</i></sub> <span class="Apple-style-span" style="font-size: x-large;">(</span><i>a</i><sub><i>d</i>,<i>k</i></sub>(<i>n</i>) / <i>n<sup>k</sup><span class="Apple-style-span" style="font-style: normal;"><span class="Apple-style-span" style="font-size: x-large;">)</span></span> <span class="Apple-style-span" style="font-style: normal;">= max</span><sub><i>n</i></sub> <span class="Apple-style-span" style="font-style: normal;"><span class="Apple-style-span" style="font-size: x-large;">(</span></span><i>C</i><i><sub>n</sub><sup>d</sup></i> / <i>n<sup>k</sup><span class="Apple-style-span" style="font-style: normal;"><span class="Apple-style-span" style="font-size: x-large;">)</span></span></i></i></div>
<div>
<br /></div>
<div>
<a href="http://www.lirmm.fr/~caraux/CV/">Gilles</a> m'a expliqué comment modéliser le problème par une approche statistique, en considérant que le tirage suit une <b>loi multinomiale</b>, et en considérant comme statistique de l'échantillon le <i>n</i>-uplet donnant pour chaque citation son nombre de tirages.<span class="Apple-style-span" style="font-size: small;"> Le calcul d'un </span><b><span class="Apple-style-span" style="font-size: small;">estimateur de maximum de vraisemblance</span></b><span class="Apple-style-span" style="font-size: small;"> pour la valeur de </span><i><span class="Apple-style-span" style="font-size: small;">n</span></i><span class="Apple-style-span" style="font-size: small;"> fournit le même résultat, mais cette approche permettrait d'aller plus loin en calculant non seulement une valeur ponctuelle du maximum de vraisemblance mais également un </span><b><span class="Apple-style-span" style="font-size: small;">intervalle de confiance</span></b><span class="Apple-style-span" style="font-size: small;">.</span><span class="Apple-style-span" style="font-size: x-small;"> Je ne me suis toutefois pas encore plongé assez longtemps dans le </span><a href="http://www.amazon.fr/gp/product/B0014WBOV2?ie=UTF8&tag=lescritiqucin-21&linkCode=as2amp;&camp=1642&creative=19458&creativeASIN=B0014WBOV2"><span class="Apple-style-span" style="font-size: x-small;">Fourgeaud & Fuchs</span></a><span class="Apple-style-span" style="font-size: x-small;"> pour comprendre comment procéder.</span></div>
<div>
<br /></div>
<div>
Cette formule permet d'effectuer facilement les calculs <span class="Apple-style-span" style="font-size: x-small;">(même si je bloque encore pour trouver une expression directe de ce maximum)</span> pour localiser le maximum de vraisemblance, en traçant par exemple dans un tableur la courbe de <i>C</i><i><sub>n</sub><sup>d</sup></i> / <i>n<sup>k</sup></i> en fonction de <i>n</i>. L'an dernier, après dégustation de 52 papillotes, j'avais trouvé 40 citations différentes. J'ai voulu compléter mes données, mais les papillotes Révillon ne sont pas vendues au printemps et en été (ils arrêtent apparemment la production à cette période) et j'ai dû patienter jusqu'à cet hiver pour acheter et engloutir deux paquets <span class="Apple-style-span" style="font-size: x-small;">(ma ligne aura un peu pâti de cette expérience, mais bon... </span><a href="http://www.amazon.fr/gp/product/2803616998?ie=UTF8&tag=lescritiqucin-21&linkCode=as2&camp=1642&creative=19458&creativeASIN=2803616998"><span class="Apple-style-span" style="font-size: x-small;">je sers la science et c'est ma joie</span></a><span class="Apple-style-span" style="font-size: x-small;">)</span> : le premier m'a fourni 33 citations différentes sur 42, le second 33 différentes sur 41, l'union des deux 58 citations différentes sur 83. Ceci me donne les quatre courbes suivantes pour <i>P</i><sub>40,52</sub>, <i>P</i><sub>33,42</sub>, <i>P</i><sub>33,41</sub> et <i>P</i><sub>58,83</sub> en fonction de <i>n</i> :</div>
<div>
<br /></div>
<a href="http://philippe.gambette.free.fr/Blog/200901Papillotes/PapillotesGraphiques.png" onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}"><img alt="" border="0" src="http://philippe.gambette.free.fr/Blog/200901Papillotes/PapillotesGraphiques.png" style="cursor: hand; cursor: pointer; display: block; margin: 0px auto 10px; text-align: center;" /></a><br />
<div>
Le maximum de la courbe est atteint respectivement à 93, 81, 89 et 107. Remarquez que plus l'échantillon est grand, plus le pic est fin : la précision de la méthode s'améliore...</div>
<div>
<br /></div>
<div>
Après avoir obtenu mes premières données, j'avais contacté Révillon pour demander confirmation de l'ordre de grandeur de 93. Ils m'ont répondu qu'<b>il y a en fait 108 citations différentes</b> pour les paquets de la <a href="http://www.papillotesrevillon.fr/papillotes-festive,-,les-papillotes-revillon-chocolatier-collection-festive.html">collection "Festive"</a> que j'avais testés. Mes collages font apparaître des cycles de 18 citations, j'ai pu en reconstituer 3 sur 6 :</div>
<div>
<a href="http://philippe.gambette.free.fr/Blog/200901Papillotes/PapillotesCollage.jpg" onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}"><img alt="" border="0" src="http://philippe.gambette.free.fr/Blog/200901Papillotes/PapillotesCollageMini.jpg" style="cursor: hand; cursor: pointer; display: block; margin: 0px auto 10px; text-align: center;" /></a></div>
<div>
Bien sûr, j'aimerais appliquer cette méthode d'estimation à d'autres données, par exemple les <b>billets en euros</b><span class="Apple-style-span" style="font-size: medium;"> </span><span class="Apple-style-span" style="font-size: x-small;">(le site </span><a href="http://www.eurobilltracker.com/"><span class="Apple-style-span" style="font-size: x-small;">EuroBillTracker</span></a><span class="Apple-style-span" style="font-size: x-small;"> permet de récupérer le nombre total, et le nombre de billets différents, de l'échantillon constitué par les billets relevés par les participants au site)</span> ou les <b>blagues Carambar</b> que j'évoque dans cette présentation :</div>
<div>
<br />
<div id="__ss_1395793" style="text-align: left; width: 425px;">
<object height="355" style="margin: 0px;" width="425"><param name="movie" value="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=re20090506papillotes-090506132447-phpapp01&stripped_title=estimation-du-nombre-de-citations-de-papillotes-et-de-blagues-carambar"><param name="allowFullScreen" value="true"><param name="allowScriptAccess" value="always"><embed src="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=re20090506papillotes-090506132447-phpapp01&stripped_title=estimation-du-nombre-de-citations-de-papillotes-et-de-blagues-carambar" type="application/x-shockwave-flash" allowscriptaccess="always" allowfullscreen="true" width="425" height="355"></embed></object></div>
</div>
<div>
<br /></div>
<div>
Toutefois, pour ces deux estimations, outre le problème technique de calcul de très grands coefficients binomiaux pour le premier <span class="Apple-style-span" style="font-size: x-small;">(je cherche un document de référence sur la méthode qui consiste à utiliser des logs pour ce type de calculs sur des grands nombres !)</span>, une hypothèse raisonnable <span class="Apple-style-span" style="font-size: x-small;">(si si, <a href="http://assert-false.net/guyslain/">Guyslain</a> !)</span> pour les papillotes ne fonctionne plus : <b>le tirage de chaque billet, ou blague Carambar, n'est pas équiprobable</b>. En effet, pour les billets, je pense que les visiteurs d'EuroBillTracker notent sur le site une plus grosse proportion de la totalité des billets de 5 euros, que de la totalité des billets de 500 euros imprimés. Pour les Carambars, le problème est que les blagues n'ont pas le même nombre de lignes. Ainsi, les blagues les plus longues ont une plus forte probabilité d'apparaître, et donc créent plus de paires que prévu dans un modèle équiprobable...</div>
<div>
<br /></div>
<div>
<i>Données et documents de calcul : </i><a href="http://philippe.gambette.free.fr/Blog/200901Papillotes/PapillotesEchantillon1.jpg"><i>image des citations du paquet 1</i></a><i>, de </i><a href="http://philippe.gambette.free.fr/Blog/200901Papillotes/PapillotesEchantillon2.jpg"><i>celles du paquet 2</i></a><i>, </i><a href="http://philippe.gambette.free.fr/Blog/200901Papillotes/PapillotesRevillon.ods"><i>document tableur OpenOffice</i></a><i>, </i><a href="http://philippe.gambette.free.fr/Blog/200901Papillotes/PapillotesRevillonCitations.csv"><i>liste des citations trouvées</i></a><i>.</i></div>
<div>
<i><br /><br /></i></div>
<div>
<i><a href="http://gambette.blogspot.com/2010/09/mathematiques-des-papillotes-22.html">Episode 2 : les Carambars</a> !</i><br/><br/><br/></div>
<div style="overflow: hidden;position: relative;"><iframe src="http://www.youscribe.com/BookReader/IframeEmbed?productId=2054872&documentId=2032530&token=&width=620&height=400&startPage=1&displayMode=double&fullscreen=0" allowfullscreen webkitallowfullscreen mozallowfullscreen frameborder="0" scrolling="no" width="620" height="442" marginwidth="0" marginheight="0" style="overflow:hidden;border: solid 1px #BCBDBC;"></iframe></div>
</div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com2tag:blogger.com,1999:blog-28510665.post-73058441681537137272009-10-27T23:45:00.003+01:002009-10-27T23:57:36.996+01:00L'informatique de mêche avec les sciences humainesMes véronisations donnent généralement un aperçu de l'<b>utilisation possible d'outils informatiques en sciences humaines</b>, et j'ai essayé d'en savoir plus sur les liens réels entre ces deux domaines en participant vendredi dernier à la <b><a href="http://www.lirmm.fr/~semindoc/Osidmesh.html">journée OSIDMESH</a></b><span class="Apple-style-span" style="font-size:x-small;"> </span><span class="Apple-style-span" style="font-size:x-small;">(Outils Statistiques et Informatiques pour Doctorants Montpelliérains En Sciences Humaines)</span> organisée par le <a href="http://www.lirmm.fr/">LIRMM</a> et l'<a href="http://www.contact.asso.fr/">Association Contact</a>. Le bilan en est plutôt positif : un intérêt est sensible de la part des doctorants en sciences humaines, même si tous ne le ressentent pas au même niveau (problèmes techniques liés à la rédaction de la thèse, maîtrise d'outils généraux de traitement des données ou bien prise en main de logiciels spécialisés). La <a href="http://www.lirmm.fr/~semindoc/Osidmesh.html">rencontre</a> a en tout cas permis de présenter quelques possibilités permises par des logiciels existants ou des projets en cours, et de se mettre en contact pour un travail en commun plus poussé.<div><br /></div><div>De mon côté j'ai fait des présentations sur deux sujets déjà apparus sur ce blog, qui me donnent l'occasion de mentionner quelques nouveautés à leur propos.<br /><br /><div style="width:425px;text-align:center;" id="__ss_2346961"><object style="margin:0px" width="425" height="355"><param name="movie" value="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=re20091023textometrie-091026034046-phpapp02&stripped_title=analyse-de-textes-avec-treecloud-et-lexico3"><param name="allowFullScreen" value="true"><param name="allowScriptAccess" value="always"><embed src="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=re20091023textometrie-091026034046-phpapp02&stripped_title=analyse-de-textes-avec-treecloud-et-lexico3" type="application/x-shockwave-flash" allowscriptaccess="always" allowfullscreen="true" width="425" height="355"></embed></object></div><div><br /></div>Si <a href="http://www.treecloud.org/">TreeCloud</a> (cité dans l'<a href="http://www.research.ibm.com/visual/papers/wordle_final2.pdf">article sur Wordle</a> de chercheurs du formidable <a href="http://www.research.ibm.com/visual/index.html">Visual Communication Lab d'IBM</a>, mazette !) a déjà fait son apparition <a href="http://gambette.blogspot.com/search/label/TreeCloud?max-results=100">dans le coin</a>, je n'ai pas encore dédié de billet à la version Python disponible depuis mars. Ce ne sera pas encore le cas, même si cette présentation montre quelques nouvelles fonctionnalités <span class="Apple-style-span" style="font-size: x-small;">(sur le </span><a href="http://philippe.gambette.free.fr/SCOL/Pantel.txt"><span class="Apple-style-span" style="font-size: x-small;">corpus Pantel</span></a><span class="Apple-style-span" style="font-size: x-small;">)</span>, en particulier l'interface graphique <span class="Apple-style-span" style="font-size: x-small;">(pour les allergiques à la ligne de commande)</span> et la coloration ciblée en fonction de la cooccurrence autour d'un mot (une belle idée que j'ai récupérée dans AstarTex de <a href="http://laseldi.univ-fcomte.fr/document/viprey/page_JMV.htm">Jean-Marie Viprey</a>). Attendez encore une petite semaine si vous voulez télécharger une belle version : dans la prochaine, plus besoin de s'embêter avec les espaces dans les noms de fichiers, et quelques autres fonctions supplémentaires (coloration personnalisée, liste de mots du nuage personnalisée). Il sera alors temps de préciser quelques problématiques d'analyse textuelle <span class="Apple-style-span" style="font-size: x-small;">(voire littéraires !)</span> pour lesquelles la visualisation en nuage arboré montre son intérêt.</div><br /><div style="width:425px;text-align:center;" id="__ss_2335141"><object style="margin:0px" width="425" height="355"><param name="movie" value="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=re20091023cartographie-091024064553-phpapp01&stripped_title=golocalisation-de-donnes-et-conception-de-cartes-interactives"><param name="allowFullScreen" value="true"><param name="allowScriptAccess" value="always"><embed src="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=re20091023cartographie-091024064553-phpapp01&stripped_title=golocalisation-de-donnes-et-conception-de-cartes-interactives" type="application/x-shockwave-flash" allowscriptaccess="always" allowfullscreen="true" width="425" height="355"></embed></object></div><br />Je conclus cette seconde présentation avec l'exemple de la <a href="http://lisbon.pessoa.free.fr/">carte interactive de Lisbonne par Pessoa</a> pour illustrer une utilisation possible de l'API Google Maps <span class="Apple-style-span" style="font-size:x-small;">(attention, pour la France, on pourra lui préférer l'</span><a href="http://api.ign.fr/"><span class="Apple-style-span" style="font-size:x-small;">API Geoportail</span></a><span class="Apple-style-span" style="font-size:x-small;"> qui a l'air drôlement chouette)</span>. C'est l'occasion de citer un autre projet que j'ai dérivé de celui de Lisbonne, le recensement de <a href="http://barcelona.mendoza.free.fr/">tous les lieux barcelonais cités dans l'oeuvre d'Eduardo Mendoza</a> <span class="Apple-style-span" style="font-size:x-small;">(aussi réalisé en préparation d'un </span><a href="http://philippe.gambette.free.fr/Photos/200906_Barcelone.htm"><span class="Apple-style-span" style="font-size:x-small;">charmant voyage</span></a><span class="Apple-style-span" style="font-size:x-small;">).</span> Pas de dialogue direct entre la carte et le texte intégral, cette fois (je laisse le facétieux Eduardo encaisser ses droits d'auteur), mais j'ai pu réutiliser directement mes petits scripts permettant de créer automatiquement une carte imprimable (avec numéros) à partir de données d'une carte personnalisée Google Maps.<div><br /></div><div>Je dois avouer que cette journée m'a permis, à ma grande honte, de découvrir moi aussi des outils informatiques qui me faciliteraient la vie. <a href="http://www.zotero.org/">Zotero</a> <span class="Apple-style-span" style="font-size:x-small;">(merci Isabelle !)</span> a l'air d'être ce dont j'ai toujours rêvé pour gérer mes favoris web, ma biblio et mes pdf d'articles... Une vidéo pour saliver <a href="http://www.zotero.org/">en page d'accueil de leur site ici</a>.</div><div><br /></div><div>Et une question pour finir : vous connaissez un outil pour créer, à partir d'une thèse, ou d'un article, <b>un index des auteurs cités avec, pour chacun, des mots-clés qui le caractérisent</b> ? J'ai en tête une petite application du nuage arboré pour faire ça de façon semi-automatisée, mais peut-être qu'une solution (entièrement automatique ?) existe déjà...</div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com1tag:blogger.com,1999:blog-28510665.post-60929641028985438832009-09-04T10:31:00.008+02:002011-01-22T14:50:15.170+01:00Bilan du questionnaire fait-ou-pas<a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://orichan.canalblog.com/archives/2008/01/20/7635447.html"><img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;width: 240px; height: 231px;" src="http://philippe.gambette.free.fr/Blog/200908Meme/ExempleQuestionnaire.png" border="0" alt="" /></a>Un questionnaire circule depuis plus de deux ans sur la blogosphère française, il consiste à <b>mettre en gras ce qu'on a fait dans sa vie, parmi une </b><a href="http://leblogdecath.canalblog.com/archives/2008/02/23/7847946.html"><b>liste d'une centaine de propositions</b></a>. Après l'analyse du <a href="http://fr.wikipedia.org/wiki/M%C3%A8me">mème</a> de la <a href="http://gambette.blogspot.com/2007/03/analyse-du-buzz-f-list-de-la-blogosphre.html">F-list</a>, voilà donc celle du mème "fait-ou-pas".<br /><br />De nombreuses caractéristiques du mème F-list <span class="Apple-style-span" style="font-size:x-small;">(dont évidemment celles qui compliquent la récupération et l'analyse des données)</span> se sont retrouvées dans celui-là : <b>origine américaine</b> (j'en trouve une trace <a href="http://violetdaisies.livejournal.com/2004/06/29/">dès juin 2004</a>), <b>erreurs de transmission du mème</b> (oubli de questions, modifications d'intitulés), <b>changement des règles du jeu</b> (ajout d'une question à la fin du questionnaire), <b>diffusion communautaire</b> (blogs de gastronomie, puis blogs de loisirs, un passage par les blogs cinéma et les blogs littéraires), transmission virale <b>non arborée</b> (questionnaire repris chez plusieurs sources), <b>formats divers selon la plate-forme de blog</b>. Et ce cas de blogueuse qui répond <a href="http://scrapbiche.canalblog.com/archives/2007/02/27/4152244.html">au questionnaire</a>, puis à<a href="http://scrapbiche.canalblog.com/archives/2008/02/06/7815973.html"> une version un peu modifiée l'année suivante</a>...<br /><br />Malgré ces obstacles, j'ai réussi à identifier une <b>liste globalement conservée de 130 questions chez 163 blogueurs</b> ou de commentateurs de blogs (en recherchant sur Google ou Blogsearch certaines questions du questionnaires). Parmi celles-ci, 127 avaient reçu une réponse de tous ces participants <span class="Apple-style-span" style="font-size:x-small;">(les questions 50 et 55 ont été omises par certains participants, la 16 a été modifiée...)</span>. Ces données sont <b>disponibles </b><a href="http://spreadsheets.google.com/pub?key=ttrWfyJeeCHjVAPva_a80sg&output=html"><b>ici</b></a> dans un beau tableau à double entrée de 0 et de 1 <span class="Apple-style-span" style="font-size:x-small;">(1 si fait, 0 sinon, blogueurs en colonnes, questions en lignes... je vous laisse imaginer le nombre de films que j'ai vu cet été en parallèle de cette ingrate tâche d'acquisition manuelle de données)</span>.<br /><br />Quel est l'intérêt de ces données ? Bah, pour commencer ça a bien une petite valeur de <g><b>sondage</b></g>, même si l'échantillon n'est certainement pas représentatif de la blogosphère française. Parmi ceux qui ont répondu en tout cas, 5% ont piloté une Ferrari, 7% ont touché un iceberg, 17% vu des baleines. 42% ont sauté à l'élastique... Euh, comment ça ? La version cour d'école, ou bien l'autre un poil plus vertigineuse ? Eh oui là aussi la polysémie du français vient nous jouer des tours. Certains se permettent aussi d'interpréter les questions de façon assez large pour pouvoir répondre positivement.<br /><br />Qu'est-ce qui obtient <g><b>les plus gros pourcentages</b></g> ? 96% pour "Se sentir vraiment heureux, même un court moment", et "faire une bataille de boules de neige". A l'inverse, personne n'a conduit de gondole à Venise et seuls deux ont visité "tous les" continents : <a href="http://marieestdanssonassiette.blogspot.com/2007/04/encore-un-questionnaire-rigolo.html">marieestdanssonassiette</a> "par la pensée, la gastronomie, la musique du monde et en lecture" <span class="Apple-style-span" style="font-size:x-small;">(quand je vous disais que ça triche un peu :)...)</span>, et les <a href="http://fenouillard.canalblog.com/archives/2007/11/10/6826423.html">Fenouillard</a> (dans la version "olympique" à 5 continents). Le reste des pourcentages se trouve dans la troisième colonne de <a href="http://spreadsheets.google.com/pub?key=ttrWfyJeeCHjVAPva_a80sg&output=html">ce tableau</a>.<br /><br />Et là, vous vous dites que vous aimeriez bien savoir quels blogueurs ont fait <b>les trucs les plus exceptionnels</b>. Comment évaluer ça ? Le nombre d'actions réalisées comme le propose <a href="http://nostaledonie.canalblog.com/">Nostaledonie</a> en <a href="http://fenouillard.canalblog.com/archives/2007/11/10/6826423.html#comments">commentaire chez les Fenouillard</a> ? Non, certaines sont visiblement plus extraordinaires que d'autres. Une idée est alors de considérer chaque pourcentage comme une probabilité <i>p</i> d'effectuer l'action. Il y a donc aussi probabilité 1-<i>p</i> de ne pas effectuer cette action. Et finalement, la probabilité d'effectuer une certaine liste de ces 130 actions est le produit des probabilités correspondantes pour chaque action. Bon, certes, en faisant une simple multiplication, je considère que ces probabilités sont indépendantes, ce qui est peu raisonnable (répondre oui à "élever des enfants" n'est pas indépendant de répondre oui à "changer la couche d'un bébé" par exemple). On supposera toutefois qu'elles le sont pour simplifier le calcul. Pour simplifier la lisibilité également, on prendra le log du résultat (c'est plus facile de lire "-10" que "0.0000000001", voir la troisième ligne de <a href="http://spreadsheets.google.com/pub?key=ttrWfyJeeCHjVAPva_a80sg&gid=5">ce tableau</a>). Voici donc la <b>liste des 5 blogueurs (blogueuses ?) ayant la vie la plus extraordinaire</b>, parmi ceux qui ont répondu :<ol><li>la <a href="http://fenouillard.canalblog.com/archives/2007/11/10/6826423.html">famille Fenouillard</a> (loin devant)</li><li><a href="http://marieestdanssonassiette.blogspot.com/2007/04/encore-un-questionnaire-rigolo.html">Marie est dans son assiette !</a> (citée plus haut...)</li><li><a href="http://www.toutsilo.com/">Tout Silo</a></li><li><a href="http://poppyroses.canalblog.com/archives/2007/11/17/6913751.html">Poppyrose</a></li><li><a href="http://www.leeloolene.eu/index.php?category/Leeloolene-cest-qui">Leeloolène</a></li></ol><br /><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200908Meme/CourbesCategories.png"><img style="float:right; margin:0 0 10px 10px;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/200908Meme/CourbesCategoriesMini.png" border="0" alt="" /></a>Vous remarquez la <g>présence de la fameuse n°2 du <a href="http://www.wikio.fr/blogs/top">top Wikio</a></g>, et de la 149. Tiens tiens, et si les blogueurs à la vie la plus exceptionnelle étaient aussi les plus lus et cités ? Eh bien non, après vérification, pas de corrélation. La récupération de données Wikio fournit en revanche d'autres conclusions. Déjà, que leur liste de blogs référencés est <b>loin d'être complète</b>. Elimination des blogs inactifs, refus d'indexation de la part des blogueurs ? Ceci n'explique pas que plus de 55% des blogs recensés dans cette étude ici échappent à Wikio. Leur catégorisation, bien qu'imparfaite (1/4 des blogs catégorisés ici le sont par "divers"), permet de constater que le mème s'est répandu de façon impressionnante <b>sur la communauté gastronomie au printemps 2007</b>. Puis, en novembre 2007 et février 2008, passage dans la communauté loisirs (remarquez qu'au même moment que la croissance de la courbe "loisirs", "divers" et "non catégorisés" augmentent également très fort, voilà un vivier de blogs loisirs à ajouter à Wikio !). Littérature et cinéma en août 2008. En tout cas ces courbes en paliers me semblent décrire très joliment une diffusion virale par communautés successives, et je rêve d'une visualisation interactive de la diffusion sur la <a href="http://www.web-mining.fr/20090506/rtgi-linkfluence-lance-la-wikiopole">wikiopole</a>...<br /><br />Il reste une dernière visualisation à extraire de ces données, les lecteurs fidèles de ce blog se doutent bien que je n'allais pas garder une belle matrice de 0 et de 1 sous la main sans la transformer en arbre. Eh oui, tentons de rapprocher les questions qui ont obtenu des réponses similaires :<a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200908Meme/Arbre.png"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/200908Meme/ArbreMini.png" border="0" alt="" /></a><br />L'<a href="http://fr.wikipedia.org/wiki/Analyse_en_composantes_principales">ACP</a> donnait un résultat assez moche, alors que là quelques jolis sous-arbres apparaissent (la correspondance entre les étiquettes de l'arbre et les questions précises se trouve dans la 2° colonne de <a href="http://spreadsheets.google.com/pub?key=ttrWfyJeeCHjVAPva_a80sg&output=html">ce tableau</a>). J'ai ajouté des couleurs pour améliorer la lisibilité : quand des feuilles sont proches et ont la même couleur, elles sont dans le même sous-arbre, et constituent donc un cluster de questions auxquelles les gens ont répondu de manière similaire. Quelques <b>clusters pas très étonnants </b>qui permettent de valider cette classification : {se marier, acheter une maison, élever des enfants} {avoir un piercing, un tatouage} {sauter à l'élastique, faire de l'escalade} {danser sans se soucier de qui regarde, danser avec un inconnu} {manger du kangourou, manger du requin} {marcher sur le Golden Gate, visiter Las Vegas} ou encore {porter un agneau, aider un animal à donner naissance, traire une vache}. Pour certains regroupements, on soupçonne une <b>histoire cachée</b> derrière : {faire un art martial, se casser un os, passer à la télé} {avoir un accident, maigrir fortement, dormir 30 heures, jeûner 5 jours}. Mais pour préciser tout ça, et surtout comprendre les <b>étonnants </b>{manger des sushis, faire une balade nocturne sur la plage} ou {vendre ses créations, utiliser une arme à feu}, je cherche à utiliser d'autres techniques de fouilles de données ou classification. Les règles d'association me paraissent prometteuses, notamment, et si j'arrive à en tirer quelque chose vous en aurez des nouvelles sur ce blog.Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com4tag:blogger.com,1999:blog-28510665.post-37425029554321528472009-05-11T00:05:00.011+02:002009-08-12T09:12:19.485+02:00Multinuage des programmes aux élections européennesLe logiciel <a href="http://freecorp.free.fr/FRA/programmesdivers.htm#TagCloudBuilder">TagCloud Builder</a> de construction de <span class="Apple-style-span" style="font-weight: bold;">nuages de mots</span>, présenté <a href="http://gambette.blogspot.com/2006/10/nuages-de-mots-artisanaux.html">ici</a> il y a déjà quelque temps, a bénéficié d'une mise à jour la semaine dernière : il permet désormais de représenter les mots de plusieurs textes au sein d'<span class="Apple-style-span" style="font-weight: bold;">un seul nuage</span>, en attribuant <span class="Apple-style-span" style="font-weight: bold;">une couleur à chaque texte</span>.<br /><br />Cette idée m'a été proposée par Kirsten Talbot, qui termine son master en sciences sociales en Afrique du Sud, et voulait représenter ainsi ses données sur les stéréotypes communautaires dans l'Afrique du Sud post-apartheid. En attendant de pouvoir découvrir ses visualisations et ses résultats, voici un exemple d'utilisation de cette visualisation en <span class="Apple-style-span" style="font-weight: bold;"><span class="Apple-style-span" style="font-style: italic;">multinuage de mots</span></span>, sur les programmes <span class="Apple-style-span" style="font-size:x-small;">(ou ce qui y ressemble le plus...)</span> des quatre partis français en tête dans les sondages pour les européennes <a href="http://www.ipsos.fr/CanalIpsos/articles/2825.asp">selon Ipsos</a> :<div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200905Europeennes/ProgrammesEuropeennes.html"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/200905Europeennes/NuagesMotsEuropeennes.png" border="0" alt="" /></a>Je trouve que le résultat obtenu est bien meilleur que la simple juxtaposition de nuages créés pour chaque texte, comme celle que j'avais tentée pour <a href="http://gambette.blogspot.com/2006/11/nuages-du-projet-socialiste-et-du.html">les programmes PS et UMP des présidentielles</a> il y a deux ans. Mentalement, on peut soit <span class="Apple-style-span" style="font-weight: bold;">se focaliser sur une couleur</span>, et bien voir les mots qui apparaissent pour celle-ci, soit <span class="Apple-style-span" style="font-weight: bold;">lire le nuage "linéairement"</span>, et comparer pour chaque mot à quelle taille il apparaît dans chaque couleur (cette deuxième lecture permet donc le contraste des deux nuages, sans se préoccuper de trouver une bonne formule de contraste). Il manque la possibilité de cliquer sur un mot pour voir ses occurrences dans un concordancier - comme Jean l'avait fait <a href="http://sites.univ-provence.fr/cgi-veronis/concord-tce?forme=europe">ici</a> pour la constitution européenne par exemple - ça ne devrait pas tarder.<div><br /></div><div>Et le style n'est pas aussi chouette que les <a href="http://www.wordle.net/">nuages Wordle</a>. Si quelqu'un connaît (ou programme) une implémentation libre de cette méthode de visualisation (l'algorithme de placement est pour l'instant <a href="http://www.wordle.net/credits">© IBM</a>), je suis très intéressé !</div><div><br /></div><div>En ce qui concerne les améliorations arborées des nuages de mots, voici une <a href="http://www.slideshare.net/PhilippeGambette/visualiser-un-texte-par-un-nuage-arbor">présentation en français du principe et des détails techniques</a>, donnée la semaine dernière au séminaire doctorants de mon labo. Ca vous donnera peut-être envie de tester <a href="http://www.treecloud.fr/">TreeCloud</a> qui est maintenant disponible <a href="http://www.lirmm.fr/~gambette/ProgramTreecloudPython/Treecloud.zip">avec une interface graphique facilitant son utilisation</a> et un <a href="http://www.lirmm.fr/~gambette/ProgramTreecloudPython/ManualTreecloud.pdf">manuel d'utilisateur</a>.</div><div><br /></div><div><span class="Apple-style-span" style="font-size:small;"><span class="Apple-style-span" style="font-style: italic;">Données utilisées : détaillées </span></span><a href="http://philippe.gambette.free.fr/Blog/200905Europeennes/http://philippe.gambette.free.fr/Blog/200905Europeennes/ProgrammesEuropeennes.html"><span class="Apple-style-span" style="font-size:small;"><span class="Apple-style-span" style="font-style: italic;">ici</span></span></a><span class="Apple-style-span" style="font-size:small;"><span class="Apple-style-span" style="font-style: italic;">.</span></span></div><div><span class="Apple-style-span" style="font-style: italic;">Edit : merci à Vincent pour la correction du lapsus sur l'année !</span></div><div><span class="Apple-style-span" style="font-style: italic;">D'autre part je n'ai pas commenté le nuage, qui me semble pourtant intéressant sur le fond : voici quelques mots (ou absences de mots) qui peuvent surprendre (ou au moins mériter d'aller examiner les contextes) : <span class="Apple-style-span" style="color: rgb(255, 153, 255);">croissance</span>, <span class="Apple-style-span" style="color: rgb(51, 204, 0);">femme</span>, <span class="Apple-style-span" style="color: rgb(255, 204, 102);">identité</span>, <span class="Apple-style-span" style="color: rgb(51, 102, 255);">développement, énergie, nouvelle</span>, et d'autres tendances plus attendues : <span class="Apple-style-span" style="color: rgb(255, 153, 255);">droite, dumping, social</span>, <span class="Apple-style-span" style="color: rgb(51, 204, 0);">automobile, biologique, mobilité</span>, <span class="Apple-style-span" style="color: rgb(255, 204, 102);">citoyen, coopération</span>, <span class="Apple-style-span" style="color: rgb(51, 102, 255);">ambition, décidé, histoire, sociale, protection, turquie</span>, <span class="Apple-style-span" style="color: rgb(255, 153, 255);">libéralisme</span>-<span class="Apple-style-span" style="color: rgb(51, 102, 255);">capitalisme</span>.<br /><br />Ah, tiens, IBM a un truc similaire dans ManyEyes, mais <a href="http://manyeyes.alphaworks.ibm.com/manyeyes/page/Tag_Cloud.html">apparemment limité à deux textes</a>.</span><br /></div></div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com8tag:blogger.com,1999:blog-28510665.post-67166725605922635232009-04-17T10:03:00.008+02:002009-04-17T12:11:39.156+02:00Cartographie au FigaroHier soir, le Figaro a "révélé" le "<a href="http://www.lefigaro.fr/actualite-france/2009/04/16/01016-20090416ARTFIG00594-tous-les-chiffres-de-la-delinquance-2008-.php" target="" style="text-decoration: underline; color: rgb(49, 101, 176); font-weight: bold; ">le palmarès 2008 des violences</a>, sur la base des données officielles de l'Observatoire national de la délinquance (OND)", et choisit de l'illustrer avec la <span class="Apple-style-span" style="font-weight: bold;">carte des </span><span class="Apple-style-span" style="font-style: italic;"><span class="Apple-style-span" style="font-weight: bold;">atteintes volontaires à l'intégrité physique</span></span> en titrant "<span class="Apple-style-span" style="font-style: italic;"><a href="http://www.lefigaro.fr/actualite-france/2009/04/16/01016-20090416ARTFIG00601-la-nouvelle-carte-de-france-de-l-insecurite-.php">La nouvelle carte de France de l'insécurité</a>"</span>. Buzz assuré, une centaine de commentaires en quelques heures...<div><br /></div><div>Mais que nous apprend la carte ? Comparons-la avec celle des <a href="http://fr.wikipedia.org/wiki/D%C3%A9partements_fran%C3%A7ais_class%C3%A9s_par_densit%C3%A9_de_population">densités par département</a> :<br /><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.lefigaro.fr/actualite-france/2009/04/16/01016-20090416ARTFIG00601-la-nouvelle-carte-de-france-de-l-insecurite-.php"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 533px; height: 350px;" src="http://philippe.gambette.free.fr/Blog/200904Violences/CarteViolencesDensite.png" border="0" alt="" /></a></div><div><br />Elles se ressemblent, hein ? On peut le vérifier précisément en faisant un graphique du taux d'atteintes volontaires à l'intégrité physique en fonction du log de la densité :<a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200904Violences/IntegritePhysique.ods"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 450px; height: 428px;" src="http://philippe.gambette.free.fr/Blog/200904Violences/CorrelationViolencesDensite.png" border="0" alt="" /></a>La corrélation est assez claire, on a un coefficient de 0.67 (et 0.81 en omettant la Guyane). Bref, la carte n'est pas très utile, et servirait au mieux à illustrer le principe bien connu par les chimistes que <span class="Apple-style-span" style="font-weight: bold;">des concentrations élevées favorisent les chocs</span>... L'auteur de l'article aurait pu au moins mentionner cette remarque basique et concentrer son analyse sur les exceptions à cette règle, ou bien choisir une autre carte un peu plus riche en informations, par exemple celle des atteintes aux biens, accessible par un clic sur la carte interactive des atteintes à l'intégrité physique.</div><div><br /></div><div><span class="Apple-style-span" style="font-style: italic; "><span class="Apple-style-span" style="font-size: small;">Données liées à ce billet : </span><a href="http://philippe.gambette.free.fr/Blog/200904Violences/IntegritePhysique.ods"><span class="Apple-style-span" style="font-size: small;">fichier tableur OpenOffice</span></a><span class="Apple-style-span" style="font-size: small;">.</span></span><br /></div><div><span class="Apple-style-span" style="font-style: italic;"><br /></span></div><div><span class="Apple-style-span" style="font-style: italic;">Edit de midi : tiens, je lis </span><a href="http://twitter.com/AudeBaron"><span class="Apple-style-span" style="font-style: italic;">sur Twitter</span></a><span class="Apple-style-span" style="font-style: italic;"> qu'en plus ils ont confondu Martinique et Guadeloupe sur la carte.</span></div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com3tag:blogger.com,1999:blog-28510665.post-863729718693807452009-04-07T20:16:00.001+02:002009-05-28T07:33:52.875+02:00Candidats en 2012 : courbes Google et revue de presse<div>Depuis <a href="http://gambette.blogspot.com/2008/07/les-prsidentiables-en-2012-selon-google.html">juillet dernier</a>, je suis régulièrement la <span class="Apple-style-span" style="font-weight: bold;">progression de plusieurs candidats potentiels aux présidentielles de 2012 d'après Google</span> (ma liste initiale s'est complétée avec les "candidats possibles" listés sur le site d'Alain Mourguy). Les "nombres Google" sont peu généralement peu fiables, mais un suivi régulier permet malgré tout d'identifier quelques tendances. Voici les courbes récupérées pour quelques figures majeures à gauche et à droite, où l'on peut remarquer le pic récent de <span class="Apple-style-span" style="font-weight: bold;">Villepin qui refait parler de lui</span> :</div><div><span class="Apple-style-span" style="font-size:x-small;"><br /></span></div><div><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://spreadsheets.google.com/pub?key=psV7RHudMtPYC53UIn5EZcw&gid=4"><img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/200807Presidentiables/Presidentiables_2012-Courbe2008.png" border="0" alt="" /></a>Certains pics semblent correspondre à du bruit <span class="Apple-style-span" style="font-size:x-small;">(ou des secousses annonciatrices ?)</span>, mais <span class="Apple-style-span" style="font-weight: bold;">la plupart des variations significatives des courbes peuvent être mises en relation avec l'actualité de ces diverses personnalités politiques et leurs interventions médiatiques</span>, ou des articles sur leur possible candidature en 2012 <span class="Apple-style-span" style="font-size:x-small;">(certaines ne sont pas dans les graphiques ci-dessus mais apparaissent dans </span><a href="http://spreadsheets.google.com/pub?key=psV7RHudMtPYC53UIn5EZcw"><span class="Apple-style-span" style="font-size:x-small;">mes données</span></a><span class="Apple-style-span" style="font-size:x-small;">)</span> :<br /><ul><li>mars 2008 : Christine Boutin, question<br /><i><a href="http://www.dailymotion.com/lemondefr/christine/video/x55l9y_boutin-candidate-en-2012_creation?from=rss">Boutin candidate en 2012 ?</a></i></li><li>27 avril 2008 : Laurent Fabius, possibilité<br /><i><a href="http://tempsreel.nouvelobs.com/actualites/politique/20080427.OBS1618/fabius_nexclut_pas_detre_candidat_pour_2012.html">Fabius n'exclut pas d'être candidat pour 2012</a></i>.</li><li>22 juin 2008 : Alain Juppé, possibilité<br /><i><a href="http://tempsreel.nouvelobs.com/actualites/politique/20080418.OBS0292/presidentielle_2012__alain_juppe_nest_ferme_a_rien.html?idfx=RSS_notr">Présidentielle 2012 : Alain Juppé n'est "fermé à rien"</a></i>.</li><li>12 octobre 2008 : Dominique de Villepin, possibilité<br /><i><a href="http://www.ghazli.com/article-23672330.html">Sarkozy fait pression sur le parquet pour écarter De Villepin en 2012</a></i>.</li><li>25 novembre 2008 : Martine Aubry, contexte<br /><i><a href="http://actus.parti-socialiste.fr/2008/11/25/%C2%AB-le-parti-socialiste-est-de-retour-%C2%BB/">« Être sur tous les terrains pour défendre les Français »</a></i>.</li><li>28 novembre 2008 : Jean-François Copé, possibilité<br /><i><a href="http://www.dailymotion.com/playlist/xffla_franceinter_les-invits/video/x7jnx0_jf-cop-candidat-en-2012_news">J.F. Copé : candidat en 2012 ?</a></i></li><li>22 décembre 2008 : Martine Aubry, possibilité<br /><i><a href="http://www.intox2007.info/index.php?post/2008/12/22/Martine-Aubry-candidate-en-2012">Martine Aubry candidate en 2012 ?</a></i>.</li><li>14 janvier 2009 : Dominique Strauss-Kahn, question<br /><i><a href="http://www.lexpress.fr/actualites/1/2012-un-jour-on-revient-en-france-dit-strauss-kahn_731651.html">2012: "un jour, on revient en France", dit Strauss-Kahn</a></i>.</li><li>26 janvier 2009 : Jacques Chirac, canular<br /><i><a href="http://www.lknews.fr/2009/01/jacques-chirac-pourrait-se-presenter-en-2012/">Jacques Chirac pourrait se présenter en 2012</a></i> (voir aussi sur Le <a href="http://www.lepost.fr/article/2009/01/30/1406351_mais-qui-se-cache-derriere-chirac-2012.html">Post</a>, <a href="http://www.lesinrocks.com/actualite/actu-article/article/chirac-de-retour-en-2012/">Les Inrocks</a>).</li><li>7 février 2009, Olivier Besancenot, contexte<br /><i><a href="http://www.npa2009.org/content/naissance-officielle-du-nouveau-parti-anticapitaliste-de-besancenot">Naissance officielle du Nouveau parti anticapitaliste de Besancenot</a></i>.</li><li>12 février 2009, François Hollande, possibilité<br /><i><a href="http://www.lefigaro.fr/actualites/2009/02/12/01001-20090212ARTFIG00707-confidentiel-francois-hollande-candidat-en-2012-.php">Confidentiel : François Hollande, candidat en 2012</a></i>.</li><li>14 février 2009 : Martine Aubry, possibilité<br /><i><a href="http://fr.news.yahoo.com/2/20090214/tpl-face-au-dilemne-sarkozy-ou-aubry-en-ee974b3.html">Face au "dilemne" Sarkozy ou Aubry en 2012, Le Pen pencherait pour Aubry</a></i>.</li><li>25 mars 2009, Dominique Strauss-Kahn, contexte<br /><i><a href="http://www.leparisien.fr/politique/dsk-un-petit-tour-a-paris-25-03-2009-453776.php">DSK, un petit tour à Paris</a></i> (aussi sur <a href="http://www.lepost.fr/article/2009/03/26/1471866_strauss-kahn-recours-du-ps-en-2012-le-web-y-pense-deja.html">Le Post</a>).</li><li>2 avril 2009, Dominique de Villepin, possibilité<br /><i><a href="http://www.lepost.fr/article/2009/04/02/1480650_dominique-de-villepin-candidat-en-2012.html">Dominique de Villepin candidat en 2012?</a></i></li><li>11 avril 2009, Alain Juppé, contexte<br /><i><a href="http://www.leparisien.fr/politique/juppe-veut-un-ministere-11-04-2009-475279.php">Juppé veut un ministère</a></i> (conclusions sur <a href="http://www.lepost.fr/article/2009/04/14/1495206_reviens-juppepe-reviens.html">Le Post</a> et <a href="http://sauce.over-blog.org/article-30695776.html">ici</a>)</li></ul><!-- <li>19 février 2009 : Vincent Peillon, possibilité<br /><a href="http://www.lexpress.fr/actualite/politique/ps-les-ambitions-de-m-peillon_742131.html">Les ambitions de M. Peillon</a>.</li><br /><li>10 septembre 2007 : Michel Rocard, question<br /><a href="http://www.lejdd.fr/cmc/politique/200737/rocard--le-ps-n-est-pas-un-regiment_53725.html">Rocard : "Le PS n'est pas un régiment"</a></li>-->Cette mini-revue de presse s'ajoute à celle, plus fournie, du site <a href="http://www.presidentielle2012.net/">presidentielle2012.net</a>. En fait, elle la complète, <span class="Apple-style-span" style="font-weight: bold;">en y ajoutant des éléments, notamment des vidéos ou des articles publiés seulement sur internet</span> (vidéos Dailymotion, articles de blogs ou du Post...). De plus, elle précise le type de lien avec une possible candidature en 2012 : <span class="Apple-style-span" style="font-style: italic;">question</span> quand l'intéressé n'y répond pas clairement, <span class="Apple-style-span" style="font-style: italic;">possibilité</span> s'il se déclare intéressé, <span class="Apple-style-span" style="font-style: italic;">contexte</span> s'il est seulement pressenti par les observateurs, ou <span class="Apple-style-span" style="font-style: italic;">canular</span> si c'est dans un cadre humoristique. Et surtout, elle ne représente que les informations qui ont eu un effet sur le web assez fort pour être détecté par Google.<br /><br />Et pour ceux qui s'intéressent déjà à 2017, <a href="http://tf1.lci.fr/infos/france/politique/0,,3865238,00-sarkozy-cope-entretiennent-rapports-subtiles-.html">quelques</a> <a href="http://www.lefigaro.fr/politique/2008/12/11/01002-20081211ARTFIG00050-premieres-escarmouches-entre-bertrand-et-cope-a-l-ump-.php">ambitions</a> <a href="http://www.lepost.fr/article/2008/04/17/1182611_en-quelques-mois-cope-est-devenu-l-un-des-hommes-forts-de-la-majorite.html">se dessinent</a>, et les courbes <a href="http://spreadsheets.google.com/pub?key=psV7RHudMtPakExjPe1K1LA&gid=7">commencent aussi à se construire</a>...</div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com4tag:blogger.com,1999:blog-28510665.post-12956246672079613262009-03-31T23:45:00.009+02:002010-04-20T00:22:47.375+02:00Traduction d'xkcd et loi de Pareto<a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/XkcdAvancement.png"><img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/XkcdAvancement.png" alt="" border="0" /></a>Le <a href="http://xkcd.free.fr/">projet de traduction d'xkcd</a>, conçu en un week-end et <a href="http://gambette.blogspot.com/2008/12/xkcd-en-franais.html">lancé début décembre</a>, a plutôt bien démarré : <span style="font-weight: bold;">2/3 des </span><a style="font-weight: bold;" href="http://www.xkcd.com/">planches de Randall Munroe</a> sont maintenant traduites en français ! C'est plus que les versions <a href="http://xkcd.ru/">russe</a> (299/562) et <a href="http://es.xkcd.com/">espagnole</a> (150/562)... pour une raison simple : le projet est collaboratif ! <span style="font-size:78%;">(Bon, et on traduit en dessous, et pas sur les images, aussi, hein, il faut reconnaître que c'est plus rapide).</span> Une trentaine de personnes a participé : quelques amis, et une majorité d'internautes que je ne connais pas <span style="font-size:78%;">(vous pouvez vous signaler en commentaire de ce post afin que j'ajoute un petit lien sous votre pseudo dans la liste des traducteurs ;))</span>.<br /><br />Voici quelques données sur l'avancement du projet, au cas où vous voudriez vous lancer dans une aventure similaire. Tout d'abord, la <span style="font-weight: bold;">chronologie de l'avancement du projet</span>. J'ai indiqué par une bande rouge une période d'indisponibilité de l'interface de traduction (du 21 février au 13 mars) qui avait échappé à mon attention, le reste du site étant fonctionnel. La forme de la courbe en escaliers correspond à l'arrivée de participants motivés, qui se lassent au bout d'un moment, ou ont fini de traduire tout ce qui les intéressait <span style="font-size:78%;">(ou pensent que le site est cassé, à partir du 21 février :s)</span>.<br /><br /><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/XkcdPareto.png"><img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/XkcdPareto.png" alt="" border="0" /></a>Passons justement à la <span style="font-weight: bold;">distribution des contributions</span>. Pour la Wikipedia anglaise, <a href="http://www.aaronsw.com/">Aaron Swartz</a> nous apprenait en 2006 que <a href="http://www.aaronsw.com/weblog/whowriteswikipedia">2% des contributeurs font presque 75% des modifications</a> de l'encyclopédie. Pour la traduction d'xkcd, les pourcentages de participation des divers traducteurs se trouvent <a href="http://www.lirmm.fr/~gambette/xkcd/about.php">ici</a> <span style="font-size:78%;">(quand plusieurs collaborateurs ont contribué à la traduction d'une planche, je leur attribue naturellement l'inverse du nombre de contributeurs et je divise finalement ces scores par le nombre total de planches en anglais pour obtenir les pourcentages)</span>. Notons que ces pourcentages ne prennent pas en compte la longueur des traductions réalisées (tout comme l'étude d'Aaron Swartz d'ailleurs), ce qui ne rend pas vraiment compte, par exemple, du travail de <a href="http://insolitegrandiose.blogspot.com/">Kith</a> sur la série à propos du <a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=494">Ministre de l'Internet</a>. Toujours est-il que ces données font apparaître une loi classique : la <a style="font-weight: bold;" href="http://fr.wikipedia.org/wiki/Loi_de_Pareto">loi de Pareto</a> ! <span style="font-weight: bold;">20% des utilisateurs (les 6 plus gros collaborateurs) ont réalisé 80% des traductions</span>. Ce soir, le nombre précis est même 79.62%, ce qui semblerait donc moins "élitiste" que la Wikipedia !<br /><br /><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/XkcdParetoDistribution.png"><img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/XkcdParetoDistribution.png" alt="" border="0" /></a>En fait, on voit même apparaître une <a style="font-weight: bold;" href="http://fr.wikipedia.org/wiki/Distribution_de_Pareto">distribution de Pareto</a> (une <a href="http://fr.wikipedia.org/wiki/Loi_de_puissance">loi de puissance</a> qui vérifie la règle des 80-20), comme nous le montre la courbe log-log ci-contre.<br /><br />On peut aussi avoir un aperçu des horaires et des jours de la semaine où les traducteurs montrent le plus d'activité <span style="font-size:78%;">(j'ai exclu les valeurs me concernant)</span> : valeurs anormalement élevées le dimanche, à midi, et en pleine nuit, tout ça rappelle les <a href="http://gambette.blogspot.com/2007/10/dissection-dune-ptition-2-quelle-heure.html">habitudes de surf des étudiants</a>.<a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/XkcdDateHeure.png"><img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/XkcdDateHeure.png" alt="" border="0" /></a><br />Un petit aperçu de ces traductions, maintenant, avec le <a style="font-weight: bold;" href="http://gambette.blogspot.com/2007/12/tag-cloud-tag-tree-nuage-arbor-1.html">nuage arboré</a><span style="font-weight: bold;"> des mots apparaissant plus de 10 fois</span>, ci-dessous. Je ne l'ai pas annoncé en grande pompe, j'attends une jolie interface web pour ça, mais ça y est (enfin), un outil pour créer des nuages arborés avec plein de paramètres personnalisés est disponible sur <a href="http://www.treecloud.fr/">www.treecloud.fr</a> (ou <a href="http://www.treecloud.org/">treecloud.org</a> pour les anglophones). Attention, c'est un outil en ligne de commande, qui nécessite un détour par le <a href="http://www.lirmm.fr/~gambette/ProgramTreecloudPython/ManualTreecloud.pdf">manuel d'utilisation</a>, en anglais. Mais ça en vaut la peine : le programme permet d'obtenir de jolis résultats, en particulier grâce à la coloration "chronologique" : les mots du nuage arboré ci-dessous apparaissent plutôt rouge s'ils se trouvaient dans les premières planches de xkcd, plutôt bleu s'ils sont beaucoup présents dans les planches récentes. On est en train, avec <a href="http://aixtal.blogspot.com/">Jean</a>, de tenter d'ajouter à ça des informations sur la dispersion des mots : plus de nouvelles quand ce sera prêt !<br /><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://xkcd.free.fr/"><img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/XkcdTreecloud.png" alt="" border="0" /></a>Et si ce nuage arboré vous intrigue, allez <a href="http://xkcd.free.fr/">jeter un oeil à ces traductions de xkcd</a>, ou <a style="font-weight: bold;" href="http://feeds.feedburner.com/FrenchXkcd">abonnez-vous au flux RSS</a> pour recevoir les dernières traductions dès qu'elles sont validées ! A propos, petit aparté sur le spam : les robots n'ont pas tardé à trouver le site et envoyer des traductions bien peu fiables, incitant plutôt à l'achat de petites pilules bleues, mais le flux reste faible (un spam par jour en moyenne) et la procédure de modération manuelle permet d'éviter de les laisser passer.<br /><br /><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.lirmm.fr/jeuxdemots/"><img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/JeuxDeMots.png" alt="" border="0" /></a>Pour finir, un grand merci à tous les participants à la traduction ! Internet est de plus en plus <span style="font-weight: bold;">collaboratif</span>, alors si vous avez un peu de temps, profitez-en pour vous lancer dans quelques aventures. C'est l'occasion de faire un peu de pub pour les <a style="font-weight: bold;" href="http://www.lirmm.fr/jeuxdemots/">JeuxDeMots</a>, et <a style="font-weight: bold;" href="http://www.lirmm.fr/pticlic">Pti Clic</a>, qui, dans le genre de <a href="http://lhivic.org/atelier/?p=712">Google Image Labeler</a> ou <a href="http://www.neonet-france.com/2008/11/yahoo-passe-par-ses-utilisateurs-pour-ameliorer-lindexation-des-videos.html">VideoTagName</a>, sont en train de construire petit à petit un <span style="font-weight: bold;">magnifique réseau sémantique, à faire pâlir Wordnet</span>. Les données récoltées sont en plus mises à disposition <a href="http://www.lirmm.fr/~lafourcade/JDM-LEXICALNET-FR/">en format brut</a>, ou consultables par des <a href="http://www.lirmm.fr/jeuxdemots//rezo.php">interfaces</a> <a href="http://www.lirmm.fr/jeuxdemots//graph.php">web</a>, qui peuvent déjà être utilisées pour retrouver, par association d'idées, ces mots qu'on a sur le bout de la langue. Le <a href="http://www.lirmm.fr/jeuxdemots/">premier jeu</a> permet d'aider le système à apprendre des relations sémantiques entre mots (synonyme, contenu/contenant, lieu d'une action, etc), et <a href="http://www.lirmm.fr/pticlic">le second</a> <span style="font-size:78%;">(dont on devient vite accro, même en jouant au touchpad...)</span> de renforcer ou préciser ces relations. Le meilleur moyen pour comprendre le principe est de tester en mode invité, et le meilleur moyen pour comprendre l'utilité des données produites est de les utiliser dans des applications diverses... ce qui ne manquera pas d'être fait bientôt sur ce blog !<br /><br /><br /><span style="font-style: italic;font-size:85%;">Comme toujours, les données liées à ce billet sont disponibles : dans <a href="http://philippe.gambette.free.fr/Blog/XkcdStats.ods">ce fichier tableur Open Office</a>. Et le <a href="http://philippe.gambette.free.fr/Blog/xkcd.txt.hyperlex.colored.nexus">nuage arboré à ouvrir avec SplitsTree pour pouvoir zoomer, etc</a>. Il a été construit par <a href="http://www.splitstree.org/">SplitsTree</a> et <a href="http://www.treecloud.org/">TreeCloud</a> avec une stoplist française, et les options </span><span style=";font-family:courier new;font-size:85%;">distance=hyperlex minnb=11 window=100 unit=1 color=chronology</span><span style="font-style: italic;font-size:85%;">.<br /></span><br /><i><span class="Apple-style-span" style="font-size: small;">Episodes </span></i><a href="http://gambette.blogspot.com/2008/12/xkcd-en-franais.html"><i><span class="Apple-style-span" style="font-size: small;">précédent</span></i></a><i><span class="Apple-style-span" style="font-size: small;"> et </span></i><a href="http://gambette.blogspot.com/2010/04/sous-titrage-xkcd-100.html"><i><span class="Apple-style-span" style="font-size: small;">suivant</span></i></a><i><span class="Apple-style-span" style="font-size: small;">.</span></i>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com3tag:blogger.com,1999:blog-28510665.post-88866169294337400592009-02-14T00:57:00.003+01:002009-02-14T01:04:02.292+01:00Rétroingéniérie de la tarte "bouquet de roses"Histoire d'embrouiller un peu plus l'<a href="http://aixtal.blogspot.com/2008/10/blogs-dans-les-entrailles-du-classement_04.html#c1425546631174218800">algorithme de classification thématique de Wikio</a> qui n'est toujours pas parvenu à affecter ces pages à la catégorie <a href="http://www.wikio.fr/blogs/top/science"><span style="font-style: italic;">Science</span></a>, un peu de <a href="http://www.wikio.fr/blogs/top/gastronomie">gastronomie</a>, aujourd'hui ! Cette fois-ci, ce ne sera pas pour affirmer que <a href="http://gambette.blogspot.com/2008/03/cuisine-polydre-des-ingrdients-et.html">les crêpes, les gaufres, et les flan, c'est la même recette</a>, mais pour appliquer le principe de la <a href="http://fr.wikipedia.org/wiki/R%C3%A9tro-ing%C3%A9nierie">rétroingéniérie</a> déjà <a href="http://gambette.blogspot.com/2008/03/rtroingnirie-de-google-trends.html">illustré sur Google Trends</a> à la fameuse <a href="http://www.alain-passard.com/fr/38.html">Tarte aux pommes Bouquet de roses<sup>©</sup> d'Alain Passard</a>.<br /><br />Comme de <a href="http://www.ip-talk.fr/?p=249">nombreux</a> <a href="http://du-sacre-au-sucre.blogspot.com/2008/08/la-tarte-aux-pommes-bouquet-de-roses.html">lecteurs</a>, j'avais salivé l'été dernier devant les photos de cette création sur <a href="http://www.lemonde.fr/cgi-bin/ACHATS/acheter.cgi?offre=ARCHIVES&type_item=ART_ARCH_30J&objet_id=1047899&clef=ARC-TRK-D_01">un article du Monde</a> de Jean-Claude Ribaute (dont le texte intégral est archivé <a href="http://perche-web.over-blog.com/article-22331261.html">ici</a>). Et j'ai tenté, moi aussi, <span style=";font-family:trebuchet ms;font-size:100%;" ><i>"avec une lame fine, de réaliser l'exploit à la maison"</i></span>.<br /><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200902Tarte/TarteBouquetDeRoses.jpg"><img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200902Tarte/TarteBouquetDeRoses.jpg" alt="" border="0" /></a><br />Après quelques essais malheureux, j'arrive enfin à un résultat assez satisfaisant visuellement, dont je vais vous dévoiler le secret. A en juger par les commentaires sur l'originale, qui insistent sur l'aspect à la fois <a href="http://www.femmes.com/art-de-vivre/cuisine/les-adresses-cuisine-4994">croustillant et moelleux</a> des pommes elles-mêmes, la recette que j'ai reconstituée est encore loin de la vraie. Mais pour m'aider à l'améliorer, j'ai besoin de plus d'informations que celles données par les photos : n'hésitez pas à me financer une petite dégustation (à <a href="http://chrisoscope.com/2008/03/05/diner-a-larpege-alain-passard/">l'Arpège</a>, ou à emporter) afin que j'approfondisse cela.<br /><br /><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200902Tarte/TarteCuisson.gif"><img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200902Tarte/TarteCuisson.gif" alt="" border="0" /></a>Commençons par ce qui doit être évité pour un résultat acceptable :<br />- laisser la peau : les <a href="http://www.linternaute.com/sortir/sorties/resto/magazine/photo/le-potager-des-delices-d-alain-passard/la-tarte-bouquet-de-roses.shtml">photos</a> semblent montrer qu'elle y est encore, mais il me semble difficile de la garder en la rendant croustillante, même la recouvrir de sucre n'a pas aidé. De plus, ça complique la découpe des pommes pour la reconstitution des roses, même si la méthode de découpe détaillée plus bas permet de la conserver.<br />- récupérer des lamelles de la pomme en continuant à l'éplucher à l'économe une fois que la peau est enlevée : les lamelles récupérées <a href="http://www.leplaisirdegourmandise.com/article-26938648.html">sont trop fines et ne se tiennent pas</a>.<br />- faire des roses trop petites ou trop espacées sur la tarte : si vous laissez refroidir la tarte, les roses ont tendance à sécher et se rabougrir un peu pour laisser apparaître la pâte dessous, comme on peut le voir sur l'image animée ci-contre.<br /><br /><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200902Tarte/Rose.htm"><img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200902Tarte/RoseSmall.gif" alt="" border="0" /></a>Bref, l'idéal est de récupérer des lamelles d'environ 2mm d'épaisseur. L'idée est que l'on peut reconstituer les "roses" même avec des lamelles d'une longueur réduite... correspondant à la longueur d'un quartier (la hauteur de la pomme, quoi...). La petite animation ci-contre illustre comment obtenir ces lamelles (le coup de main vient assez vite), et les enrouler progressivement. Idéalement, il faut faire ça à deux : un qui découpe les lamelles, l'autre qui les enroule et dispose les roses obtenues.<br /><br />Enfin, on peut saupoudrer le tout <a href="http://chifoumi.canalblog.com/archives/2008/10/04/10820319.html">de cannelle ou de dragées écrasées au mortier</a>, ou encore de sucre-glace, éventuellement après cuisson. Encore une fois, il est préférable de servir et manger chaud.<br /><br />Si vous souhaitez vous lancer dans des variantes plus colorées et originales, et peut-être aussi plus faciles à réaliser, quelques idées ont fleuri sur le net, avec des tartes bouquet de roses <a href="http://le-drageoir-aux-epices.over-blog.com/article-23681488.html">aux patates</a>, aux <a href="http://tronchedecake.blogspot.com/2008/08/choses-absurdes-improbables-et.html">courgettes violettes</a>, aux <a href="http://troispetitstours.over-blog.com/article-21746510.html">courgettes vertes</a>.<br /><br />Pour finir, un petit sondage à propos de l'amertume des endives, puisque ce sujet sensible divise : j'étais jusqu'à il y a quelques semaines persuadé que l'endive crue, qui n'a aucun goût, n'était pas du tout amère, contrairement à l'endive cuite. Quelques personnes tout à fait respectables défendent vigoureusement la thèse opposée, ce qui m'a d'ailleurs amené à nuancer ma position et admettre que la base de l'endive crue a bien un peu d'amertume. Internet aussi est partagé :<br /><ul><li>des partisans de l'amertume de l'endive crue : <a href="http://www.yabiladi.com/forum/read-54-2908933.html">"cru franchement j'arrive pas, c trop amer!"</a>, <a href="http://mon-allaitement.forumactif.com/cuisine-f3/endives-t5028.htm">"les endives cuites sont moins amères"</a>, <a href="http://pourelles.orange.fr/Pages/Minceur/nutrition/ART/l-endive-des-bienfaits-meconnus_EMW_ADMN-6MRD3W.html">"L'endive cuite ou braisée sera moins amère qu'une endive crue"</a>, <a href="http://www.marmiton.org/recettes/recette_plusdavis.cfm?num_recette=21135">"Je les trouve moins amères cuites"</a>, <a href="http://www.sahten.com/?2006/06/03/je-n-aimais-pas-les-endives-mais">"Je n'en ai jamais goûté cuites... j'espère qu'elles sont ainsi moins amères que crues, ..."</a> ;<br /></li><li>des partisans de l'amertume de l'endive cuite : <a href="http://forum.doctissimo.fr/cuisine/salades-entrees-froides/salades-sujet_48_1.htm">"Endive crues (moins amere que cuite)"</a>, <a href="http://www.ilaca.org/blog/2007/05/25/endives-au-lard/">"c’est seulement l'endive verte qui est plus amère cuite que crue."</a>, <a href="http://fr.answers.yahoo.com/question/index?qid=20081002102435AAjBKoT">"je les adore crues, mais cuites, beurk, j'y arrive vraiment pas."</a>.<br /></li></ul><br /><br /><script type="text/javascript" src="http://www.123votez.com/sondages/sondage-gratuit-30251_52226.js" charset="UTF-8"></script><noscript><a title="sondage endives sont" href="http://www.123votez.com/sondages/sondage-endives-sont-30251_52226.php" >Les endives sont :</a> depuis <a title="faire sondage" href="http://www.123votez.com" >creer un sondage </a></noscript>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com5tag:blogger.com,1999:blog-28510665.post-20570269086845100542009-01-16T15:44:00.005+01:002010-04-15T13:01:11.910+02:00Les poires à gaucheEn lisant <a href="http://weirdtechnewshub.blogspot.com/2006/07/top-10-worst-url-flops.html">cette liste d'URL ambiguës en anglais</a>, j'avais rêvé d'en trouver en français <a href="http://www.lirmm.fr/%7Egambette/EnsPython2008.php#AutresProjets">en</a> compilant toutes les combinaisons possibles de mots coquins ou rigolos en français avec d'autres mots du dictionnaire, et en vérifiant s'il était possible de segmenter autrement chaque suite de lettres ainsi obtenues.<br /><br /><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/Lespoiragauche.jpg"><img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/Lespoiragauche.jpg" alt="" border="0" /></a>Eh bien le PS a fait presque aussi bien avec <a href="http://www.lespoiragauche.fr/">lespoiragauche.fr</a>, comme ça a été également noté en commentaires <a href="http://www.lepost.fr/article/2009/01/15/1388289_le-courant-royaliste-se-structure-au-sein-du-ps.html">ici</a> et <a href="http://paris3emeavecsegolene.hautetfort.com/archive/2008/11/20/votez-segolene-royal-et-toute-son-equipe-le-20-novembre-2008.html">là</a>. Maladresse ou stratégie marketing pour créer un buzz et faire retenir l'adresse ?<br /><br />Si c'est la deuxième solution, je vais m'empresser de créer un site de photos de nos parlementaires sur www.photosdeputes.fr.<br /><br /><span style="font-style:italic;">Mise à jour d'avril 2010 : des étudiants en L3 de l'Université Montpellier 2 sont sur le coup pour le logiciel de création d'URL ambiguës, plus de détails sur <a href="http://www.lirmm.fr/~gambette/EnsProjet2010.php">ici</a> !</span>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com3tag:blogger.com,1999:blog-28510665.post-13627289501855851052008-12-13T12:17:00.009+01:002010-04-20T00:24:18.422+02:00Xkcd en français<a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://xkcd.com/233/"><img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://www.lirmm.fr/~gambette/xkcd/static/examplefrench.png" alt="" border="0" /></a><a href="http://www.xkcd.com/">xkcd</a> est une mine d'illustrations pour les enseignants en informatique, et j'ai décidé cette année d'illustrer <a href="http://www.lirmm.fr/~gambette/EnsPython2008.php">chaque séance des TP de système/réseau que j'assure en L2</a> avec un dessin traduit pour l'occasion.<br /><br />Les difficultés sont multiples : choisir le dessin tout d'abord. Car parmi les quelques centaines de l'auteur, <a href="http://en.wikipedia.org/wiki/Randall_Munroe">Randall Munroe</a>, il faut en trouver qui ont un rapport plus ou moins direct avec la séance du jour, et je remercie <a href="http://arnaud.spiwack.free.fr/">Arnaud</a> de m'avoir fait profiter de sa mémoire et de sa connaissance pointue de xkcd pour m'éviter d'être bloqué sur la fin.<br /><br />Autre problème, la traduction. Ces courtes vignettes faisant appel à un vocabulaire spécialisé sont assez <span style="font-weight: bold;">difficiles à traduire en restant aussi concis</span>. Quand il faut en plus gérer des problèmes de culture geek dont l'équivalent français n'existe pas, ça devient mission impossible. Quant au texte alternatif, c'est souvent difficile même d'y comprendre la blague.<br /><br />Encore un obstacle, la réalisation. Retrouver une police de caractères qui ressemble à l'écriture - en majuscules - de Randall Munroe n'est pas évident. On trouve quelques essais <a href="http://memoperso.free.fr/">ici</a> ou <a href="http://forums.xkcd.com/viewtopic.php?f=2&t=16964&p=633878#p588453">là</a>. La police <a href="http://www.1001fonts.com/font_details.html?font_id=1386">International Playboy</a>, qui contient même la plupart des majuscules accentuées, donne un résultat convenable.<br /><br />Enfin, dernier problème : la publication et les droits d'auteurs. Eh bien ce n'en est pas un, puisque xkcd est publié <a href="http://creativecommons.org/licenses/by-nc/2.5/deed.fr">sous licence Creative Commons</a> autorisant justement les modifications !<br /><br />Alors, qu'<span style="font-weight: bold;">attendent tous les geeks de France pour lancer une vraie interface collaborative de traduction d'xkcd</span> ?<br /><br />Il y a eu quelques essais, mais la plupart n'ont pas survécu à quelques dizaines de dessins. Le total, recensé ci-dessous, permet tout de même d'arriver à 11% de la BD. Mais attention, la qualité de traduction n'est pas toujours au rendez-vous :<br /><span style=";font-family:verdana;font-size:85%;"><a href="http://beverycool.hautetfort.com/archive/2008/02/03/xkcd-un-webcomics-en-anglais-qui-n-a-pas-peur-des-maths.html">21</a> <a href="http://www.phy-ulaval.com/journal/agraaff.pdf">45</a> <a href="http://zaziedanslemetro.canalblog.com/archives/2007/06/27/5439214.html">77</a> <a href="http://forums.xkcd.com/viewtopic.php?f=2&t=16964&p=633878#p588453">86</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4">86'</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4">123</a> <a href="http://www.roumazeilles.net/news/fr/wordpress/2007/01/31/hdmi-et-la-protection-du-contenu/">129</a> <a href="http://forums.xkcd.com/viewtopic.php?f=2&t=16964&p=633878#p588453">132</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4">148</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/13/xkcd-2">156</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/13/xkcd-2">163</a> <a href="http://forums.xkcd.com/viewtopic.php?f=2&t=16964&p=633878#p588453">169</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/10/xkcd">171</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/17/xkcd-3">185</a> <a href="http://forums.xkcd.com/viewtopic.php?f=2&t=16964&p=633878#p588453">191</a> <a href="http://www.lirmm.fr/~gambette/EnsPythonSeance7-2008.php">195</a> <a href="http://memoperso.free.fr/spip.php?article12">198</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/10/xkcd">202</a> <a href="http://memoperso.free.fr/spip.php?article15">208</a> <a href="http://www.lirmm.fr/~gambette/EnsPythonSeance3-2008.php">208'</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4">218</a> <a href="http://www.lirmm.fr/~gambette/EnsPythonSeance6-2008.php">221</a> <a href="http://forums.xkcd.com/viewtopic.php?f=2&t=16964&p=633878#p588453">224</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4">227</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/10/xkcd">231</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4">232</a> <a href="http://www.lirmm.fr/~gambette/EnsPythonSeance5-2008.php">233</a> <a href="http://forums.xkcd.com/viewtopic.php?f=2&t=16964&p=633878#p588453">242</a> <a href="http://www.lirmm.fr/~gambette/EnsPythonSeance4-2008.php">244</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4">247</a> <a href="http://forums.xkcd.com/viewtopic.php?f=2&t=16964&p=633878#p482224">275</a> <a href="http://forums.xkcd.com/viewtopic.php?f=2&t=16964&p=633878#p588453">275'</a> <a href="http://memoperso.free.fr/spip.php?article10">287</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/13/xkcd-2">290</a> <a href="http://www.covertprestige.net/blog/2008/01/connaissezvous-xkcd.html">302</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/13/xkcd-2">302'</a> <a href="http://www.lirmm.fr/~gambette/EnsPythonSeance9-2008.php">303</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/13/xkcd-2">307</a> <a href="http://memoperso.free.fr/spip.php?article16">323</a> <a href="http://www.lirmm.fr/~gambette/EnsPythonSeance8-2008.php">327</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/10/xkcd">327'</a> <a href="http://forums.xkcd.com/viewtopic.php?f=2&t=16964&p=633878#p588453">329</a> <a href="http://memoperso.free.fr/spip.php?article21">341 342 343 344 345</a> <a href="http://www.lenoob.com/les_news/lire.php?id=147">349</a> <a href="http://forums.xkcd.com/viewtopic.php?f=2&t=16964&p=633878#p588453">350</a> <a href="http://www.lirmm.fr/~gambette/EnsPython2008.php">353</a> <a href="http://memoperso.free.fr/spip.php?article6">374</a> <a href="http://memoperso.free.fr/spip.php?article6">377</a> <a href="http://www.lirmm.fr/~gambette/EnsPythonSeance2-2008.php">378</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/17/xkcd-3">378'</a> <a href="http://www.redacbox.fr/Blog2/2008/02/27/le-sexisme-en-une-lecon/">385</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4">385'</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4">386</a> <a href="http://forums.xkcd.com/viewtopic.php?f=2&t=16964&p=633878#p588453">397</a> <a href="http://forums.xkcd.com/viewtopic.php?f=2&t=16964&p=633878#p588453">399</a> <a href="http://forums.xkcd.com/viewtopic.php?f=2&t=16964&p=633878#p588453">400</a> <a href="http://memoperso.free.fr/spip.php?article6">405</a> <a href="http://forums.xkcd.com/viewtopic.php?f=25&t=21397&p=633948#p636927">411</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4">411'</a> <a href="http://forums.xkcd.com/viewtopic.php?f=25&t=21397&p=633948#p636972">414</a> <a href="http://memoperso.free.fr/spip.php?article11">425</a> <a href="http://forum.ubuntu-fr.org/viewtopic.php?id=220700">425'</a> <a href="http://memoperso.free.fr/spip.php?article1">426</a> <a href="http://memoperso.free.fr/spip.php?article3">427</a> <a href="http://memoperso.free.fr/spip.php?article4">428</a> <a href="http://memoperso.free.fr/spip.php?article5">429</a> <a href="http://memoperso.free.fr/spip.php?article10">432</a> <a href="http://memoperso.free.fr/spip.php?article10">433</a> <a href="http://memoperso.free.fr/spip.php?article7">434</a> <a href="http://memoperso.free.fr/spip.php?article8">435</a> <a href="http://memoperso.free.fr/spip.php?article9">436 </a><a href="http://memoperso.free.fr/spip.php?article17">441</a> <a href="http://memoperso.free.fr/spip.php?article14">444</a> <a href="http://memoperso.free.fr/spip.php?article13">445</a> <a href="http://memoperso.free.fr/spip.php?article18">447</a> <a href="http://memoperso.free.fr/spip.php?article19">448</a> <a href="http://memoperso.free.fr/spip.php?article20">451</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/17/xkcd-3">453</a> <a href="http://www.lirmm.fr/~gambette/EnsPythonSeance1-2008.php">456</a> <a href="http://www.framablog.org/index.php/post/2008/08/31/bd-xkcd-trad-fr">456'</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/13/xkcd-2">469</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/17/xkcd-3">479</a> <a href="http://www.laquadrature.net/fr/xkcd-a-webcomic-steal-this-comic">488</a> <a href="http://www.lostinbrittany.org/blog/2008/10/14/xkcd-explique-lechec-des-drm/">488'</a> <a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/17/xkcd-3">530</a></span><br /><br />Si l'on veut lancer une traduction massive, l'idée serait de permettre une collaboration. Difficile si l'on travaille directement sur les images. J'ai donc préparé une <a href="http://www.lirmm.fr/~gambette/xkcd/"><span style="font-weight: bold;font-size:180%;">interface de traduction d'xkcd en français</span></a> qui fonctionne seulement en ajoutant le texte sous l'image. Ceux qui le voudront pourront ensuite créer les images, en y insérant ces textes. Pour arriver à une bonne qualité, je propose le système suivant :<br /><ul><li>n'importe qui peut envoyer une traduction</li><li>des modérateurs<span style="font-size:78%;"> (moi pour l'instant, mais si je peux vous faire confiance, j'accepterai certainement de vous ajouter à la liste)</span> se chargent de la valider pour qu'elle apparaisse sur le site, et de choisir la meilleure<span style="font-size:78%;"> (et donc bye bye les robots spammeurs !)</span>.</li></ul>Le système est réalisé en PHP/MySql, sur une structure très proche de celle utilisée pour le <a href="http://gambette.blogspot.com/2008/07/livre-interactif-lisbonne-par-fernando.html">guide de Pessoa sur Lisbonne</a>. L'adaptation à d'autres langues sera donc très facile <span style="font-size:78%;">(<a href="http://www.lirmm.fr/~gambette/PersoContact.php">contactez-moi</a> si vous êtes intéressé par les sources)</span>. Et bien sûr, je compte sur vous <a href="http://www.lirmm.fr/~gambette/xkcd/"><span style="font-weight: bold;">pour proposer des traductions</span></a> ! Il suffit de cliquer sur l'image voulue, puis compléter le formulaire, en utilisant éventuellement le lien vers l'image originale pour l'avoir sous les yeux pendant la traduction. Et surtout n'oubliez pas l'<span style="font-weight: bold;">infobulle</span>, qui apparaît quand on laisse traîner la souris sur l'image !<br /><br /><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.lirmm.fr/~gambette/xkcd/"><img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer; width: 600px; height: 373px;" src="http://www.lirmm.fr/~gambette/xkcd/static/screenshot.png" alt="" border="0" /></a><br />Alors bien sûr, vous allez me dire que la traduction des xkcd est un peu inutile, vu que la connaissance de l'anglais fait partie de la culture geek. Ce n'est pas complètement faux. Un sondage a été organisé cette année pour évaluer la familiarité avec l'outil informatique de tous les entrants en licence de la <a href="http://www.ufr.univ-montp2.fr/">Faculté des Sciences de l'Université Montpellier 2</a>, dans le cadre d'une UE préparant à l'examen du <a href="http://www2.c2i.education.fr/">C2I</a> (Certificat Informatique et Internet). Un millier d'étudiants a répondu, et voici les résultats des deux questions suivantes :<br /><br /><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/SondageAnglaisInformatiqueMini.png"><img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer; width: 350px; height: 247px;" src="http://philippe.gambette.free.fr/Blog/SondageAnglaisInformatiqueMini.png" alt="" border="0" /></a><span style=";font-family:verdana;font-size:85%;"><span style="font-style: italic;">Si, sur internet, vous arrivez sur une page écrite en anglais :</span><br /></span><ul style="font-family:verdana;"><li><span style="font-size:85%;"> vous n'y comprenez rien</span></li><li><span style="font-size:85%;"> vous y déchiffrez quelques mots</span></li><li><span style="font-size:85%;"> vous pourriez la comprendre en cherchant le sens de quelques expressions</span></li><li><span style="font-size:85%;">vous la lisez en comprenant la plupart des phrases</span></li></ul> <span style=";font-family:verdana;font-size:85%;"><span style="font-style: italic;">À propos du contenu de cette unité FLIN102, vous pensez :</span><br /></span><ul style="font-family:verdana;"><li><span style="font-size:85%;">que vous aurez du mal, qu'il y aura beaucoup (trop ?) de choses à découvrir,</span></li><li><span style="font-size:85%;">que ça ira en suivant les TP, et en les travaillant en plus chez vous,</span></li><li><span style="font-size:85%;">que suivre les TP vous suffira pour apprendre des choses et les retenir,</span></li><li><span style="font-size:85%;">que vous connaissez déjà une bonne partie des choses enseignées en TP, mais que vous en découvrez quelques unes,</span></li><li><span style="font-size:85%;">que suivre les TP est pour vous complètement inutile, vous savez déjà tout ou presque.</span></li></ul><br />Comme vous pouvez le constater, <span style="font-weight: bold;">la maîtrise de l'anglais augmente en même temps que la maîtrise de l'outil informatique</span>. Alors peut-être que les fous d'ordinateurs continueront à se précipiter sur la version originale de la BD, et que la traduction leur servira seulement en cas de problème. Peut-être qu'ils profiteront de leur maîtrise de la langue pour faire profiter d'xkcd aux allergiques à l'informatique <a href="http://danlekel.gambette.com/">pour lesquels</a> <a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=253">quelques</a> <a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=294">planches</a> <a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=385">sont</a> <a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=315">tout</a> <a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=451">à</a> <a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=320">fait</a> <a href="http://www.lirmm.fr/~gambette/xkcd/index.php?id=304">accessibles</a>.<div><br /></div><div><br /></div><div><i><span class="Apple-style-span" style="font-size: small;">Episodes suivants : </span></i><a href="http://gambette.blogspot.com/2009/03/traduction-dxkcd-et-loi-de-pareto.html"><i><span class="Apple-style-span" style="font-size: small;">traduction d'xkcd et loi de Pareto</span></i></a><i><span class="Apple-style-span" style="font-size: small;"> (31 mars 2009), </span><a href="http://gambette.blogspot.com/2010/04/sous-titrage-xkcd-100.html"><span class="Apple-style-span" style="font-size: small;">sous-titrage xkcd : 100% !</span></a><span class="Apple-style-span" style="font-size: small;"> (20 avril 2010)</span></i></div>Philippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.com7