Mathématiques des papillotes (1/2)



Petits travaux ludico-informatiques
Publié par
Philippe
à
18:28
2
commentaires
Voter pour ce billet sur Wikio
Tags : alimentation, combinatoire, gastronomie, science, statistiques, tableur
Mes véronisations donnent généralement un aperçu de l'utilisation possible d'outils informatiques en sciences humaines, et j'ai essayé d'en savoir plus sur les liens réels entre ces deux domaines en participant vendredi dernier à la journée OSIDMESH (Outils Statistiques et Informatiques pour Doctorants Montpelliérains En Sciences Humaines) organisée par le LIRMM et l'Association Contact. Le bilan en est plutôt positif : un intérêt est sensible de la part des doctorants en sciences humaines, même si tous ne le ressentent pas au même niveau (problèmes techniques liés à la rédaction de la thèse, maîtrise d'outils généraux de traitement des données ou bien prise en main de logiciels spécialisés). La rencontre a en tout cas permis de présenter quelques possibilités permises par des logiciels existants ou des projets en cours, et de se mettre en contact pour un travail en commun plus poussé.
Publié par
Philippe
à
23:45
1 commentaires
Voter pour ce billet sur Wikio
Tags : science, société, statistiques, TreeCloud, visualisation
Un questionnaire circule depuis plus de deux ans sur la blogosphère française, il consiste à mettre en gras ce qu'on a fait dans sa vie, parmi une liste d'une centaine de propositions. Après l'analyse du mème de la F-list, voilà donc celle du mème "fait-ou-pas".
De nombreuses caractéristiques du mème F-list (dont évidemment celles qui compliquent la récupération et l'analyse des données) se sont retrouvées dans celui-là : origine américaine (j'en trouve une trace dès juin 2004), erreurs de transmission du mème (oubli de questions, modifications d'intitulés), changement des règles du jeu (ajout d'une question à la fin du questionnaire), diffusion communautaire (blogs de gastronomie, puis blogs de loisirs, un passage par les blogs cinéma et les blogs littéraires), transmission virale non arborée (questionnaire repris chez plusieurs sources), formats divers selon la plate-forme de blog. Et ce cas de blogueuse qui répond au questionnaire, puis à une version un peu modifiée l'année suivante...
Malgré ces obstacles, j'ai réussi à identifier une liste globalement conservée de 130 questions chez 163 blogueurs ou de commentateurs de blogs (en recherchant sur Google ou Blogsearch certaines questions du questionnaires). Parmi celles-ci, 127 avaient reçu une réponse de tous ces participants (les questions 50 et 55 ont été omises par certains participants, la 16 a été modifiée...). Ces données sont disponibles ici dans un beau tableau à double entrée de 0 et de 1 (1 si fait, 0 sinon, blogueurs en colonnes, questions en lignes... je vous laisse imaginer le nombre de films que j'ai vu cet été en parallèle de cette ingrate tâche d'acquisition manuelle de données).
Quel est l'intérêt de ces données ? Bah, pour commencer ça a bien une petite valeur de
Qu'est-ce qui obtient
Et là, vous vous dites que vous aimeriez bien savoir quels blogueurs ont fait les trucs les plus exceptionnels. Comment évaluer ça ? Le nombre d'actions réalisées comme le propose Nostaledonie en commentaire chez les Fenouillard ? Non, certaines sont visiblement plus extraordinaires que d'autres. Une idée est alors de considérer chaque pourcentage comme une probabilité p d'effectuer l'action. Il y a donc aussi probabilité 1-p de ne pas effectuer cette action. Et finalement, la probabilité d'effectuer une certaine liste de ces 130 actions est le produit des probabilités correspondantes pour chaque action. Bon, certes, en faisant une simple multiplication, je considère que ces probabilités sont indépendantes, ce qui est peu raisonnable (répondre oui à "élever des enfants" n'est pas indépendant de répondre oui à "changer la couche d'un bébé" par exemple). On supposera toutefois qu'elles le sont pour simplifier le calcul. Pour simplifier la lisibilité également, on prendra le log du résultat (c'est plus facile de lire "-10" que "0.0000000001", voir la troisième ligne de ce tableau). Voici donc la liste des 5 blogueurs (blogueuses ?) ayant la vie la plus extraordinaire, parmi ceux qui ont répondu :
Publié par
Philippe
à
10:31
4
commentaires
Voter pour ce billet sur Wikio
Tags : blogosphère, blogs, Blogsearch, buzz, clustering, corrélation, cuisine, Google, graphique, mème, sondages, SplitsTree, statistiques, tableur, visualisation
Le logiciel TagCloud Builder de construction de nuages de mots, présenté ici il y a déjà quelque temps, a bénéficié d'une mise à jour la semaine dernière : il permet désormais de représenter les mots de plusieurs textes au sein d'un seul nuage, en attribuant une couleur à chaque texte.
Cette idée m'a été proposée par Kirsten Talbot, qui termine son master en sciences sociales en Afrique du Sud, et voulait représenter ainsi ses données sur les stéréotypes communautaires dans l'Afrique du Sud post-apartheid. En attendant de pouvoir découvrir ses visualisations et ses résultats, voici un exemple d'utilisation de cette visualisation en multinuage de mots, sur les programmes (ou ce qui y ressemble le plus...) des quatre partis français en tête dans les sondages pour les européennes selon Ipsos :
Publié par
Philippe
à
00:05
8
commentaires
Voter pour ce billet sur Wikio
Tags : logiciel, nuage de mots, politique, TagCloud Builder, visualisation
Hier soir, le Figaro a "révélé" le "le palmarès 2008 des violences, sur la base des données officielles de l'Observatoire national de la délinquance (OND)", et choisit de l'illustrer avec la carte des atteintes volontaires à l'intégrité physique en titrant "La nouvelle carte de France de l'insécurité". Buzz assuré, une centaine de commentaires en quelques heures...
Publié par
Philippe
à
10:03
3
commentaires
Voter pour ce billet sur Wikio
Tags : buzz, corrélation, Le Figaro, politique, presse, société, statistiques, tableur
Publié par
Philippe
à
20:16
4
commentaires
Voter pour ce billet sur Wikio
Tags : FuryPopularity, Google, moteurs de recherche, politique, presse, sondages
Le projet de traduction d'xkcd, conçu en un week-end et lancé début décembre, a plutôt bien démarré : 2/3 des planches de Randall Munroe sont maintenant traduites en français ! C'est plus que les versions russe (299/562) et espagnole (150/562)... pour une raison simple : le projet est collaboratif ! (Bon, et on traduit en dessous, et pas sur les images, aussi, hein, il faut reconnaître que c'est plus rapide). Une trentaine de personnes a participé : quelques amis, et une majorité d'internautes que je ne connais pas (vous pouvez vous signaler en commentaire de ce post afin que j'ajoute un petit lien sous votre pseudo dans la liste des traducteurs ;)).
Voici quelques données sur l'avancement du projet, au cas où vous voudriez vous lancer dans une aventure similaire. Tout d'abord, la chronologie de l'avancement du projet. J'ai indiqué par une bande rouge une période d'indisponibilité de l'interface de traduction (du 21 février au 13 mars) qui avait échappé à mon attention, le reste du site étant fonctionnel. La forme de la courbe en escaliers correspond à l'arrivée de participants motivés, qui se lassent au bout d'un moment, ou ont fini de traduire tout ce qui les intéressait (ou pensent que le site est cassé, à partir du 21 février :s).Passons justement à la distribution des contributions. Pour la Wikipedia anglaise, Aaron Swartz nous apprenait en 2006 que 2% des contributeurs font presque 75% des modifications de l'encyclopédie. Pour la traduction d'xkcd, les pourcentages de participation des divers traducteurs se trouvent ici (quand plusieurs collaborateurs ont contribué à la traduction d'une planche, je leur attribue naturellement l'inverse du nombre de contributeurs et je divise finalement ces scores par le nombre total de planches en anglais pour obtenir les pourcentages). Notons que ces pourcentages ne prennent pas en compte la longueur des traductions réalisées (tout comme l'étude d'Aaron Swartz d'ailleurs), ce qui ne rend pas vraiment compte, par exemple, du travail de Kith sur la série à propos du Ministre de l'Internet. Toujours est-il que ces données font apparaître une loi classique : la loi de Pareto ! 20% des utilisateurs (les 6 plus gros collaborateurs) ont réalisé 80% des traductions. Ce soir, le nombre précis est même 79.62%, ce qui semblerait donc moins "élitiste" que la Wikipedia !
En fait, on voit même apparaître une distribution de Pareto (une loi de puissance qui vérifie la règle des 80-20), comme nous le montre la courbe log-log ci-contre.
On peut aussi avoir un aperçu des horaires et des jours de la semaine où les traducteurs montrent le plus d'activité (j'ai exclu les valeurs me concernant) : valeurs anormalement élevées le dimanche, à midi, et en pleine nuit, tout ça rappelle les habitudes de surf des étudiants.
Un petit aperçu de ces traductions, maintenant, avec le nuage arboré des mots apparaissant plus de 10 fois, ci-dessous. Je ne l'ai pas annoncé en grande pompe, j'attends une jolie interface web pour ça, mais ça y est (enfin), un outil pour créer des nuages arborés avec plein de paramètres personnalisés est disponible sur www.treecloud.fr (ou treecloud.org pour les anglophones). Attention, c'est un outil en ligne de commande, qui nécessite un détour par le manuel d'utilisation, en anglais. Mais ça en vaut la peine : le programme permet d'obtenir de jolis résultats, en particulier grâce à la coloration "chronologique" : les mots du nuage arboré ci-dessous apparaissent plutôt rouge s'ils se trouvaient dans les premières planches de xkcd, plutôt bleu s'ils sont beaucoup présents dans les planches récentes. On est en train, avec Jean, de tenter d'ajouter à ça des informations sur la dispersion des mots : plus de nouvelles quand ce sera prêt !Et si ce nuage arboré vous intrigue, allez jeter un oeil à ces traductions de xkcd, ou abonnez-vous au flux RSS pour recevoir les dernières traductions dès qu'elles sont validées ! A propos, petit aparté sur le spam : les robots n'ont pas tardé à trouver le site et envoyer des traductions bien peu fiables, incitant plutôt à l'achat de petites pilules bleues, mais le flux reste faible (un spam par jour en moyenne) et la procédure de modération manuelle permet d'éviter de les laisser passer.
Pour finir, un grand merci à tous les participants à la traduction ! Internet est de plus en plus collaboratif, alors si vous avez un peu de temps, profitez-en pour vous lancer dans quelques aventures. C'est l'occasion de faire un peu de pub pour les JeuxDeMots, et Pti Clic, qui, dans le genre de Google Image Labeler ou VideoTagName, sont en train de construire petit à petit un magnifique réseau sémantique, à faire pâlir Wordnet. Les données récoltées sont en plus mises à disposition en format brut, ou consultables par des interfaces web, qui peuvent déjà être utilisées pour retrouver, par association d'idées, ces mots qu'on a sur le bout de la langue. Le premier jeu permet d'aider le système à apprendre des relations sémantiques entre mots (synonyme, contenu/contenant, lieu d'une action, etc), et le second (dont on devient vite accro, même en jouant au touchpad...) de renforcer ou préciser ces relations. Le meilleur moyen pour comprendre le principe est de tester en mode invité, et le meilleur moyen pour comprendre l'utilité des données produites est de les utiliser dans des applications diverses... ce qui ne manquera pas d'être fait bientôt sur ce blog !
Comme toujours, les données liées à ce billet sont disponibles : dans ce fichier tableur Open Office. Et le nuage arboré à ouvrir avec SplitsTree pour pouvoir zoomer, etc. Il a été construit par SplitsTree et TreeCloud avec une stoplist française, et les options distance=hyperlex minnb=11 window=100 unit=1 color=chronology.
Episodes précédent et suivant.
Publié par
Philippe
à
23:45
3
commentaires
Voter pour ce billet sur Wikio
Tags : BD, blogs, cognition, Google, loi de puissance, nuage arboré, SplitsTree, statistiques, tableur, traduction, TreeCloud, xkcd, Yahoo
Histoire d'embrouiller un peu plus l'algorithme de classification thématique de Wikio qui n'est toujours pas parvenu à affecter ces pages à la catégorie Science, un peu de gastronomie, aujourd'hui ! Cette fois-ci, ce ne sera pas pour affirmer que les crêpes, les gaufres, et les flan, c'est la même recette, mais pour appliquer le principe de la rétroingéniérie déjà illustré sur Google Trends à la fameuse Tarte aux pommes Bouquet de roses© d'Alain Passard.
Comme de nombreux lecteurs, j'avais salivé l'été dernier devant les photos de cette création sur un article du Monde de Jean-Claude Ribaute (dont le texte intégral est archivé ici). Et j'ai tenté, moi aussi, "avec une lame fine, de réaliser l'exploit à la maison".
Après quelques essais malheureux, j'arrive enfin à un résultat assez satisfaisant visuellement, dont je vais vous dévoiler le secret. A en juger par les commentaires sur l'originale, qui insistent sur l'aspect à la fois croustillant et moelleux des pommes elles-mêmes, la recette que j'ai reconstituée est encore loin de la vraie. Mais pour m'aider à l'améliorer, j'ai besoin de plus d'informations que celles données par les photos : n'hésitez pas à me financer une petite dégustation (à l'Arpège, ou à emporter) afin que j'approfondisse cela.Commençons par ce qui doit être évité pour un résultat acceptable :
- laisser la peau : les photos semblent montrer qu'elle y est encore, mais il me semble difficile de la garder en la rendant croustillante, même la recouvrir de sucre n'a pas aidé. De plus, ça complique la découpe des pommes pour la reconstitution des roses, même si la méthode de découpe détaillée plus bas permet de la conserver.
- récupérer des lamelles de la pomme en continuant à l'éplucher à l'économe une fois que la peau est enlevée : les lamelles récupérées sont trop fines et ne se tiennent pas.
- faire des roses trop petites ou trop espacées sur la tarte : si vous laissez refroidir la tarte, les roses ont tendance à sécher et se rabougrir un peu pour laisser apparaître la pâte dessous, comme on peut le voir sur l'image animée ci-contre.Bref, l'idéal est de récupérer des lamelles d'environ 2mm d'épaisseur. L'idée est que l'on peut reconstituer les "roses" même avec des lamelles d'une longueur réduite... correspondant à la longueur d'un quartier (la hauteur de la pomme, quoi...). La petite animation ci-contre illustre comment obtenir ces lamelles (le coup de main vient assez vite), et les enrouler progressivement. Idéalement, il faut faire ça à deux : un qui découpe les lamelles, l'autre qui les enroule et dispose les roses obtenues.
Enfin, on peut saupoudrer le tout de cannelle ou de dragées écrasées au mortier, ou encore de sucre-glace, éventuellement après cuisson. Encore une fois, il est préférable de servir et manger chaud.
Si vous souhaitez vous lancer dans des variantes plus colorées et originales, et peut-être aussi plus faciles à réaliser, quelques idées ont fleuri sur le net, avec des tartes bouquet de roses aux patates, aux courgettes violettes, aux courgettes vertes.
Pour finir, un petit sondage à propos de l'amertume des endives, puisque ce sujet sensible divise : j'étais jusqu'à il y a quelques semaines persuadé que l'endive crue, qui n'a aucun goût, n'était pas du tout amère, contrairement à l'endive cuite. Quelques personnes tout à fait respectables défendent vigoureusement la thèse opposée, ce qui m'a d'ailleurs amené à nuancer ma position et admettre que la base de l'endive crue a bien un peu d'amertume. Internet aussi est partagé :
Publié par
Philippe
à
00:57
5
commentaires
Voter pour ce billet sur Wikio
En lisant cette liste d'URL ambiguës en anglais, j'avais rêvé d'en trouver en français en compilant toutes les combinaisons possibles de mots coquins ou rigolos en français avec d'autres mots du dictionnaire, et en vérifiant s'il était possible de segmenter autrement chaque suite de lettres ainsi obtenues.Eh bien le PS a fait presque aussi bien avec lespoiragauche.fr, comme ça a été également noté en commentaires ici et là. Maladresse ou stratégie marketing pour créer un buzz et faire retenir l'adresse ?
Si c'est la deuxième solution, je vais m'empresser de créer un site de photos de nos parlementaires sur www.photosdeputes.fr.
Mise à jour d'avril 2010 : des étudiants en L3 de l'Université Montpellier 2 sont sur le coup pour le logiciel de création d'URL ambiguës, plus de détails sur ici !
Publié par
Philippe
à
15:44
3
commentaires
Voter pour ce billet sur Wikio