tag:blogger.com,1999:blog-28510665.post116164674851783817..comments2023-07-04T13:40:43.476+02:00Comments on Je véronise...: Nuages de mots artisanauxPhilippehttp://www.blogger.com/profile/17811557333070553722noreply@blogger.comBlogger2125tag:blogger.com,1999:blog-28510665.post-1161669189088469262006-10-24T07:53:00.000+02:002006-10-24T07:53:00.000+02:00Héhé, excellent le "résumé moyen". J'ai lu un peu ...Héhé, excellent le "résumé moyen". J'ai lu un peu vite ton commentaire et j'ai cru que tu me citais une critique tout à fait authentique. Je me demande aussi si de même des livres seraient résumables en utilisant juste (ou principalement) les mots les plus fréquents...<BR/><BR/>Et pour les contenus de site web, c'est le programme Dico qui fait l'analyse des nombres d'occurences, et en effet il travaille seulement avec des textes au format txt (et TagCloud Builder se restreint même à l'encodage ANSI, il aime pas l'UTF8). Mais bon, il est possible de récupérer des sites en totalité avec des crawlers, puis extraire du HTML seulement la partie texte. Je dis possible, pas facile : il faut par exemple enlever le code correspondant aux menus, qui bruite tout, sinon (c'est aussi un problème que j'ai avec les logs GAIM, certains passages de conversation issus de copier/coller font exploser "artificiellement" certains nombres d'occurences).Philippehttps://www.blogger.com/profile/17811557333070553722noreply@blogger.comtag:blogger.com,1999:blog-28510665.post-1161654270271791332006-10-24T03:44:00.000+02:002006-10-24T03:44:00.000+02:00Un autre intérêt, c'est qu'on n'a plus besoin de l...Un autre intérêt, c'est qu'on n'a plus besoin de lire ses articles. Il suffit de connaître le résumé moyen :<BR/><BR/>"J'ai vraiment aimé aller voir ce film génial. C'est l'histoire d'une petite fille qui a peur du monde et des gens. Pendant ce temps, son père et sa mère font l'amour. Ca vaut le coup, c'est beau, l'histoire est vraiment arrivée dans la vie, la fin est magnifique et c'est très bien joué."<BR/><BR/>;)<BR/><BR/>Est-ce qu'il est possible d'appliquer cela au contenu d'un site web ou doit-on avoir les textes au format txt par exemple ?Dadohttps://www.blogger.com/profile/15573530967063618517noreply@blogger.com