Mon détecteur de répétitions

J’ai enfin écrit le petit logiciel dont l’idée me trottait dans la tête depuis quelques temps. Afin de faciliter les corrections, il détecte les mots potentiellement de la même famille et les simples répétitions. Les résultats me satisfont, bien qu’il y ait matière à en améliorer la qualité. « Repet.py » (c’est le nom de cet outil) est multilingue et devrait fonctionner tout aussi bien en anglais qu’en français, allemand ou la plupart des langues occidentales. Plutôt que de se baser sur des listes de vocabulaire, pénibles à mettre en place, lourdes à maintenir, il n’analyse que les quatre premières lettres de chaque mot, ce qui provoque quelques faux positifs, bien sûr, mais à un prix que je juge acceptable.

Voici en exemple un texte extrêmement drôle (en fait juste un article précédent qui n’a pas reçu assez de visites 😉 ), passé aux commentaires sans pitié de « repet.py »:

Pour chaque répétition, la ligne ainsi que la distance entre les deux mots est affichée. La première occurence du mot est mise en évidence en début de citation, et la racine commune est placée en bout de citation, à la suite du second mot. Vous noterez que la ponctuation a disparu, conséquence de la méthode par laquelle « repet.py » détecte les mots. Il y aurait évidemment moyen de rétablir tous ces signes disparus, mais pour l’instant cela me convient ainsi. J’optimiserai par la suite si il y a une demande.

Ma méthode prend en compte la plupart des conjugaisons, les pluriels et même des racines communes (vous remarquerez que « sensuel » rentre en potentiel conflit avec « sensation ») . Revers de la médaille: les faux positifs (« mais » et « maison », « pourceau » et « pourboire » alarmeront sans raison mon programme),  et certaines répétitions passeront inaperçues si les quatre premières lettres ne sont pas rigoureusement identiques (par exemple « venir » et « revenir », « fendre » et « pourfendre », etc). J’imagine déjà des solutions à ces problèmes, et il est fort probable que je me penche un jour sur une version améliorée de cet algorithme.

« Repet.py » m’a déjà bien aidé lors de la correction de ma dernière nouvelle, et me pousse à utiliser un langage plus intéressant.

Écrit en Python, ce script devrait fonctionner d’office sur la plupart des linux/*bsd ainsi que sous Windows et MacOS X pour peu que Python y soit installé.

Vous pouvez télécharger la dernière version de « repet.py » sur mon Dropbox.

Utilisation: repet.py <Nom du fichier à analyser>

Si la distance par défaut (50 mots) ne vous convient pas, vous pouvez la spécifier en second argument.

Caveat emptor et tutti quanti.

Commentaires et suggestions bienvenus.

Nouvelles en vrac

Je suis toujours vivant, bien que je ne tweete ni ne blogue guère depuis quelques mois. Aristote disait que « L’homme est un animal social« , mais je me sens parfois plus proche de Diogène que de lui. Ou juste plus animal que social, allez savoir.

Les 52’000 mots de « Les Bataille-Nahual » attendent le verdict de l’éditeur.

Quelques pièces de théâtre en cours, avec le projet d’en publier quelques-unes en ligne, ici et ailleurs.

Un projet de roman interactif suspendu. À redémarrer à l’occasion.

Ma pièce « Temps Mort » a été jouée il y a quelques jours à Poitiers, au théâtre de verdure.

 

Ebook gratuit pour Noël

Comme je vous l’annonçais il y a quelques jours, j’ai un cadeau de Noël pour vous. A partir d’aujourd’hui, et jusqu’au premier janvier 2012, mon roman Promotion Borgne est disponible gratuitement sur Smashwords à l’aide du coupon: WM63Q

Il vous suffit d’indiquer ce coupon lors de l’achat et le prix sera réduit de 100%. Cela ne fonctionne malheureusement que sur Smashwords, et non sur les autres plateformes comme Amazon.

Si vous hésitiez à l’acheter, ou si vous recevez pour Noël une liseuse et que vous cherchez un roman original, vous n’aurez à présent plus d’excuses pour vous priver d’entrer dans mon univers.

J’attends de recevoir un exemplaire de mon roman imprimé par Lulu.com avant de dévoiler la nouvelle couverture sur laquelle j’ai travaillé ces jours. Je continue d’avancer sur les fiches de personnages pour mon troisième roman, affublé de l’affreux mais temporaire titre « Tueur ». La structure de l’histoire est déjà écrite.

Joyeux Noël à toutes et tous.

Deuxième roman terminé

Voilà. J’ai pu mettre un point final à la cavale du prêtre et de la riche héritière, leurs aventures sont terminées. Vingt-cinq chapitres remplis de suspense, une quête du bonheur à travers un continent et un océan. Il ne s’agit que d’un premier jet, qu’il faudra corriger, améliorer et peut-être étoffer à quelques endroits. Je vais laisser reposer le manuscrit quelques semaines, voire quelques mois, histoire de pouvoir le traiter impartialement et avec un regard neuf lors des corrections. Je n’ai pas encore prévu de titre, bien que les idées abondent. Cela ne m’inquiète pas. Je me fais plus de souci quant à la classification du roman. Ce n’est pas vraiment de la science-fiction, bien que cela se déroule dans un monde parallèle au notre, semblable bien que différent. Ce n’est ni un polar ni un thriller, bien que des éléments puissent y faire penser. On verra.

En attendant les révisions, je vais écrire un troisième roman. J’ai en réserve un plan détaillé pour une sympathique histoire de tueur en série, mais je vais peut-être partir sur quelque chose de complètement différent. Je me donne quelques jours de réflexion/préparation puis je retourne noircir des pages.

Je réfléchis également à un tirage papier pour Promotion Borgne, peut-être chez Lulu.com.

Ces prochains jours, vu que Noël approche, il se pourrait que je fasse un petit cadeau à mes lecteurs.