Question:
Détecter les phrases ou les phrases répétées dans un document
Andrew Grimm
2015-01-11 12:40:04 UTC
view on stackexchange narkive permalink

Je souhaite détecter les phrases, les phrases longues et éventuellement les paragraphes qui ont été répétés dans un document. J'ai travaillé sur un document et je veux m'assurer de ne pas avoir copié le même texte ou un texte similaire à plusieurs endroits.

Idéalement, l'application devrait être disponible en ligne ou facilement installable sur un ordinateur OS X Mavericks avec Pages mais pas Microsoft Word installé.

Je suis tombé sur Pro Writing Aid, mais ses "Répéter les mots & Phrases" me semblent très bruyants - certains individus les mots sont surlignés simplement pour se produire un peu.

J'ai aussi vu l ' Analyseur de texte d'Online-Utility.org, ce qui n'est pas mal. Cependant, il existe une certaine redondance dans ses informations. S'il y a une phrase de sept mots qui se répète deux fois, elle mentionne également les deux phrases de six mots composées des mots un à six et de deux à sept comme se produisant deux fois. De plus, il est difficile de visualiser les résultats et de voir s’il existe des sections particulières contenant une grande quantité de texte dupliqué.

Cette question est différente du Programme de recherche de répétitions de mots dans les documents texte et Programme pour rechercher des répétitions de mots dans les documents Word en ce qu'ils demandent qu'un mot soit répété par le mot suivant.

Si votre document est ou peut être simplifié en un fichier texte, vous pouvez probablement utiliser la recherche d'expressions régulières dans Sublime Text (ou d'autres éditeurs de texte). Regex peut facilement détecter les mots et les lignes en double; avec un peu de travail, vous pourrez peut-être détecter des phrases et des phrases en double.
C'est un très bon et je ne suis pas très bon en grammaire et cela devrait m'aider à améliorer mon écriture ....
Il existe de nombreux outils différents
Vous voudrez peut-être essayer la [distance de Levenshstein] (https://en.wikipedia.org/wiki/Levenshtein_distance)
Deux réponses:
Leo Cardoso
2017-03-12 20:40:41 UTC
view on stackexchange narkive permalink

Vous pouvez peut-être essayer ce code:

https://github.com/raypereda/repeating-phrases (je ne suis pas le développeur de "répétitions-phrases" )

Une autre option est d'essayer un script shell (macOS, linux).

  cat ./THEFILE.txt | tr '\ n' '' | tr -d '\ b \ r' | tr -s '' | gsed 's / \ ([.!?] \) \ (. \) / \ 1 \ n \ 2 / g' | grep -v -e '^ $' | trier | uniq -c | sort -nr | head -5  

Remarque: utilisation de "gsed" à cause de macOS.Explication:

  tr '\ n' '' -> strip "\ n" (fusionner les lignes) tr -d '\ b \ r' -> supprimer les caractères de contrôle si existstr -s '' -> plusieurs espaces en séquence sont devenus un seul espace 's / \ ([.!?] \) \ (. \ ) / \ 1 \ n \ 2 / g '-> une phrase dans chaque ligne (basé sur la ponctuation) grep -v -e' ^ $ '-> bande vierge linessort | uniq -c | sort -nr | head -20 -> statistiques  

Les deux solutions supposent des fichiers texte brut pour l'entrée.

David.P
2019-02-10 04:29:41 UTC
view on stackexchange narkive permalink

Textanz peut le faire (trouver et mettre en évidence des blocs de texte répétés dans un document).

http://www.textanz.com/index.php

https://i.imgur.com/1giwJZ1.jpg



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...