Identifiez en quelques secondes les passages dupliqués (ou très proches) entre vos contenus. Collez vos textes ou leurs URLs ; l’outil calcule plusieurs scores (TF-IDF, Jaccard, Levenshtein, similar_text) et signale les couples à risque.
FAQ
Comment s'en servir ?
Comme une image vaut mille mots :
Le traitement est-il confidentiel ?
Oui. Tous les calculs s’effectuent sur le serveur qui héberge ce site WordPress (o2switch). Les textes que vous collez ne sont jamais envoyés à un service externe ; ils ne quittent donc pas ce serveur et sont supprimés de la mémoire PHP une fois l’analyse terminée.
Quelles sont les limites actuelles ?
- 20 champs « Texte ou URL » par analyse
- 10 000 caractères par champ, 30 000 caractères en tout
- Fichier CSV : 100 lignes et 2 Mo maximum
- 50 analyses par heure et par adresse IP
Pourquoi dois-je valider un reCAPTCHA ?
Pour bloquer les robots et préserver les ressources du serveur.
Comment est calculé le score global ?
Moyenne pondérée : TF-IDF 35 % · Jaccard 25 % · Levenshtein 20 % · similar_text 20 %. Les 150 premiers mots de chaque texte sont davantage pris en compte.
Le score garantit-il l’absence de contenu dupliqué ?
Non. Google utilise bien d’autres signaux (intentions de recherche, structure, liens, entités…). Ce score reste un indicateur heuristique à interpréter avec discernement.
Puis-je comparer des pages web directement ?
Oui. Collez simplement l’URL ; l’outil récupère le contenu principal (menus, en-têtes, footers et scripts sont ignorés) avant de lancer les calculs.
Le seuil de similarité, comment le choisir ?
- 70 % (valeur par défaut) : bon compromis – signale les ressemblances réellement significatives sans noyer l’écran d’alertes.
- 80 % et plus : mode « strict » – ne retient que des textes quasiment identiques ; utile pour repérer les duplications franches ou le spin très léger.
- 60 – 69 % : mode « sensible » – détecte aussi des paraphrases proches ; pertinent pour vérifier des listes de produits ou de descriptions qui se ressemblent.
- 50 – 59 % : mode « exploratoire » – montre les parentés de thème, de structure ou de vocabulaire ; utile dans un audit large mais produit plus de faux positifs.
- En-dessous de 50 %, la corrélation devient faible ; le risque de contenu dupliqué est généralement négligeable. Ajustez donc le curseur selon votre tolérance : plus le seuil est bas, plus vous verrez de « rouge ».
Laisser un commentaire