Initiation à l'Electronique Numérique (collection pascalien)

Les bouquins, les scans, les pdf ou les liens qui vont bien... ici c'est la bibliothèque.

Modérateurs : Papy.G, fneck, Carl

MapommeCMOA
Messages : 60
Inscription : 21 mars 2021 23:06

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par MapommeCMOA »

Bonjour
Je possède quelques livres qui intéresseraient sans doute du monde. J'ai déjà fait quelques tentatives de "scannage", mais le résultat n'était vraiment pas beau à part en png, (mais très lourd).
D'après votre expérience, je me rends compte qu'il n'y a qu'en utilisant des logiciels pro, qu'on peut obtenir un travail acceptable tout en ayant des fichiers pas trop volumineux. Le prix (très cher) d'une licence pour un amateur, n'est pas supportable puisque le but n'est pas lucratif et l'utilisation occasionnelle. Je n'utilise que des logiciels "open source" sous Linux pour ne pas être hors la loi.
Existe t-il un compromis, quand même acceptable ?
Une petite remarque aussi. La page Hebdogiciel est très belle et ne pèse pas grand chose. Comment a t-on obtenu ce résultat ?
La trame des pages imprimées (quotidiens et hebdomadaires), joue sans doute un très grand rôle.
Daniel
Messages : 17316
Inscription : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par Daniel »

Pour numériser les livres et les revues du site dcmoto je n'ai utilisé que des logiciels open source ou freeware. Le résultat dépend moins des logiciels utilisés que de la qualité des scans, de leur compression sans perte (indispensable pour le texte et le dessin au trait) et de l'expérience de l'opérateur.

Les logiciels comme ScanTailor permettent de gagner beaucoup de temps sur la mise en forme mais ne jouent pas sur la qualité. La taille du fichier final dépend essentiellement de la méthode de compression. Sur ce point DjVu est de très loin le meilleur format pour les documents contenant beaucoup de texte, par contre il est mauvais pour les photographies.

La page Hebdogiciel deux messages plus haut est un très mauvais exemple : elle est compressée en jpeg, le pire format pour du texte, les niveaux n'ont pas été réglés, et pour cette mauvaise qualité la taille du fichier est énorme : 665 Ko.
En la scannant proprement avec compression sans perte, puis ajustement des niveaux, nettoyage et mise en forme, le résultat final compressé au format DjVu ne dépasserait pas 80 Ko et serait de bien meilleure qualité, au moins pour le texte. Je suis prêt à le prouver.
Daniel
L'obstacle augmente mon ardeur.
MapommeCMOA
Messages : 60
Inscription : 21 mars 2021 23:06

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par MapommeCMOA »

Je ne discute pas le fait qu'on puisse faire mieux, c'est bien pour ça que ce sujet m'intéresse beaucoup.
Je ne la trouvais pas si mal que ça cette page un peu plus haut, surtout en jpeg. Elle a l'air d'être brut de scan, sans améliorations, le texte est clairement lisible. C'est sûr qu'à l'échelle d'une revue complète, ça doit faire quelque Mo. Mais ce cas m'intéresse parce-qu’il a des défauts auxquels j'aimerais connaître les remèdes. Par exemple, les plis et zones froissées, qui sont plus sombres. Le fond grisâtre ou jauni, qu'on retrouve souvent dans les vieux livres. Les zones grises, lorsqu'on n'a pas pu placer le livre bien à plat sur la glace sans risquer de l'abîmer à cause de la reliure.
Daniel
Messages : 17316
Inscription : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par Daniel »

Pour ça il n'y a pas de miracle, il faut retoucher avec un logiciel de traitement d'image. Il y a des réglages possibles pour l'image entière, par exemple ajuster les niveaux, faire la balance des blancs, équilibrer les couleurs, etc. Pour le reste ce sont des retouches manuelles.

108-02-150.png
108-02-150.png (589.72 Kio) Consulté 2872 fois
Remarque : Le résultat n'est pas bon car l'original était en jpeg. Avec un scan de bonne qualité dans un format sans perte on obtient une image meilleure et le fichier est plus petit. Après compression au format djvu cette page a une taille de 140 Ko.
Daniel
L'obstacle augmente mon ardeur.
MapommeCMOA
Messages : 60
Inscription : 21 mars 2021 23:06

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par MapommeCMOA »

Quel est le meilleurs format en sortie de scanner ? J'utilise le png. Pour les retouches c'est GIMP, après, on peut faire ce qu'on veut.
La,le fond est bien blanc, il n'y a plus les zones grises et ça n'a pas l'air d'avoir pris beaucoup de temps pour obtenir ce résultat. Je passe parfois des journées entières à corriger ces défauts.
MapommeCMOA
Messages : 60
Inscription : 21 mars 2021 23:06

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par MapommeCMOA »

J'apprends des choses et c'est pas trop tôt, n'ayant jamais fait ce genre d'essais avant.
Après quelques essais, sans modifications, d'un scan à 300dpi sorti en png du scanner avec xsan, voilà ce que j'obtiens avec différents modes de compression.
_ png = 10,4 M
_ ps (postscript) =15,5 M, ça ajoute quelque-chose, mais c'est normal, c'est pour l'édition, la compression n'est pas son job. Complètement inutile dans ce cas, mais je l'ai fait par curiosité.
_ pdf = 11,9 M
_ jpg = 1,2 M mais l'image est pourrie.
_ tiff = 1,2 M et l'image est comme en png.
Le premier prix est décerné à tiff. Bonne compression sans dégradation de l'original. Podium remporté haut la main, avec félicitations du jury.
jpg a fait ce qu'il a pu, mais est éliminé et ne participera pas à la prochaine rencontre. Original compressé, mais pour un résultat médiocre.
pdf est aussi éliminé car ne compresse rien. Est utile seulement pour l'édition.
Eurêka, j'ai réinventé l'eau chaude!
Daniel
Messages : 17316
Inscription : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par Daniel »

Le format de sortie du scanner n'a pas d'importance, la seule chose qui compte est de ne pas utiliser une méthode de compression avec pertes.
En général on compresse pour éviter de trop gros fichiers, mais si on a de la place ce n'est pas indispensable. Les formats les plus couramment utilisés pour les images en couleurs sont le tiff compressé en LZW ou le png, et pour les images monochrome le tiff CCITT groupe 4 ou le png.

Le choix de la résolution et du nombre de couleurs ou niveaux de gris est aussi très important. Il dépend essentiellement du type de document. Pour un livre imprimé en noir et blanc on a le choix entre une bonne résolution en noir et blanc (600 dpi) ou une moins bonne résolution en 256 niveaux de gris (200 ou 300 dpi). Je préfère la première option, elle permet en général de mieux compresser le document final. Pour les couleurs il faut scanner en 24 bits, mais à la fin le nombre de couleurs peut être réduit si les images le supportent. Par exemple, pour la page d'Hebdogiciel, tout le traitement a été fait en 24 bits et à la fin le nombre de couleurs a été réduit à 256. Pour des livres contenant des photos en couleurs ce n'est évidemment pas possible.

Après, pour les retouches, tout dépend du résultat que l'on veut obtenir. Si c'est juste pour pouvoir lire le texte sans difficulté ça va très vite : un réglage des niveaux et un petit nettoyage. Par contre si on veut faire une œuvre d'art ça prend plus de temps, en particulier pour les documents en couleurs. Plus le scan est mauvais et plus c'est long. Par exemple, pour cette page d'hebdogiciel, j'ai passé beaucoup de temps pour atténuer les effets de la compression jpeg. J'ai élaboré une technique qui consiste à ajouter un peu de flou pour atténuer les contrastes entre pixels, puis réglage des niveaux pour supprimer les pixels inutiles, puis accentuation pour redonner un peu de netteté. Evidemment, si la page a été compressée sans perte, tout ce travail est inutile et le résultat est bien meilleur.

avant.png
avant.png (7.61 Kio) Consulté 2841 fois
après.png
après.png (3.9 Kio) Consulté 2841 fois
Daniel
L'obstacle augmente mon ardeur.
CMO5
Messages : 39
Inscription : 25 janv. 2021 09:20

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par CMO5 »

Hello
MapommeCMOA a écrit : 27 mars 2021 20:12 _ png = 10,4 M
_ ps (postscript) =15,5 M, ça ajoute quelque-chose, mais c'est normal, c'est pour l'édition, la compression n'est pas son job. Complètement inutile dans ce cas, mais je l'ai fait par curiosité.
_ pdf = 11,9 M
_ jpg = 1,2 M mais l'image est pourrie.
_ tiff = 1,2 M et l'image est comme en png.
Le premier prix est décerné à tiff. Bonne compression sans dégradation de l'original. Podium remporté haut la main, avec félicitations du jury.
jpg a fait ce qu'il a pu, mais est éliminé et ne participera pas à la prochaine rencontre. Original compressé, mais pour un résultat médiocre.
pdf est aussi éliminé car ne compresse rien. Est utile seulement pour l'édition.
Perso j'utilise le tiff car c'est beaucoup plus pratique à utiliser dans Scan Tailor ensuite, mais il y a amha deux petits trucs qui mériteraient d'être soulignés :
- le format jpeg a acquis une très mauvaise réputation parce que la plupart des logiciels (donc ceux des scanneurs) enregistrent avec un très mauvais facteur de compression adapté pour du partage web (la plupart du temps, <70%). Pour comparer avec du Jpeg, il faut absolument ajuster ce facteur !
Image
Sinon on compare avec des paramètres un peu injustement trop violents

-Le PDF est un format d'encapsulation. On peut injecter ce que l'on veut, aussi bien du jpg que du tiff. Mais la plupart des scanners se contentent d'encapsuler le jpg scanné dans un pdf, ce qui explique pourquoi on a la même qualité et la même taille qu'avec un format d'image.

A mon avis, il faut juste savoir ce que l'on souhaite en bout de course, et faire avec ce que l'on a :
Si je veux produire un beau bouquin et que j'ai du temps, de la place et des softs ad hoc, alors je scanne en tiff, reprend tout sous scan tailor et sors en final un jpg encapsulé dans un PDF, avec une compression en rapport avec le type d'oeuvre. Légère s'il y a beaucoup de texte à lire, afin de rendre la lecture agréable, plutôt moyenne sinon. Le Jpeg n'est -pour moi- pas vraiment un format de travail, mais uniquement de sortie, quand il faut juste partager.

J'avais par un temps travaillé avec le DjVu, notamment avant l'arrivée des moyens de stockage de masse, le stockage serveur très limité & co. Là, impossible d'avoir des milliers de publications et d'archives scientifiques scannées sur un disque.
A présent, un disque 4To ne coûte plus vraiment grand chose, donc la taille n'est plus nécessairement le facteur limitant. C'est plutôt la portabilité, donc tout est soit en Jpeg, soit en PDF, mais de haute qualité.
Par exemple, le doc sur MO5 que j'ai proposé, de 170 pages pèse 55Mo, avec une qualité un chouïa surfaite, qui aurait pu baisser à 15Mo sans perdre d'information :
Image
Mon disque dur me permet d'en enregistrer plus de 70000; le double au moins si on tolère une lecture à peine moins agréable.
Avantage supplémentaire : on peut lancer une reconnaissance de caractère (OCR) pour recopier des milliers de lignes de code, et diminuer la taille finale. Certains softs peuvent avoir un peu de mal, il faut parfois corriger, mais dans le cas de ce bouquin, quasiment tout est passé pour une recopie vers du .BAS.

A l'époque, le PDF n'était pas encore standard, mais il a fini par le devenir. N'importe quel smartphone, ordi, voire copieur de bureau est capable de le lire. Pour le DjVu, il faut toujours expliquer à son interlocuteur comment l'ouvrir ;)
Avatar de l’utilisateur
fneck
Site Admin
Messages : 17423
Inscription : 01 avr. 2007 12:03
Localisation : Drôme Provençale (26)
Contact :

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par fneck »

Je rejoins un peu ce que dit CMO5 ci-dessus, la taille n'est plus vraiment un problème aujourd'hui comparé à la portabilité et la simplicité. Ça fait des années qu'il n'est pas aisé de lire un document Djvu, on n'a jamais le bon lecteur ou il n'est pas reconnu par une nouvelle version de l'OS, ou du navigateur, que ce soit en ligne ou en local. Perso j'ai arrêté les frais et la perte de temps sur le sujet.

Je dirais que le seul avantage du Djvu en ligne est de pouvoir ouvrir une page précise sans charger tous le document, ça c'est un plus.

Pour en revenir à la taille des PDF, il me semble qu'elle dépend beaucoup des paramètres utilisés lors de la conception. J'ai un peu l'impression que la plupart des applications tierces ne permettent pas de choisir et que peut-être le problème vient de là. Je l'ai déjà cité sur le forum, à savoir que chez Adobe on peut optimiser la taille d'un PDF, gratuitement... mais je crois quand même qu'il y a une limite d'utilisation, voir ici:
https://www.adobe.com/fr/acrobat/online ... s-pdf.html

C'est assez impressionnant, sur les essais que j'avais fait la réduction va de 50 à 80 % 8)
Fabien https://www.system-cfg.com
Les bonnes pratiques de l'utilisateur du forum viewtopic.php?f=14&t=3
Daniel
Messages : 17316
Inscription : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par Daniel »

L'essai de compression en pdf avec les outils d'Adobe a été fait plus haut dans ce fil de discussion par Pocket.

Il montre que c'est une compression intelligente. La page est découpée en plusieurs zones et chaque zone est compressée avec la meilleure méthode, selon qu'elle est en noir et blanc ou en couleurs, qu'elle contient du texte ou une image. Ça ressemble à du jbig2 pour le texte et du jpeg ou jp2 pour les images. C'est très voisin de la compression DjVu et la réduction de taille obtenue est du même ordre de grandeur.

A priori c'est un bon format pour stocker les documents, il a le gros avantage d'être beaucoup plus répandu que le DjVu. Malheureusement les outils de compression sont payants. Pour la consultation en ligne on ne peut pas accéder directement à une page, mais je crois qu'Adobe propose des formats pdf particuliers qui minimisent les temps d'accès avec un navigateur.

Une autre nouveauté intéressante est la compression au format webp (de Google). C'est devenu un standard, et les taux de compression peuvent être très élevés, évidemment au prix d'une dégradation de la qualité. Exemple : Initiation à l'Electronique Numérique
Dernière modification par Daniel le 28 mars 2021 12:40, modifié 1 fois.
Daniel
L'obstacle augmente mon ardeur.
jasz
Messages : 1313
Inscription : 05 oct. 2016 20:05
Localisation : Quelque part dans le 31

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par jasz »

Il y a un faille qui permet d'utiliser pleinement le logiciel sans aucune manipulation et cela fonction avec la version Pro 2019. Pour les suivantes, je ne sais pas, mais ce serait vraiment trop bête pour A. Je me demande si on peut associer ça à du piratage :roll:
MapommeCMOA
Messages : 60
Inscription : 21 mars 2021 23:06

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par MapommeCMOA »

J'avais fait des essais avec le tiff il y a quelques années (avec W98, donc dans les années 90), mais les fichiers étaient tellement énormes, que je n'ai jamais réutilisé ce format. J'avais dû faire une erreur quelque-part. En passant directement de PNG à TIFF, c'est très bien. J'avoue ne pas comprendre.
Le webpp, c'est vraiment moche. Les fichiers, comme en jpeg, ne sont pas gros, mais les photos horribles, si on zoom un peu.
Avec GIMP, on peut facilement ajuster le taux de compression du jpeg. Il y a une limite ou la dégradation est vraiment flagrante.
Pour mes essais, avec tiff et jpeg, j'ai fait en sorte que les fichiers compressés aient le même volume final à partir du même scan.

Éditer les photos de tests de compression sur un forum, n'est peut être pas une bonne idée. Les hébergeurs compressent aussi ce qu'on leur confie. Du coup, ce qui est affiché et vu, n'a rien à voir avec ce qu'on a obtenu. C'est en tout cas ce qui se passe avec mon hébergeur.
Daniel
Messages : 17316
Inscription : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par Daniel »

Le format tiff est un conteneur. A l'intérieur on peut mettre des fichiers bitmap non compressés, ou compressés avec différentes méthodes, avec ou sans pertes. La taille du fichier est donc variable selon la méthode de compression utilisée ou l'absence de compression.

Le format webp, comme le jpeg, permet de sélectionner le niveau de compression. Les fichiers obtenus sont de qualité médiocre avec le plus fort taux de compression et de qualité excellente avec le plus petit taux de compression.

Les fichiers d'images hébergés par le forum system-cfg ne sont pas compressés par l'hébergeur.
Daniel
L'obstacle augmente mon ardeur.
MapommeCMOA
Messages : 60
Inscription : 21 mars 2021 23:06

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par MapommeCMOA »

Bah, on est quand même bien obligé de passer par un hébergeur externe pour poster ici, non ?
Si on peut faire autrement, j'aimerais bien savoir comment.
Daniel
Messages : 17316
Inscription : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: Initiation à l'Electronique Numérique (collection pascalien)

Message par Daniel »

Cliquer sur l'onglet "Pièces jointes" sous la fenêtre de saisie, puis sur le bouton "Ajouter des fichiers".
Il est déconseillé de passer par un hébergeur de fichiers car au bout d'un moment le lien n'est plus valide et la discussion devient incompréhensible.

Pour revenir à la compression par les outils Adobe, je crois qu'ils utilisent le format Jbig2, qui compresse intelligemment en fonction de la nature de chaque zone du document. Il utilise la compression par ondelettes pour le texte, exactement comme DjVu. J'ai trouvé quelques convertisseurs open source, mais apparemment ils sont à l'abandon et je n'ai rien pu en tirer. J'ai comme l'impression qu'Adobe cherche à garder le monopole. C'est dommage.
Daniel
L'obstacle augmente mon ardeur.
Répondre