User talk:Reptilien.19831209BE1

From Wikisource
Jump to navigation Jump to search
Grollier's Reading Wheel.jpg

Hello Reptilien.19831209BE1, welcome to the multilingual Wikisource! Thanks for your interest in the project; we hope you'll enjoy the community and your work here.

This wiki is the original Wikisource wiki, originally hosting works in many languages. The larger collections have been spawned into separate projects, leaving this wiki to serve as a central collaboration point, and as an environment where works without a language subdomain can be started. Refer to our languages list to see which languages still reside on this wiki. You can find a list of the separate language projects on the main page or here and you may want to look at the our coordination page for limitations on placing certain works on the separate language projects.

Most questions and discussions about the community are in the Scriptorium.

The Community Portal lists tasks you can help with if you wish. If you have any questions, feel free to contact me on my talk page!

Bienvenue from Limbourg on the other side of the Dutch border! :) If you need any help, please let me know. --Ooswesthoesbes (talk) 12:21, 3 May 2018 (UTC)

Walloon Wikisource[edit]

Hi! :) As the Walloon Wikisource has been pretty active recently, I was wondering whether you are interested in eventually having your own subdomain (so wa.wikisource.org). If that's the case, you will need to have a Request for new languages at meta wiki. I can always help you with that. Greetings, --Ooswesthoesbes (talk) 15:30, 27 July 2018 (UTC)

Hello Ooswesthoesbes! I'm very interested by this proposition, and your help is welcome for the Request. Is that possible with only 9 pages in the main space? As I'm pretty busy at the moment, I suggest a slowly migration for the beginning of September when I can entirely devote myself in this task: I suppose that ProofreadPage needs to be translated on translatewiki before the process? Let me know what would you need for the Request. Greetings. Reptilien.19831209BE1 (talk) 18:20, 28 July 2018 (UTC)
A request usually takes some time before it is accepted. So the subdomain will take some time before it is created. Therefore, it is always good to be early in creating a request. ProofreadPage should be translated indeed.
In general, you need to show several months of continuous activity by several users (preferably each month at least 3 users with more than 10 contributions). You will also need to have something to show: contents. As you already pointed out yourself, currently there is probably still not enough contents. But that can be accumulated in the time it takes for the request to be approved :) --Ooswesthoesbes (talk) 19:06, 29 July 2018 (UTC)
Ok, considering all you explained to me, we'll talk about this in 2019 to see if the goals are achieved. Let's keep in touch. Reptilien.19831209BE1 (talk) 05:05, 30 July 2018 (UTC)
Very good. I can however already make a request so that those involved in this are aware that the project exists. If you need any help, please contact me :) --Ooswesthoesbes (talk) 10:02, 1 August 2018 (UTC)

Modèle Auteur pour br.wikisource[edit]

Bonjour,

Je vois que tu as créé Module:Auteu, pourrais-tu "wikidatifier" le même modèle sur la Wikisource en breton ? Il se trouve ici : br:Patrom:Oberour. Si tu as besoin d'aide ou de précisions (notamment pour les traductions), je suis disponible.

A galon, VIGNERON (talk) 11:37, 3 May 2019 (UTC)

problème OCR[edit]

Bonjour Reptilien, j'ai un problème pour utiliser Wikisource. J'ai fait un djvu de 3 pages pour tester comment faire un texte mais l' OCR ne marche pas. Dans l'aide, on indique de purger le fichier mais ceci ne semble pas marcher ... Comment faire pour activer l' OCR ? merci - voir = Index:Gosseu-Lettre-Picarde-v.djvu et/ou Création de Page:Gosseu-Lettre-Picarde-v.djvu/1 Geoleplubo (talk) 11:42, 15 February 2020 (UTC)

Bojour Geoleplubo :-) Généralement, on ajoute la couche OCR en même temps qu'on crée le fichier DJVU. Il n'existe pas, à ma connaissance, de gadget sur Wikisource pour générer automatiquement (avec Tesseract par exemple) cette couche OCR, juste un outil qui permet d'extraite la couche OCR si elle existe, ce qui n'est pas le cas ici, votre fichier DJVU ne contient pas cette couche OCR. Si vous le souhaitez, indiquez-moi d'où proviennent les images qui vous ont permis de créer le DJVU et je rajoute la couche OCR. Quel logiciel utilisez-vous ? Reptilien.19831209BE1 (talk) 20:23, 15 February 2020 (UTC)
Ah, je crois avoir mis la main sur une version bien plus propre que celle de Google. On pourrait s'en servir, non ? Reptilien.19831209BE1 (talk) 20:52, 15 February 2020 (UTC)
Merci Reptilien pour la réponse. Je n'avais pas compris que l' OCR devait être inclus dans le DjVu.
Ce sont 3 scans faits dans un livre qui est un fac-similé papier du livre de Gosseu. Pour faire le DjVu j'utilise le logiciel « DjVu Solo 3.1 » sous Win10 (j'ai installé Win10 et Linux Ubuntu sur mon PC).
j'ai limité à 3 pages pour tester comment faire un livre sur Wikisource mais en fait je voudrais importer tout le livre. Quant aux deux versions sur internet: reader.digitale et Google pour moi il me semble que Google est plus propre mais je dois dire que je ne sais pas vraiment comment juger de la qualité de l'image (netteté des lettres ? netteté du fond ? … ?). merci d'avance pour toute aide pour résoudre mon problème. cordialement , Geoleplubo (talk) 11:40, 16 February 2020 (UTC)
Je suis incapable de dire si DjVu Solo prend en charge où non la ROC (reconnaissance optique de caractères), rien n'est dit non plus ici : fr:Aide:Créer un fichier DjVu/Windows. Et comme je ne suis pas sous Windows, je ne suis pas en mesure de vous proposer un gratuiciel (freeware) avec interface graphique qui pourrait convenir. Par contre sous Linux, j'utilise depuis quelques temps déjà gscan2pdf (avec Tesseract pour la ROC) qui suffit pour des cas simples de conversion.
Pour ce qui est de la qualité du DJVU, par expérience, je peux affirmer que ce qui prime est la lisibilité du texte. Lorsqu'on fait du nettoyage sur les images (blanchir le fond, désaturation en niveau de gris, etc) suivi d'une conversion en DJVU (qui est une conversion avec perte) j'ai observé que certaines lettres sont parfois transformées : un « u » devient un « n » (ou inversement), un « t » devient un « l » (selon la fonte) un « e » devient un « c », des diacritiques disparaissent ou sont difficilement différentiables (« i » ou « î »), bref ! vous avez compris… c'est à vous de voir ce qui convient le mieux pour la transcription, sachant que d'autres contributeurs repasseront peut-être derrière vous pour corriger une faute qui n'en est pas une, mais qui apparaît sur le FS. Aucune règle n'est imposée dans ce domaine.
N'hésitez pas à revenir vers moi si vous avez des difficultés pour la conversion DJVU. Amicalement, Reptilien.19831209BE1 (talk) 20:53, 16 February 2020 (UTC)
je vais installer gscan2pdf et Tesseract sous Linux Ubuntu et voir comment cela marche ... questions = 1) comment faire « du nettoyage sur les images (blanchir le fond, désaturation en niveau de gris, etc) » ? 2) reader.digitale-sammlungen propose de fournir sous 4 semaines un Download as JPEG Files (300 dpi) with ocr-text ( voir: [1] ) je pense que cela devrait me convenir ? Amicalement, Geoleplubo (talk) 22:32, 16 February 2020 (UTC)
Pour faire du nettoyage sur les images il y a plusieurs manières : à l'aide de Gimp ou Photoshop, ou encore Imagemagick pour les plus courageux. Certains logiciels de numérisation proposent certaines options (comme gscan2pdf). De nombreux tutos sur le Web permettent facilement de se débrouiller. Concernant la qualité, il est clair que 300 dpi est bien mieux que les 72 dpi proposés sur leur plateforme. Mais quand je vois la qualité de cette page, par exemple, je me dis que c'est amplement suffisant pour ce que nous faisons sur Wikisource. Après, si vous souhaitez obtenir et publier (sur Commons ou Archive.org) un PDF ou DJVU (oui, oui, on peut aussi téléverser du PDF sur Commons et l'utiliser sur Wikisource), personne ne vous en privera. Je l'ai d'ailleurs fait pour ce manuscrit en 300 dpi que j'ai obtenu à l'université de Liège. Reptilien.19831209BE1 (talk) 07:44, 17 February 2020 (UTC)
Merci pour toutes ces précieuses explications. J'ai installé Gimp , gscan2pdf et tesseract-ocr-fra sous Ubuntu et cela marche avec mes premiers essais... à présent, Yapluka ! Amicalement, Geoleplubo (talk) 14:09, 18 February 2020 (UTC)