XSane en V4.1
Volver al foro (Usando Guadalinex V4)-
Hola, quería saber si me podéis resolver una duda que me ha surgido. No sé cómo guardar textos escaneados con XSane para después poderlos retocar con Writer. Según he leído tengo que clicar en Preferencias-->Configuración y después en OCR. También he leído algo de un sistema binario, pero por más que pruebo, no lo consigo.
¿Podríais ayudarme?
-
Puedes probar la receta de este enlace.Hola, quería saber si me podéis resolver una duda que me ha surgido. No sé cómo guardar textos escaneados con XSane para después poderlos retocar con Writer. Según he leído tengo que clicar en Preferencias-->Configuración y después en OCR. También he leído algo de un sistema binario, pero por más que pruebo, no lo consigo.
¿Podríais ayudarme?
Un saludo.
usuario linux 377353. Blog: http://jjg1965.blogspot.com/-
Gracias, me pongo manos a la obra
Puedes probar la receta de este enlace.Hola, quería saber si me podéis resolver una duda que me ha surgido. No sé cómo guardar textos escaneados con XSane para después poderlos retocar con Writer. Según he leído tengo que clicar en Preferencias-->Configuración y después en OCR. También he leído algo de un sistema binario, pero por más que pruebo, no lo consigo.
¿Podríais ayudarme?
Un saludo.
-
Pues ya lo he probado, pero el formato me sale con muchos caracteres extraños. Seguiré buscando otras opciones. Gracias de nuevo.
Gracias, me pongo manos a la obra
Puedes probar la receta de este enlace.Hola, quería saber si me podéis resolver una duda que me ha surgido. No sé cómo guardar textos escaneados con XSane para después poderlos retocar con Writer. Según he leído tengo que clicar en Preferencias-->Configuración y después en OCR. También he leído algo de un sistema binario, pero por más que pruebo, no lo consigo.
¿Podríais ayudarme?
Un saludo.
-
Buenas:
El problema con el tema del OCR es que depende de factores clave como la calidad del texto de la hoja que estés escaneando, la calidad de tu escaner, los parámetros que eliges a la hora de escanear, etc. Yo probaria primero con una hoja con texto lo mas claro posible e ir probando con los parámetros de XSane, hasta que des con la calidad mas aceptable que puedas obtener. Es un trabajo un poco pesado al principio, pero esa trabajo dará frutos cuando necesites escanear algo urgente y ya tengas control sobre que ajustes utilizar.
Saludos, PinguinoAcalorado.
Pues ya lo he probado, pero el formato me sale con muchos caracteres extraños. Seguiré buscando otras opciones. Gracias de nuevo.
Gracias, me pongo manos a la obra
Puedes probar la receta de este enlace.Hola, quería saber si me podéis resolver una duda que me ha surgido. No sé cómo guardar textos escaneados con XSane para después poderlos retocar con Writer. Según he leído tengo que clicar en Preferencias-->Configuración y después en OCR. También he leído algo de un sistema binario, pero por más que pruebo, no lo consigo.
¿Podríais ayudarme?
Un saludo.
-
Muchísimas gracias.
Buenas:
El problema con el tema del OCR es que depende de factores clave como la calidad del texto de la hoja que estés escaneando, la calidad de tu escaner, los parámetros que eliges a la hora de escanear, etc. Yo probaria primero con una hoja con texto lo mas claro posible e ir probando con los parámetros de XSane, hasta que des con la calidad mas aceptable que puedas obtener. Es un trabajo un poco pesado al principio, pero esa trabajo dará frutos cuando necesites escanear algo urgente y ya tengas control sobre que ajustes utilizar.
Saludos, PinguinoAcalorado.
Pues ya lo he probado, pero el formato me sale con muchos caracteres extraños. Seguiré buscando otras opciones. Gracias de nuevo.
Gracias, me pongo manos a la obra
Puedes probar la receta de este enlace.Hola, quería saber si me podéis resolver una duda que me ha surgido. No sé cómo guardar textos escaneados con XSane para después poderlos retocar con Writer. Según he leído tengo que clicar en Preferencias-->Configuración y después en OCR. También he leído algo de un sistema binario, pero por más que pruebo, no lo consigo.
¿Podríais ayudarme?
Un saludo.
-
Creo que lo que pretendes es pasar el ocr a un texto. Desde hace un tiempo hay un ocr en linux que funciona aceptablemente, según "estudios" en torno al 99% de aciertos. El programa se llama tesseract-ocr y al menos existe en Debian testing. Sudo apt-get install tesseract-ocr tesseract-ocr-spa (para español). El program funciona en consola y también con gscan2pdf. Con xsane hay un script en bash (busca en la red) llamado xsanetess que permite usar el ocr con xsane. Otro ocr que también se usa es gocr, pero es mucho peor. Si el uso desde xsane te da problemas, puedes escanear todas las páginas que necesites (eso sí, escaneando sólo el texto) y después la importas en gscan2pdf. Este programa incorpora unpaper que orienta la página y el reconocimiento es perfecto. Te recomiendo que hagas pruebas con tu escanner. En mi caso, con un epson 2480, escaneando a 400 pixel me va bien.
...-
Creo que lo que pretendes es pasar el ocr a un texto. Desde hace un tiempo hay un ocr en linux que funciona aceptablemente, según "estudios" en torno al 99% de aciertos. El programa se llama tesseract-ocr y al menos existe en Debian testing. Sudo apt-get install tesseract-ocr tesseract-ocr-spa (para español). El program funciona en consola y también con gscan2pdf. Con xsane hay un script en bash (busca en la red) llamado xsanetess que permite usar el ocr con xsane. Otro ocr que también se usa es gocr, pero es mucho peor. Si el uso desde xsane te da problemas, puedes escanear todas las páginas que necesites (eso sí, escaneando sólo el texto) y después la importas en gscan2pdf. Este programa incorpora unpaper que orienta la página y el reconocimiento es perfecto. Te recomiendo que hagas pruebas con tu escanner. En mi caso, con un epson 2480, escaneando a 400 pixel me va bien.
Investigando un poco en la red he encontrado una receta para este programa ( que no conocía ) que explica como usarlo en Ubuntu 7.04. En ingles.
http://www.howtoforge.com/ocr_with_tesseract_on_ubuntu704
Un saludo.
usuario linux 377353. Blog: http://jjg1965.blogspot.com/-
Creo que no es necesario el tutorial. Basta con añadir a /etc/apt/sources.list un repositorio de debian. Creo que para guadalinex podría servir el de Debian ETCH. Después instalar con apt-get
...-
Mas facil aun. Acabo de empaquetar y subir al repositorio GuadaUsers, la ultima version de tesseract
Saludos
-
Mas facil aun. Acabo de empaquetar y subir al repositorio GuadaUsers, la ultima version de tesseract
Lo he instalado, pero no se como hacer que funcione con kooka
Saludos
mi blog: http://hatteras.wordpress.com/-
Mas facil aun. Acabo de empaquetar y subir al repositorio GuadaUsers, la ultima version de tesseract
Lo he instalado, pero no se como hacer que funcione con kooka
Saludos
Casi seguro estoy equivocado, pero creo que por ahora la unica manera de usarlo graficamente es con gscan2pdf
Saludos
-
Pues entonces: please añade gscan2pdf a guadausers
Mas facil aun. Acabo de empaquetar y subir al repositorio GuadaUsers, la ultima version de tesseract
Lo he instalado, pero no se como hacer que funcione con kooka
Saludos
Casi seguro estoy equivocado, pero creo que por ahora la unica manera de usarlo graficamente es con gscan2pdf
Saludos
( Ya se que te sospechabas que te lo pediria )
Gracias
mi blog: http://hatteras.wordpress.com/-
Pues entonces: please añade gscan2pdf a guadausers
( Ya se que te sospechabas que te lo pediria )
Gracias
El de la pagina del autor funciona, asi que subo ese mismo paquete ;-)
Editado: Ya esta en el repositorio
Ahora se supone que se podria hacer...quien se anima con unas pruebas y los resultados :-D
Saludos
-
Al ejecutar gscan2pdf aparece un mensaje: aviso paquetes perdidos: se requiere djvulibre-bin para guardar como djvu email com o pdf necesita xdg-email unpaper missingPues entonces: please añade gscan2pdf a guadausers
( Ya se que te sospechabas que te lo pediria )
Gracias
El de la pagina del autor funciona, asi que subo ese mismo paquete ;-)
Editado: Ya esta en el repositorio
Ahora se supone que se podria hacer...quien se anima con unas pruebas y los resultados :-D
Saludos
Mañana haré mas pruebas
mi blog: http://hatteras.wordpress.com/-
Al ejecutar gscan2pdf aparece un mensaje: aviso paquetes perdidos: se requiere djvulibre-bin para guardar como djvu email com o pdf necesita xdg-email unpaper missing
- Una pregunta tonta...necesitas guardar como djvu ?
Si es asi solo tienes que instalar djvulibre-bin
- Otra pregunta tonta...necesitas mandar un email como pdf directamente desde gscan2pdf?
Si es asi solo tienes que instalar xdg-email (que esta en el paquete xdg-utils ).
Perfecto que aparezca un mensaje avisando de que para ampliar las funciones del programa, debes instalar otros programas...como lo dijiste parece que fuera un error en la aplicacion ;-)
Saludos
-
Las preguntas nunca son tontas... pueden serlo las respuestas...espero que no lo sea esta....Al ejecutar gscan2pdf aparece un mensaje: aviso paquetes perdidos: se requiere djvulibre-bin para guardar como djvu email com o pdf necesita xdg-email unpaper missing
- Una pregunta tonta...necesitas guardar como djvu ?
Si es asi solo tienes que instalar djvulibre-bin
- Otra pregunta tonta...necesitas mandar un email como pdf directamente desde gscan2pdf?
Si es asi solo tienes que instalar xdg-email (que esta en el paquete xdg-utils ).
Perfecto que aparezca un mensaje avisando de que para ampliar las funciones del programa, debes instalar otros programas...como lo dijiste parece que fuera un error en la aplicacion ;-)
Saludos
Aun no he probado ese programa como dije, hoy no he tenido tiempo (demasiado trabajo)
mi blog: http://hatteras.wordpress.com/-
Ya he probado el programa gscan2pdf, y aunque tiene el sistema OCR tesseract, me parece que lo unico que hace es escanear un documento, da igual que tenga solo texto o imagen+texto, o solo imagen, y guarda el resultado en formato bien de imagen (gif, jpeg, tiff, png,pnm) o en formato .pdf, pero no me parece que realmente haga un verdadero reconocimiento digital de caracteres (OCR en ingles)
mi blog: http://hatteras.wordpress.com/-
Creo recordar que gscan2pdf tiene tres pestañas. Una vez escaneado el documento, se pincha en la pestaña 'ocr' (no tengo el programa a mano y no lo sé). Para que el programa use tesseract y no gocr debes configurarlo. También incorpora unpaper que orienta correctamente el documento. Una vez escaneadas las páginas, le das al ocr y debajo de dónde ves la página escaneada te aparecerá el texto. Según el escaner, deberás hacer distintas pruebas. El ocr lo pasa a toda la página, por lo que si tienes un texto con fotos o gráficos, te mostrará el texto y unos carácteres extraños que corresponden al gráfico.
Si quieres escanerar una o dos páginas es preferible usar xsane. Busca el script xsanetess, cópialo en el path (/usr/bin/) y dale permisos de ejecución. Abre xsane y ve a Preferencias -- pestaña OCR . Donde pone 'gocr' cambíalo por xsanetess -l spa.La l indica lengua. Puedes usar tres español, inglés y francés. El resto de la pestaña déjala igual que estaba. Escaneas con xsane, selecciona la sección (eliminando el gráfico) y pásale el ocr. Te pedirá un nombre y te guardará con formato de texto plano. Tesseract es un ocr de calidad que no tiene nada que envidiar a los de windows. Además, fue desarrollado por una empresa importante como HP, vendido a Google y después, liberado.
...-
Creo recordar que gscan2pdf tiene tres pestañas. Una vez escaneado el documento, se pincha en la pestaña 'ocr' (no tengo el programa a mano y no lo sé). Para que el programa use tesseract y no gocr debes configurarlo. También incorpora unpaper que orienta correctamente el documento. Una vez escaneadas las páginas, le das al ocr y debajo de dónde ves la página escaneada te aparecerá el texto. Según el escaner, deberás hacer distintas pruebas. El ocr lo pasa a toda la página, por lo que si tienes un texto con fotos o gráficos, te mostrará el texto y unos carácteres extraños que corresponden al gráfico.
No he encontrado el script xsanetess; ¿sabes donde puede estar o donde conseguirlo ?
Si quieres escanerar una o dos páginas es preferible usar xsane. Busca el script xsanetess, cópialo en el path (/usr/bin/) y dale permisos de ejecución. Abre xsane y ve a Preferencias -- pestaña OCR . Donde pone 'gocr' cambíalo por xsanetess -l spa.La l indica lengua. Puedes usar tres español, inglés y francés. El resto de la pestaña déjala igual que estaba. Escaneas con xsane, selecciona la sección (eliminando el gráfico) y pásale el ocr. Te pedirá un nombre y te guardará con formato de texto plano. Tesseract es un ocr de calidad que no tiene nada que envidiar a los de windows. Además, fue desarrollado por una empresa importante como HP, vendido a Google y después, liberado.
Tesseract, segun pone, solo reconoce el ingles, ¿ hay alguna version que reconozca el español?
mi blog: http://hatteras.wordpress.com/-
No he encontrado el script xsanetess; ¿sabes donde puede estar o donde conseguirlo ?
Tesseract, segun pone, solo reconoce el ingles, ¿ hay alguna version que reconozca el español?
El script xsane2tess. En este enlace en francés : http://doc.ubuntu-fr.org/xsane2tess
Otros enlaces útiles en francés :
http://doc.ubuntu-fr.org/tesseract-ocr
y
http://doc.ubuntu-fr.org/gscan2pdf
y
http://doc.ubuntu-fr.org/ocr
(forum ubuntu-fr)
en ingles:
http://ubuntuforums.org/showpost.php?s=8c9b1e1704ff290023ce277ba3026574&p=4304463&postcount=5
¿ hay alguna version que reconozca el español?
Ver también:
http://code.google.com/p/tesseract-ocr/downloads/list
install :
tesseract-2.00.spa.tar.gz Spanish language data for Tesseract (2.00 and up)
y
tesseract-2.01.tar.gz Tesseract 2.01 Source
Entonces ver en el repositorio de Guadalinex.
( Soy francés y utilizo a Ubuntu).
-
Merci et bienvenue
Me he bajado tesseract-2.00.spa.tar.gz pero no se donde tengo que poner la carpeta tessdata que contiene, para poder usar tesseract en español, en gscan2pdf y/o xsane.
Tambien me he copiado el script xsanetess, pero como se tiene que usar una vez instalado tesseract en español, estoy parado en este punto.
mi blog: http://hatteras.wordpress.com/-
Si no te importa esperar...voy a empaquetar todos los idiomas de tesseract y el script xsane2tess.
De todos modos si no quieres esperar, en los enlaces que puso Sorbus, resuelven todas las dudas que tienes...mira mejor ;-)
Saludos
Merci et bienvenue
Me he bajado tesseract-2.00.spa.tar.gz pero no se donde tengo que poner la carpeta tessdata que contiene, para poder usar tesseract en español, en gscan2pdf y/o xsane.
Tambien me he copiado el script xsanetess, pero como se tiene que usar una vez instalado tesseract en español, estoy parado en este punto.
-
Si no te importa esperar...voy a empaquetar todos los idiomas de tesseract y el script xsane2tess.
De todos modos si no quieres esperar, en los enlaces que puso Sorbus, resuelven todas las dudas que tienes...mira mejor ;-)
Saludos
Merci et bienvenue
Me he bajado tesseract-2.00.spa.tar.gz pero no se donde tengo que poner la carpeta tessdata que contiene, para poder usar tesseract en español, en gscan2pdf y/o xsane.
Tambien me he copiado el script xsanetess, pero como se tiene que usar una vez instalado tesseract en español, estoy parado en este punto.
Si no quieres esperar :
El .deb empaquetado por "b52" : http://download.tuxfamily.org/xcfaudio/tesseract/tesseract_2.02-3_i386.deb
(es tesseract 2.01)
Este .deb incluye los idiomas inglés y francés. Por desgracia, no español.
Es necesario añadir el idioma español (y otros idiomas si quieres). Es fácil.
Entiendo el idioma español, pero no hablo muy bien, no puedo traducir correctamente. Mira aqui :
Téléchargez sur votre bureau (Desktop) les fichiers de langues comme par exemple :
pour l'espagnol : tesseract-2.00.spa.tar.gz
pour l'italien : tesseract-2.00.ita.tar.gz
etc.
décompressez-les et copiez les fichiers qu'ils contiennent dans le répertoire tessdata (qui est placé dans /usr/share lorsque l'installation de tesseract est faite avec le paquet deb).
tar -zxvf tesseract-2.00.spa.tar.gz
tar -zxvf tesseract-2.00.ita.tar.gz
et de même pour les autres fichiers de langues que vous avez téléchargés, puis :
cd /home/votre_identité/Desktop/tessdata
sudo cp * /usr/share/tessdata
("votre_identité" = "your user")
el script xsan2tess ;-)
@IndioCabreao
voy a empaquetar todos los idiomas de tesseract y el script xsane2tess.
¿ .deb ?
¡ Muy bien !
¿ Cuándo habrás empaquetado, podrías indicar el enlace aquí ?
OK : http://download.tuxfamily.org/guadausers/guadaV4/
gscan2pdf_0.9.23_all.deb 2008-Apr-04 00:16:10 189.9K application/x-debian-package
etc.tesseract_2.01-1guadausers1_i386.deb 2008-Apr-03 20:11:54 2.4M application/x-debian-package
;-)
-
¿ Cuándo habrás empaquetado, podrías indicar el enlace aquí ?
OK : http://download.tuxfamily.org/guadausers/guadaV4/
gscan2pdf_0.9.23_all.deb 2008-Apr-04 00:16:10 189.9K application/x-debian-package
etc.tesseract_2.01-1guadausers1_i386.deb 2008-Apr-03 20:11:54 2.4M application/x-debian-package
;-)
:-) Mas rapido que el viento :-D
Me he dado cuenta que el tesseract que empaquete el otro dia....YA INCLUYE TODOS LOS IDIOMAS :-)
Asi que unicamente queda el script xsane2tess, recien salido del horno....xsane2tess_1.0-1guadausers1_i386.deb
Ya no falta nada...mas que configurar xsane como explican en el enlace anterior:
Ouvrir XSane : Applications → Graphisme → Scanneur d'images XSane
Dans Préférences → Configuration → Onglet "OCR" :
-
Commande OCR : xsane2tess -l fra
-
Option de fichier d'entrée : -i
-
Option de fichier de sortie : -o
Esto seria para el idioma frances, para el español:-
Commande OCR : xsane2tess -l spa
Saludos
-
Acabo de instalar tu paquete xsane2test... y probarlo con xsane y los resultados han sido bastantes satisfactorios. Asi que gracias de nuevo.
:-) Mas rapido que el viento :-D
Me he dado cuenta que el tesseract que empaquete el otro dia....YA INCLUYE TODOS LOS IDIOMAS :-)
Asi que unicamente queda el script xsane2tess, recien salido del horno....xsane2tess_1.0-1guadausers1_i386.deb
Ya no falta nada...mas que configurar xsane como explican en el enlace anterior:
Ouvrir XSane : Applications → Graphisme → Scanneur d'images XSane
Dans Préférences → Configuration → Onglet "OCR" :
-
Commande OCR : xsane2tess -l fra
-
Option de fichier d'entrée : -i
-
Option de fichier de sortie : -o
Esto seria para el idioma frances, para el español:-
Commande OCR : xsane2tess -l spa
Saludos
Por otra parte querría pedirte que en la medida de los posible y si lo ves factible, que el empaquetado de script, iconos etc, es decir de paquetes de no se compilen, ni incluyan binarios, la etiqueta de la arquitectura no fuera i386 sino all. Así los que tenemos maquinas de 64 bits al instalar los paquetes de este tipo no tendríamos que forzar la arquitectura en la instalación. No es que sea muy engorroso, pero considero que es más cómodo.
Un saludo y gracias.
usuario linux 377353. Blog: http://jjg1965.blogspot.com/-
Por otra parte querría pedirte que en la medida de los posible y si lo ves factible, que el empaquetado de script, iconos etc, es decir de paquetes de no se compilen, ni incluyan binarios, la etiqueta de la arquitectura no fuera i386 sino all. Así los que tenemos maquinas de 64 bits al instalar los paquetes de este tipo no tendríamos que forzar la arquitectura en la instalación. No es que sea muy engorroso, pero considero que es más cómodo.
Cierto...no me di cuenta al empaquetarlo :-(
Muchas gracias por el aviso.
Saludos
-
-
Me he dado cuenta que el tesseract que empaquete el otro dia....YA INCLUYE TODOS LOS IDIOMAS :-)
Tengo instalado tu paquete tesseract y he instalado tu paquete xsane2tess; he seguido las indicaciones que pones en Preferencias de Xsane, y ahora cuando abro el programa, me sale un mensaje de error que antes no me salia:
Asi que unicamente queda el script xsane2tess, recien salido del horno....xsane2tess_1.0-1guadausers1_i386.deb
Ya no falta nada...mas que configurar xsane como explican en el enlace anterior:
Ouvrir XSane : Applications → Graphisme → Scanneur d'images XSane
Dans Préférences → Configuration → Onglet "OCR" :
-
Commande OCR : xsane2tess -l fra
-
Option de fichier d'entrée : -i
-
Option de fichier de sortie : -o
Esto seria para el idioma frances, para el español:-
Commande OCR : xsane2tess -l spa
Error mientras se cargaban las opciones del dispositivo:
/home/usuario/.xsane/Brother:DCP-130C.drc ¡¡ no es un archivo rc de dispositivo¡¡¡
luego se abre xsane, y compruebo que las opciones que he cambiado ( Comando OCR : xsane2tess -l spa ) no las ha guardado, y ahora pone: gorc
Una vez escaneo, la imagen no puede guardarse ni como imagen ni como texto
mi blog: http://hatteras.wordpress.com/-
Tengo instalado tu paquete tesseract y he instalado tu paquete xsane2tess; he seguido las indicaciones que pones en Preferencias de Xsane, y ahora cuando abro el programa, me sale un mensaje de error que antes no me salia:
Error mientras se cargaban las opciones del dispositivo:
/home/usuario/.xsane/Brother:DCP-130C.drc ¡¡ no es un archivo rc de dispositivo¡¡¡
luego se abre xsane, y compruebo que las opciones que he cambiado ( Comando OCR : xsane2tess -l spa ) no las ha guardado, y ahora pone: gorc
Una vez escaneo, la imagen no puede guardarse ni como imagen ni como texto
Te sale algun error mas, si lanzas xsane desde una terminal?
Saludos
-
No me sale ningun error mas en la terminal al ejecutar en ella xsane, pero sigue saliendo el error anterior cuando se abre xsaneTengo instalado tu paquete tesseract y he instalado tu paquete xsane2tess; he seguido las indicaciones que pones en Preferencias de Xsane, y ahora cuando abro el programa, me sale un mensaje de error que antes no me salia:
Error mientras se cargaban las opciones del dispositivo:
/home/usuario/.xsane/Brother:DCP-130C.drc ¡¡ no es un archivo rc de dispositivo¡¡¡
luego se abre xsane, y compruebo que las opciones que he cambiado ( Comando OCR : xsane2tess -l spa ) no las ha guardado, y ahora pone: gorc
Una vez escaneo, la imagen no puede guardarse ni como imagen ni como texto
Te sale algun error mas, si lanzas xsane desde una terminal?
Saludos
mi blog: http://hatteras.wordpress.com/-
Se me habia olvidado, siguiendo las instrucciones arriba mencionadas, crear el directorio /home/usuario/tmp
No me sale ningun error mas en la terminal al ejecutar en ella xsane, pero sigue saliendo el error anterior cuando se abre xsaneTengo instalado tu paquete tesseract y he instalado tu paquete xsane2tess; he seguido las indicaciones que pones en Preferencias de Xsane, y ahora cuando abro el programa, me sale un mensaje de error que antes no me salia:
Error mientras se cargaban las opciones del dispositivo:
/home/usuario/.xsane/Brother:DCP-130C.drc ¡¡ no es un archivo rc de dispositivo¡¡¡
luego se abre xsane, y compruebo que las opciones que he cambiado ( Comando OCR : xsane2tess -l spa ) no las ha guardado, y ahora pone: gorc
Una vez escaneo, la imagen no puede guardarse ni como imagen ni como texto
Te sale algun error mas, si lanzas xsane desde una terminal?
Saludos
Una vez creado ese directorio tmp, ya no aparece el mensaje de error, y si me conserva: xsane2tess -l spa
Gracias a todos
Merci
mi blog: http://hatteras.wordpress.com/
-
-
-
-
@indiocabreao = ¡ Mas rapido que el viento !
:-D
Ya no falta nada...mas que configurar xsane como explican en el enlace anterior:
Ouvrir XSane : Applications → Graphisme → Scanneur d'images XSane
Dans Préférences → Configuration → Onglet "OCR" :
-
Commande OCR : xsane2tess -l fra
-
Option de fichier d'entrée : -i
-
Option de fichier de sortie : -o
Esto seria para el idioma frances, para el español:-
Commande OCR : xsane2tess -l spa
No olvidar :
4°) Créer un dossier tmp dans /home/usuario
-
xsane2tess aura besoin de ce dossier pour placer son fichier de log : /home/usuario/tmp/xsane2tess.log
-
Vous pourrez ensuite consulter ce fichier pour observer les éventuelles erreurs.
(con Guadalinex, no se).
Acabo de instalar tu paquete tesseract... y probarlo con Ubuntu 7.10 (32 bits). No es hecho para Ubuntu. Tesseract no funciona correctamente. Guadalinex y Ubuntu son próximos.
Ambas distribuciones no son idénticas...
E instalado de nuevo tesseract según las indicaciones de la documentación Ubuntu.
(...) Luego (...)
Acabo de instalar tu paquete xsane2tess... y probarlo con Ubuntu 7.10. Esta deb funciona bien con Ubuntu. ¿ Me permites poner un enlace hacia esta deb en la documentación Ubuntu francófona ?
-
Acabo de instalar tu paquete tesseract... y probarlo con Ubuntu 7.10 (32 bits). No es hecho para Ubuntu. Tesseract no funciona correctamente. Guadalinex y Ubuntu son próximos.
Ambas distribuciones no son idénticas...
Guadalinex v4 es una Ubuntu Edgy
Acabo de instalar tu paquete xsane2tess... y probarlo con Ubuntu 7.10. Esta deb funciona bien con Ubuntu. ¿ Me permites poner un enlace hacia esta deb en la documentación Ubuntu francófona ?
Por supuesto que si :-)
Con cualquier .deb disponible en el repositorio, te digo lo mismo.
Saludos-
Por supuesto que si :-)
Ya, la documentacion Ubuntu-fr incluye eso : http://doc.ubuntu-fr.org:81/xsane2tess#installation
Con cualquier .deb disponible en el repositorio, te digo lo mismo.
¿ Cómo se dice, en español: "l'esprit du libre" ?
;-)
Guadalinex v4 es una Ubuntu Edgy
OK. Y Guadalinex v5 será una Ubuntu Hardy. Pronto, tendremos el mismo instrumento.
:-)
-
Ya, la documentacion Ubuntu-fr incluye eso : http://doc.ubuntu-fr.org:81/xsane2tess#installation
Junto a la documentacion inglesa sobre Ubuntu, la mejor es la francesa. Felicidades.
¿ Cómo se dice, en español: "l'esprit du libre" ?
;-)
Creo que la traduccion mas correcta seria "el espíritu de la libertad" o tambien "espíritu de libertad".
Aunque la traduccion mas literal seria "el espíritu del libre".
OK. Y Guadalinex v5 será una Ubuntu Hardy. Pronto, tendremos el mismo instrumento.
:-)
Si :-)
Saludos
-
Como dije en un mensaje anteriror: una vez creado ese directorio tmp, ya no aparece el mensaje de error, y si me conserva: xsane2tess -l spa.
Pero abro xsane, scaneo una pagina con un texto en español, me aparece la imagen escaneada, con el texto de la pagina original, en el visor interno de xsane, y tanto si voy a
archivo > guardar imagen o
archivo > ocr guardar como texto
me crea en /home/usuario un archivo documento.txt , que al abrirlo con el procesador de textos esta vacio
----------
Si en Opciones cambio Tipo: y pongo cualquiera de las opciones menos text, o por extension (es decir pdf, jpg, etc) entonces si que me permite guardar como imagen, pero si lo intento guardar como: ocr guardar como texto, me sigue creando un archivo.txt vacio
mi blog: http://hatteras.wordpress.com/-
Hatteras, esta tarde intento solucionarlo...me acabo de dar cuenta de que el paquete tesseract, incluye todos los idiomas pero todos con 0 bytes.
Seguramente tendre que hacer un paquete extra que los incluya correctamente.
Saludos
-
Hatteras, esta tarde intento solucionarlo...me acabo de dar cuenta de que el paquete tesseract, incluye todos los idiomas pero todos con 0 bytes.
Seguramente tendre que hacer un paquete extra que los incluya correctamente.
Sí. Es a causa de esto que tesseract no había funcionado con Ubuntu Gutsy con tu paquete. Miro el repertorio tessdata del paquete de "b52" que incluye francés y inglés. Tessdata contiene deu, eng, fra, ita, ndl y spa, pero sólo inglés y francés no son vacíos.
Si quieres poner todos los idiomas disponibles, puedes añadir :
tesseract-2.01.vie.tar.gz Vietnamese Language data for Tesseract for 2.01 and up.
tesseract-2.01.por.tar.gz Language data for Portuguese (Brazilian) for 2.00 and up
tesseract-2.01.deu-f.tar.gz Language data for Fraktur (Old German) for 2.00 and up.
Pero quizas es difícil incluir todas estas idiomas en un paquete tesseract...
Saludos !
-
Ahora si!!!
Incluidos todos los idiomas (Sorbus, tambien los que me has puesto en el ultimo mensaje).
Por si quieres probarlo:
tesseract_2.01-1-1guadausers1_i386.deb
Saludos
-
Ahora si!!!
Incluidos todos los idiomas (Sorbus, tambien los que me has puesto en el ultimo mensaje).
Por si quieres probarlo:
tesseract_2.01-1-1guadausers1_i386.deb
deu-f, por y vie : muy bien,
Nautilus
/usr/share/tessdata :
todos los "deu-f", "por" y "vie" :
Permissions :
Propriétaire : 500 - Accès : Lecture et écriture
Groupe : 1001 - Accès : Lecture seule
Autres : - Accès : Lecture seule
y tesseract/xsane2tess funciona...
Pero un pequeño problema... una pequeña dificultad con las otras idiomas : spa, ita, deu, ndl, eng, fra.
Nautilus
/usr/share/tessdata :
todos los "spa", "ita", "deu", "ndl", "eng", "fra" :
Permissions :
Propriétaire : 500 - Accès : Lecture et écriture
Groupe : 1001 - Accès : Lecture seule
Autres : - Accès : Aucun
y tesseract/xsane2tess no funciona...
sudo chmod -R a+r /usr/share/tessdata
...resolve el problema
-
Pues debe ser un error de los tar.gz me los baje todos y no le cambie los permisos a ninguno.
Ya he subido el mismo paquete, pero con los permisos corregidos.
tesseract_2.01-1-1guadausers1_i386.deb
Avisame con cualquier otro problema :-)
Gracias por el aviso.
Saludos
Editado: Gscan2pdf que no reconocia ningun idioma (el ingles pero no funcionaba), tambien esta corregido y reconoce todos los idiomas.
Sorbus, el error de gscan2pdf era en el codigo del programa, lo he localizado y corregido (en Ubuntu tampoco deberia funcionar). Pero este paquete si:
gscan2pdf_0.9.23-1-1guadausers1_all.deb
-
Pues debe ser un error de los tar.gz me los baje todos y no le cambie los permisos a ninguno.
Ya he subido el mismo paquete, pero con los permisos corregidos.
tesseract_2.01-1-1guadausers1_i386.deb
Avisame con cualquier otro problema :-)
Ahora, está bien. Un pequeño detalle (no pone obstáculo al buen funcionamiento): las propiedades de los archivos de idiomas.
deb "b52" :
Permissions :
Propriétaire : root - Accès : Lecture et écriture
Groupe : root - Accès : Lecture seule
Autres : - Accès : Lecture seule
deb "guadausers"
Permissions :
Propriétaire : 500 - Accès : Lecture et écriture
Groupe : 1001 - Accès : Lecture seule
Autres : - Accès : Lecture seule
Estas cifras son los userid y groupid de los archivos.
El deb "guadausers" instaló archivos cuyo uid y gid no corresponden a ninguna cuenta / grupo en mi máquina.
Editado: Gscan2pdf que no reconocia ningun idioma (el ingles pero no funcionaba), tambien esta corregido y reconoce todos los idiomas.
Sorbus, el error de gscan2pdf era en el codigo del programa, lo he localizado y corregido (en Ubuntu tampoco deberia funcionar). Pero este paquete si:
¿? ¿? Hasta la versión 0.9.19, gscan2pdf no buscaba el repertorio tessdata en el buen repertorio. Era necesario crear un enlace simbólico. Pero desde la versión 0.9.20, gscan2pdf funciona bien, y utiliza correctamente los idiomas. Respecto a la versión 0.9.23, no entiendo cuál es el problema...
[Edit 20/04/2008 - Rectifico : Hasta la versión 0.9.19, era necesario crear dos enlaces simbólicos. Desde la versión 0.9.20, un enlace basta. Todo todavía no es corregido.]
Te agradezco mucho del trabajo que efectúas.
Saludos
-
Editado: Gscan2pdf que no reconocia ningun idioma (el ingles pero no funcionaba), tambien esta corregido y reconoce todos los idiomas.
Sorbus, el error de gscan2pdf era en el codigo del programa, lo he localizado y corregido (en Ubuntu tampoco deberia funcionar). Pero este paquete si:
¿? ¿? Hasta la versión 0.9.19, gscan2pdf no buscaba el repertorio tessdata en el buen repertorio. Era necesario crear un enlace simbólico. Pero desde la versión 0.9.20, gscan2pdf funciona bien, y utiliza correctamente los idiomas. Respecto a la versión 0.9.23, no entiendo cuál es el problema...
¡ Entiendo!
Primero instalado tesseract con el deb de "b52". Había probado gscan2pdf (del desarollador) : los idiomas (inglés y francés) estaban disponibles.
Luego, desinstalé tesseract " deb b52 "...
Instalé tesseract " deb guadausers "... Pero no había probado de nuevo gscan2pdf.
Acabo de probar. Idiomas en gscan2pdf : solo inglés.
Deb tesseract "b52" y "Guadausers" difieren.
Acabo de instalar paquete tesseract "guadausers" y gscan2pdf "guadausers"... y probar con Ubuntu 7.10. gscan2pdf funciona bien : todos los idiomas disponibles.
Pues, dos soluciones funcionan bien:
tesseract deb "b52" + gscan2pdf (deb del desarollador)
tesseract deb "guadausers" + gscan2pdf deb guadausers
Prefiero la primera solución: deb tesseract adaptado al deb del desarollador de gscan2pdf : Las versiones de gscan2pdf evolucionan más rápidamente que tesseract.
Pero, si puedes, te pones en contacto con el desarollador de gscan2pdf: si localizaste en un error de código, puedes informarlo.
Se llama Jeffrey Ratcliffe. Puedes enviarle un mensaje sobre este foro.
https://lists.sourceforge.net/lists/listinfo/gscan2pdf-help
Saludos
P.S. : Excusez-moi pour les fautes dans mes messages en espagnol :-/
-
Entendiste muy bien :-)
Perdona llevo unos dias con un problema familiar y estoy tocando poco el pc.
Llevas toda la razon. Creo que el error esta en gscan2pdf, espero que en siguientes versiones lo arreglen.
Prefiero la primera solución: deb tesseract adaptado al deb del desarollador de gscan2pdf : Las versiones de gscan2pdf evolucionan más rápidamente que tesseract.
Si, ya estube mirando esa lista cuando localize el error....tambien vi un mensaje donde alguien mas habia tenido esos problemas y el desarrollador prometio arreglarlo en siguientes versiones. Si tienes curiosidad por saber el problema, este es parte del codigo de gscanpdf:
Pero, si puedes, te pones en contacto con el desarollador de gscan2pdf: si localizaste en un error de código, puedes informarlo.
Se llama Jeffrey Ratcliffe. Puedes enviarle un mensaje sobre este foro.
https://lists.sourceforge.net/lists/listinfo/gscan2pdf-help
my $tessdata_prefix = '/usr/share/tessdata';
if (defined $ENV{TESSDATA_PREFIX}) {
$tessdata_prefix = $ENV{TESSDATA_PREFIX};
}
elsif (-d '/usr/local/share/tessdata') {
$tessdata_prefix = '/usr/local/share';
}
elsif (-d '/usr/share/tesseract-ocr/tessdata') {
$tessdata_prefix = '/usr/share/tesseract-ocr';
}
my @tesslang = glob "$tessdata_prefix/tessdata/*.unicharset";
El error parece estar aqui:
my @tesslang = glob "$tessdata_prefix/tessdata/*.unicharset"
Le sobra ese tessdata. Con el, las rutas donde busca los idiomas son parecida a esta:
/usr/share/tessdata/tessdata
P.S. : Excusez-moi pour les fautes dans mes messages en espagnol :-/
Tranquilo, no pasa nada. Al contrario, te expresas bastante bien en español.
Saludos
-
-
-
Pues debe ser un error de los tar.gz me los baje todos y no le cambie los permisos a ninguno.
Ya he subido el mismo paquete, pero con los permisos corregidos.
tesseract_2.01-1-1guadausers1_i386.deb
Avisame con cualquier otro problema :-)
1°) Me parece que xsane2tess no funciona con el nuevo paquete tesseract.
[Edit 23/04/2008 : Me parece que...
... escribí una tontería. :-(
Me parece que...
... lo que escribí es falso. Verifiqué de nuevo. xsane + tesseract guadausers + xsane2tess guadausers funcionan bien. Hice probablemente un error el último sábado. No queda pues más que el segundo problema más abajo (gscan2pdf+tesseract)].
2°) gscan2pdf + tesseract : problema de reconocimiento (archiva .tiff - el texto está en francés).
--> paquetes guadausers :
<>:·1.t AL ftirt :r»¢:>•.:n
cclnai cia chars, cc1•..1i c
grnxrut - [rt âlêcntrnts 1c>¤..n
plus ce 7C)C) 1:::1, 1.1:1 tr:
<:1ct·¤ct1.<:1é par 1 " étct—:n;jcr
rcr rt çticccncc cctitrc
circ <:l.ircctt-crut-:18 tr: Ilcrtnc
`l>l.i.r1<:i.âr cit.: 2 2 Ftègixn
îfnrirtiarn Tyctnscrn, cicvr
icccrè ccrrc çzotr ifillcfr
126, Il 122 ct Il 14C) (Art
--> paquetes gscan2pdf (del desarollador) + tesseract (b52) :
Ont A faire mouvement les quatre principaux régiments de la division:
celui de chars, celui d‘artillerie et les deux de grenadiers blindés l'accompa-
gnant. Les éléments lourds de la "Das Reich' étant séparés du front normand par
plus de 700 km, un transport par rail A partir de la région de Bordeaux en est
demandé par 1'état-major de la division qui ne comprend pas qu'on puisse utili-
ser sa puissance contre des 'terroristes” et dont les officiers vzglent se ren-
dre directemenxmen Normandie. Le transport est refusé par le SB ° Corps. Les
blindés du 2 ° Régiment de chars SS, commandé par le lieutenant-colonel SS
Christian Tychsen, devront se déplacer par leurs propres moyens. L'itinéraire
imposé passe par Villefranche, Figeac, Tulle en empruntant successivement les N
126, N 122 et N 140 (Axe A).
???
Continúo probar.
-
Continúo probar.
Buenas tardes amigos.
Buenas tardes IndioCabreao. ¿ recibiste mis mensajes? [Edit : Si ! ;-)]
El problema parece resuelto.
Características del archivo en el cual el reconocimiento no funcionaba:
> --> Format Tagged Image File Format (TIFF)
> TIFF Directory at offset 0x8fdc8 (589256)
> Subfile Type: (0 = 0x0)
> Image Width: 2046 Image Length: 96
> Resolution: 300, 300 pixels/inch
> Bits/Sample: 8
> Compression Scheme: None
> Photometric Interpretation: RGB color
> Orientation: row 0 top, col 0 lhs
> Samples/Pixel: 3
> Rows/Strip: 64
> Planar Configuration: single image plane
Solución si tesseract está instalado con deb " guadausers ":
Gscan2pdf.
1 °) unpaper ("clean up")
2 °) Luego : ocr - tesseract
El resultado :
-----------------------------------------------------------------------------------------------------
Ont A faire mouvement les quatre principaux régiments de la division:
celui de chars, celui d‘artillerie et les deux de grenadiers blindés l'accompa—
gnant. Les éléments lourds de la 'Das Reich' étant séparés du front normand par
plus de 700 km, un transport par rail A partir de la région de Bordeaux en est
demandé par 1'état-major de la division qui ne comprend pas qu'on puisse utili-
ser sa puissance contre des 'terroristes" et dont les officiers vzglent se ren-
dre directemenxmen Normandie. Le transport est refusé par le 58 ° Corps. Les
blindés du 2 ° Régiment de chars SS, commandé par le lieutenant-colonel SS
Christian Tychsen, devront se déplacer par leurs propres moyens. L'itinéraire
imposé passe par Villefranche, Figeac, Tulle en empruntant successivement les N
126, N 122 et N 140 (Axe A).
--------------------------------------------------------------------------------------------------------
¡ Muy bien !
Utilizando este método, gscan2pdf "guadausers" y tesseract "guadausers" funcionan muy bien.
Información : exactamente obtenemos el mismo resultado con los paquetes tesseract en Ubuntu Hardy (Guadalinex V5).
Los paquetes permiten a tesseract tratar archivos tiff comprimidos (scans efectuados con xsane).
El paquete de "b52" permite a tesseract tratar directamente los archivos no comprimidos. (Sin tratamiento unpaper previo). Pero no permite a tesseract tratar los archivos comprimidos... En este caso, un tratamiento "unpaper" previo es necesario.
Las diferencias en el resultado provienen del contexto de compilación de los paquetes deb.
-> con <libtiff3-dev> y <libtiffxx0c2> instaladas: deb guadausers y hardy.
-> sin <libtiff3-dev> y <libtiffxx0c2>: deb "b52".
Conclusión: con deb "guadausers", ustedes tienen una buena solución en Guadalinex V4 (y 4-1 y 4-2).
Luego, en Guadalinex V5, tesseract 2.01 estará disponible en Synaptic; con 8 idiomas disponibles (spa, fra, deu, eng, ita, por, nld, deu-f).
Para los que necesitan "vie" (el idioma vietnamita), habrá que conservar al deb "guadausers" ;-)
Desde hace algunos días, una versión tesseract 2.03 está disponible en el sitio web google/tesseract. Pero su compilación parece difícil.
¡ Saludos !
-
Holas :-)
Primero pedir perdon por tardar en contestar :-P
Segundo, me alegro de que al final todo se solucione :-)
Tercero, tengo una duda...
Estas pruebas de funcionamiento, se realizaron con el paquete .deb que modifico b52 o con el original de GuadaUsers?
Saludos
-
Tercero, tengo una duda...
Estas pruebas de funcionamiento, se realizaron con el paquete .deb que modifico b52 o con el original de GuadaUsers?
Verificaré de nuevo. En el momento de las primeras pruebas, no había utilizado la función " unpaper ". El resultado era mediocre. Con deb "b52" (tesseract_2.02-3_i386.deb), el resultado era bueno, sin "Unpaper". Observé luego que utilizando unpaper, se obtenía también un buen resultado con deb GuadaUsers (tesseract_2.01-1-1guadausers1_i386.deb).
Por otra parte, "b52" empaquetó a deb (tesseract_2.01-2-1guadausers1_i386.deb) que funciona con el paquete del desarollador de gscan2pdf. "b52" lo quitó de su página "tuxfamily ". Pero si lo quieres, puedo transmitírtelo. Está basado en tu paquete, solamente con las modificaciones que le permiten funcionar con gscan2pdf del desarollador.
Por fin, "b52" acaba de empaquetar a deb "con todos los idiomas ".
--> i386 : tesseract_2.02-5_i386.deb
--> amd64 : tesseract_2.02-4_amd64.deb
Funcionan con Gutsy y Hardy. Pero no sé si funcionan con Edgy y Feisty (Guadalinex 4 et 4.1).
Última observación : comprobé que deb "b52" permitía obtener un resultado correcto a partir de diversos archivos modificados, por medio de Gimp por ejemplo. Con el deb oficial de Hardy y con el de "GuadaUsers", el reconocimiento no funciona en algunos de estos archivos. Exactamente no sé por qué. En cambio, si el reconocimiento directamente se hace cuando se escanea un documento, el resultado es bueno.
En cambio, como ya lo dije, con deb "b52" tesseract no funciona directamente en archivos " Tiff " comprimidos. Entonces, hay que utilizar "unpaper".
Pues, si alguien no obtiene un resultado correcto con tesseract, no es normal. En este caso:
1 °) utilizar unpaper " (gscan2pdf -> herramienta-> clean up)
2 °) Si esto no funciona a pesar de unpaper: hay que desinstalar tesseract y gscan2pdf, y reinstalarlos con deb tesseract "b52" y gscan2pdf del desarollador. Ya que son paquetes deb. Es muy fácil desinstalar y reinstalar.
¿ A dónde desapareció hatteras ?
;-)
Saludos
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
evasbv
Usuario Ancestral
Envíos: 6