Utidad para indizar contenidos

View: New views
5 Messages — Rating Filter:   Alert me  

Utidad para indizar contenidos

by L. Paz :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

Hola.

Expongo mi problema.
Necesitaría que me recomendarais un programa/utilidad que permitiera
la indexación del contenido de varios directorios residentes en varias
particiones de varios discos duros de un servidor. Estos directorios
contienen colecciones de ficheros en varios formatos. La mayor parte
-más de un 95%- son ficheros de texto (ascii crudo, documentos de
varias versiones del viejo WordPerrect, documentos de casi todas la
versiones de MsWord, pdf, odt). También hay algunas ficheros de
presentaciones, hojas de calculo, sonido y video. Son ficheros
generados desde mediados de los 80, que estaban dispersos por
diferentes servidores y que estamos tratando de reunir en una sola
máquina para construir una especie de archivo digital. Se trata de
unos 310.000 archivos y, por supuesto, no tenemos recursos para darles
ningún tratamiento documental (p.ej., asignarles metadatos),
organizarlos en colecciones y contruir un repositorio digital al
estilo de los gestionados por DSpace, CDS-Invenio, Archon y similares.
 Lo que buscamos es una herramienta que nos permita realizar búsquedas
de texto en el título y/o contenido de los ficheros (para los de
sonido y video, me conformaría que los localizara por el título) y que
tuviera una interfaz de interrogación/presentación de resultados lo
más amigable posible para usuarios finales (no informáticos, ni
documentalistas). Los ideal sería que las consultas se pudieran
realizar a través de una página web.

Saludos a todo/as, y gracias anticipadas.

RPZ

Re: Utidad para indizar contenidos

by Victor H De la Luz :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

2008/8/29 L. Paz <rpz011@...>:

> Hola.
>
> Expongo mi problema.
> Necesitaría que me recomendarais un programa/utilidad que permitiera
> la indexación del contenido de varios directorios residentes en varias
> particiones de varios discos duros de un servidor. Estos directorios
> contienen colecciones de ficheros en varios formatos. La mayor parte
> -más de un 95%- son ficheros de texto (ascii crudo, documentos de
> varias versiones del viejo WordPerrect, documentos de casi todas la
> versiones de MsWord, pdf, odt). También hay algunas ficheros de
> presentaciones, hojas de calculo, sonido y video. Son ficheros
> generados desde mediados de los 80, que estaban dispersos por
> diferentes servidores y que estamos tratando de reunir en una sola
> máquina para construir una especie de archivo digital. Se trata de
> unos 310.000 archivos y, por supuesto, no tenemos recursos para darles
> ningún tratamiento documental (p.ej., asignarles metadatos),
> organizarlos en colecciones y contruir un repositorio digital al
> estilo de los gestionados por DSpace, CDS-Invenio, Archon y similares.
>  Lo que buscamos es una herramienta que nos permita realizar búsquedas
> de texto en el título y/o contenido de los ficheros (para los de
> sonido y video, me conformaría que los localizara por el título) y que
> tuviera una interfaz de interrogación/presentación de resultados lo
> más amigable posible para usuarios finales (no informáticos, ni
> documentalistas). Los ideal sería que las consultas se pudieran
> realizar a través de una página web.
>
> Saludos a todo/as, y gracias anticipadas.
>
> RPZ
>

Saludos!

Es un trabajo enorme, pero se puede ir construyendo. No se si exista
un software que haga esto, pero si existen las herramientas que te
permiten hacerlo de manera mas o menos practica.

Lo que deberias de hacer es construir un base de datos con los
metadatos que tu estas buscando, por ejemplo:

Servidor, PathAbsoluto, NombredelArchivo, TipoDeArchivo, Titulo, Contenido

Y realizar una pequeña "araña", las arañas son algoritmos de busqueda
que indexan tus datos. Tampoco son complicados de programar, te
podrias chutar una araña en unas 10 lineas de codigo. Cuando encuentre
un archivo, revise de que tipo es y despues lo meta en la db.

Ya teniendo la db, ahora, cada vez que alguien busque algo, no lo hara
sobre tu sistema de archivo, sino sobre tu db. Asi sera rapidisimo, el
problema es el contenido, pues tardaras algo de tiempo para poder
buscar contenido en una base de datos enorme. Por eso google me sigue
sorprendiendo con sus bajisimas tazas de busqueda. Ellos implementan
listas ordenadas de tal forma que las busquedas sean casi constantes.
Recordando, google tiene un indexador de archivos, entre sus
aplicaciones, solo que funciona unicamente en windows (la ultima vez
que lo vi). Y me sigue sorprendiendo, en tu desktop puedes encontrar
practicamente cualquier cosa en un instante. Hasta el dato mas oscuro.

Haber deja reviso..., wow, google ya saco su Google Desktop para
linux, igual y lo puedes intentar:

http://desktop.google.com/es/linux/

Suerte!


--
Atte

ItZtLi

¤º°°º¤ø,¸¸,ø¤º°°º¤ø,¸¸,ø¤º°`°º¤ø,¸
 Nahui Tonalli Icniuhtli.
¤º°°º¤ø,¸¸,ø¤º°°º¤ø,¸¸,ø¤º°`°º¤ø,¸


--
To UNSUBSCRIBE, email to debian-user-spanish-REQUEST@...
with a subject of "unsubscribe". Trouble? Contact listmaster@...


Re: Utidad para indizar contenidos

by Gonzalo Rivero :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

El 29/08/08, L. Paz <rpz011@...> escribió:

> Hola.
>
>  Expongo mi problema.
>  Necesitaría que me recomendarais un programa/utilidad que permitiera
>  la indexación del contenido de varios directorios residentes en varias
>  particiones de varios discos duros de un servidor. Estos directorios
>  contienen colecciones de ficheros en varios formatos. La mayor parte
>  -más de un 95%- son ficheros de texto (ascii crudo, documentos de
>  varias versiones del viejo WordPerrect, documentos de casi todas la
>  versiones de MsWord, pdf, odt). También hay algunas ficheros de
>  presentaciones, hojas de calculo, sonido y video. Son ficheros
>  generados desde mediados de los 80, que estaban dispersos por
>  diferentes servidores y que estamos tratando de reunir en una sola
>  máquina para construir una especie de archivo digital. Se trata de
>  unos 310.000 archivos y, por supuesto, no tenemos recursos para darles
>  ningún tratamiento documental (p.ej., asignarles metadatos),
>  organizarlos en colecciones y contruir un repositorio digital al
>  estilo de los gestionados por DSpace, CDS-Invenio, Archon y similares.
>   Lo que buscamos es una herramienta que nos permita realizar búsquedas
>  de texto en el título y/o contenido de los ficheros (para los de
>  sonido y video, me conformaría que los localizara por el título) y que
>  tuviera una interfaz de interrogación/presentación de resultados lo
>  más amigable posible para usuarios finales (no informáticos, ni
>  documentalistas). Los ideal sería que las consultas se pudieran
>  realizar a través de una página web.
>
el único que conozco para eso es htdig, hasta donde recuerdo, no era
complicado de instalar y configurar... aunque lo hice hace varios
años.
Al menos te serviría para los archivos de texto plano, no me acuerdo
si podía buscar dentro de los binarios (.doc y esas cosas)... aunque
eso ya te toca investigarlo a vos ;-)


--
http://fishblues.blogspot.com/
http://gonzalor.blogspot.com/
Yo estoy en forma: redondo es una forma! :D

Re: Utidad para indizar contenidos

by Angel Claudio Alvarez-2 :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

El vie, 29-08-2008 a las 17:44 +0200, L. Paz escribió:

> Hola.
>
> Expongo mi problema.
> Necesitaría que me recomendarais un programa/utilidad que permitiera
> la indexación del contenido de varios directorios residentes en varias
> particiones de varios discos duros de un servidor. Estos directorios
> contienen colecciones de ficheros en varios formatos. La mayor parte
> -más de un 95%- son ficheros de texto (ascii crudo, documentos de
> varias versiones del viejo WordPerrect, documentos de casi todas la
> versiones de MsWord, pdf, odt). También hay algunas ficheros de
> presentaciones, hojas de calculo, sonido y video. Son ficheros
> generados desde mediados de los 80, que estaban dispersos por
> diferentes servidores y que estamos tratando de reunir en una sola
> máquina para construir una especie de archivo digital. Se trata de
> unos 310.000 archivos y, por supuesto, no tenemos recursos para darles
> ningún tratamiento documental (p.ej., asignarles metadatos),
> organizarlos en colecciones y contruir un repositorio digital al
> estilo de los gestionados por DSpace, CDS-Invenio, Archon y similares.
>  Lo que buscamos es una herramienta que nos permita realizar búsquedas
> de texto en el título y/o contenido de los ficheros (para los de
> sonido y video, me conformaría que los localizara por el título) y que
> tuviera una interfaz de interrogación/presentación de resultados lo
> más amigable posible para usuarios finales (no informáticos, ni
> documentalistas). Los ideal sería que las consultas se pudieran
> realizar a través de una página web.
>
> Saludos a todo/as, y gracias anticipadas.
>
> RPZ

tracker
creo que en etch no esta pero si en lenny y sid



--
To UNSUBSCRIBE, email to debian-user-spanish-REQUEST@...
with a subject of "unsubscribe". Trouble? Contact listmaster@...


Re: Utidad para indizar contenidos

by Javier Argentina :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

angel escribió:

> El vie, 29-08-2008 a las 17:44 +0200, L. Paz escribió:
>  
>> Hola.
>>
>> Expongo mi problema.
>> Necesitaría que me recomendarais un programa/utilidad que permitiera
>> la indexación del contenido de varios directorios residentes en varias
>> particiones de varios discos duros de un servidor. Estos directorios
>> contienen colecciones de ficheros en varios formatos. La mayor parte
>> -más de un 95%- son ficheros de texto (ascii crudo, documentos de
>> varias versiones del viejo WordPerrect, documentos de casi todas la
>> versiones de MsWord, pdf, odt). También hay algunas ficheros de
>> presentaciones, hojas de calculo, sonido y video. Son ficheros
>> generados desde mediados de los 80, que estaban dispersos por
>> diferentes servidores y que estamos tratando de reunir en una sola
>> máquina para construir una especie de archivo digital. Se trata de
>> unos 310.000 archivos y, por supuesto, no tenemos recursos para darles
>> ningún tratamiento documental (p.ej., asignarles metadatos),
>> organizarlos en colecciones y contruir un repositorio digital al
>> estilo de los gestionados por DSpace, CDS-Invenio, Archon y similares.
>>  Lo que buscamos es una herramienta que nos permita realizar búsquedas
>> de texto en el título y/o contenido de los ficheros (para los de
>> sonido y video, me conformaría que los localizara por el título) y que
>> tuviera una interfaz de interrogación/presentación de resultados lo
>> más amigable posible para usuarios finales (no informáticos, ni
>> documentalistas). Los ideal sería que las consultas se pudieran
>> realizar a través de una página web.
>>
>> Saludos a todo/as, y gracias anticipadas.
>>
>> RPZ
>>    
>
> tracker
> creo que en etch no esta pero si en lenny y sid
>
>
>
>  

"Estos directorios contienen colecciones de ficheros en varios formatos.
La mayor parte -más de un 95%- son ficheros de texto (ascii crudo,
documentos de varias versiones del viejo WordPerrect, documentos de casi
todas la versiones de MsWord, pdf, odt). "

" y que tuviera una interfaz de interrogación/presentación de resultados lo más amigable posible para usuarios finales (no informáticos, ni documentalistas). "


Da la idea de una búsqueda un tanto "a lo bruto, en un montón de chatarra".
Y digo yo, ¿no te sirve el Google Desktop?
Es fácil de usar, es la misma interfaz web de Google.
Es por página web.
Hace lo que pedís, busca por título y contenido en los de texto.
Permite realizar búsqueda avanzadas (por fecha, relevancia, tipo de extensión)

Las contras:
Si están los archivos en utf-16, vas muerto, porque no encuentra una palabra de búsqueda contenida en un archivo de texto, dado el uso de dos bytes por letra. Pero creo que es problema de todos los buscadores.
La interfaz está en inglés, aunque muy, muy básico.






--
GNU/Linux - Usuario Registrado # 389414
http://i18n.counter.li.org


--
To UNSUBSCRIBE, email to debian-user-spanish-REQUEST@...
with a subject of "unsubscribe". Trouble? Contact listmaster@...

LightInTheBox - Buy quality products at wholesale price!