|
View:
New views
5 Messages
—
Rating Filter:
Alert me
|
|
|
Utidad para indizar contenidosHola.
Expongo mi problema. Necesitaría que me recomendarais un programa/utilidad que permitiera la indexación del contenido de varios directorios residentes en varias particiones de varios discos duros de un servidor. Estos directorios contienen colecciones de ficheros en varios formatos. La mayor parte -más de un 95%- son ficheros de texto (ascii crudo, documentos de varias versiones del viejo WordPerrect, documentos de casi todas la versiones de MsWord, pdf, odt). También hay algunas ficheros de presentaciones, hojas de calculo, sonido y video. Son ficheros generados desde mediados de los 80, que estaban dispersos por diferentes servidores y que estamos tratando de reunir en una sola máquina para construir una especie de archivo digital. Se trata de unos 310.000 archivos y, por supuesto, no tenemos recursos para darles ningún tratamiento documental (p.ej., asignarles metadatos), organizarlos en colecciones y contruir un repositorio digital al estilo de los gestionados por DSpace, CDS-Invenio, Archon y similares. Lo que buscamos es una herramienta que nos permita realizar búsquedas de texto en el título y/o contenido de los ficheros (para los de sonido y video, me conformaría que los localizara por el título) y que tuviera una interfaz de interrogación/presentación de resultados lo más amigable posible para usuarios finales (no informáticos, ni documentalistas). Los ideal sería que las consultas se pudieran realizar a través de una página web. Saludos a todo/as, y gracias anticipadas. RPZ |
|
|
Re: Utidad para indizar contenidos2008/8/29 L. Paz <rpz011@...>:
> Hola. > > Expongo mi problema. > Necesitaría que me recomendarais un programa/utilidad que permitiera > la indexación del contenido de varios directorios residentes en varias > particiones de varios discos duros de un servidor. Estos directorios > contienen colecciones de ficheros en varios formatos. La mayor parte > -más de un 95%- son ficheros de texto (ascii crudo, documentos de > varias versiones del viejo WordPerrect, documentos de casi todas la > versiones de MsWord, pdf, odt). También hay algunas ficheros de > presentaciones, hojas de calculo, sonido y video. Son ficheros > generados desde mediados de los 80, que estaban dispersos por > diferentes servidores y que estamos tratando de reunir en una sola > máquina para construir una especie de archivo digital. Se trata de > unos 310.000 archivos y, por supuesto, no tenemos recursos para darles > ningún tratamiento documental (p.ej., asignarles metadatos), > organizarlos en colecciones y contruir un repositorio digital al > estilo de los gestionados por DSpace, CDS-Invenio, Archon y similares. > Lo que buscamos es una herramienta que nos permita realizar búsquedas > de texto en el título y/o contenido de los ficheros (para los de > sonido y video, me conformaría que los localizara por el título) y que > tuviera una interfaz de interrogación/presentación de resultados lo > más amigable posible para usuarios finales (no informáticos, ni > documentalistas). Los ideal sería que las consultas se pudieran > realizar a través de una página web. > > Saludos a todo/as, y gracias anticipadas. > > RPZ > Saludos! Es un trabajo enorme, pero se puede ir construyendo. No se si exista un software que haga esto, pero si existen las herramientas que te permiten hacerlo de manera mas o menos practica. Lo que deberias de hacer es construir un base de datos con los metadatos que tu estas buscando, por ejemplo: Servidor, PathAbsoluto, NombredelArchivo, TipoDeArchivo, Titulo, Contenido Y realizar una pequeña "araña", las arañas son algoritmos de busqueda que indexan tus datos. Tampoco son complicados de programar, te podrias chutar una araña en unas 10 lineas de codigo. Cuando encuentre un archivo, revise de que tipo es y despues lo meta en la db. Ya teniendo la db, ahora, cada vez que alguien busque algo, no lo hara sobre tu sistema de archivo, sino sobre tu db. Asi sera rapidisimo, el problema es el contenido, pues tardaras algo de tiempo para poder buscar contenido en una base de datos enorme. Por eso google me sigue sorprendiendo con sus bajisimas tazas de busqueda. Ellos implementan listas ordenadas de tal forma que las busquedas sean casi constantes. Recordando, google tiene un indexador de archivos, entre sus aplicaciones, solo que funciona unicamente en windows (la ultima vez que lo vi). Y me sigue sorprendiendo, en tu desktop puedes encontrar practicamente cualquier cosa en un instante. Hasta el dato mas oscuro. Haber deja reviso..., wow, google ya saco su Google Desktop para linux, igual y lo puedes intentar: http://desktop.google.com/es/linux/ Suerte! -- Atte ItZtLi ¤º°°º¤ø,¸¸,ø¤º°°º¤ø,¸¸,ø¤º°`°º¤ø,¸ Nahui Tonalli Icniuhtli. ¤º°°º¤ø,¸¸,ø¤º°°º¤ø,¸¸,ø¤º°`°º¤ø,¸ -- To UNSUBSCRIBE, email to debian-user-spanish-REQUEST@... with a subject of "unsubscribe". Trouble? Contact listmaster@... |
|
|
Re: Utidad para indizar contenidosEl 29/08/08, L. Paz <rpz011@...> escribió:
> Hola. > > Expongo mi problema. > Necesitaría que me recomendarais un programa/utilidad que permitiera > la indexación del contenido de varios directorios residentes en varias > particiones de varios discos duros de un servidor. Estos directorios > contienen colecciones de ficheros en varios formatos. La mayor parte > -más de un 95%- son ficheros de texto (ascii crudo, documentos de > varias versiones del viejo WordPerrect, documentos de casi todas la > versiones de MsWord, pdf, odt). También hay algunas ficheros de > presentaciones, hojas de calculo, sonido y video. Son ficheros > generados desde mediados de los 80, que estaban dispersos por > diferentes servidores y que estamos tratando de reunir en una sola > máquina para construir una especie de archivo digital. Se trata de > unos 310.000 archivos y, por supuesto, no tenemos recursos para darles > ningún tratamiento documental (p.ej., asignarles metadatos), > organizarlos en colecciones y contruir un repositorio digital al > estilo de los gestionados por DSpace, CDS-Invenio, Archon y similares. > Lo que buscamos es una herramienta que nos permita realizar búsquedas > de texto en el título y/o contenido de los ficheros (para los de > sonido y video, me conformaría que los localizara por el título) y que > tuviera una interfaz de interrogación/presentación de resultados lo > más amigable posible para usuarios finales (no informáticos, ni > documentalistas). Los ideal sería que las consultas se pudieran > realizar a través de una página web. > complicado de instalar y configurar... aunque lo hice hace varios años. Al menos te serviría para los archivos de texto plano, no me acuerdo si podía buscar dentro de los binarios (.doc y esas cosas)... aunque eso ya te toca investigarlo a vos ;-) -- http://fishblues.blogspot.com/ http://gonzalor.blogspot.com/ Yo estoy en forma: redondo es una forma! :D |
|
|
Re: Utidad para indizar contenidosEl vie, 29-08-2008 a las 17:44 +0200, L. Paz escribió:
> Hola. > > Expongo mi problema. > Necesitaría que me recomendarais un programa/utilidad que permitiera > la indexación del contenido de varios directorios residentes en varias > particiones de varios discos duros de un servidor. Estos directorios > contienen colecciones de ficheros en varios formatos. La mayor parte > -más de un 95%- son ficheros de texto (ascii crudo, documentos de > varias versiones del viejo WordPerrect, documentos de casi todas la > versiones de MsWord, pdf, odt). También hay algunas ficheros de > presentaciones, hojas de calculo, sonido y video. Son ficheros > generados desde mediados de los 80, que estaban dispersos por > diferentes servidores y que estamos tratando de reunir en una sola > máquina para construir una especie de archivo digital. Se trata de > unos 310.000 archivos y, por supuesto, no tenemos recursos para darles > ningún tratamiento documental (p.ej., asignarles metadatos), > organizarlos en colecciones y contruir un repositorio digital al > estilo de los gestionados por DSpace, CDS-Invenio, Archon y similares. > Lo que buscamos es una herramienta que nos permita realizar búsquedas > de texto en el título y/o contenido de los ficheros (para los de > sonido y video, me conformaría que los localizara por el título) y que > tuviera una interfaz de interrogación/presentación de resultados lo > más amigable posible para usuarios finales (no informáticos, ni > documentalistas). Los ideal sería que las consultas se pudieran > realizar a través de una página web. > > Saludos a todo/as, y gracias anticipadas. > > RPZ tracker creo que en etch no esta pero si en lenny y sid -- To UNSUBSCRIBE, email to debian-user-spanish-REQUEST@... with a subject of "unsubscribe". Trouble? Contact listmaster@... |
|
|
Re: Utidad para indizar contenidosangel escribió:
> El vie, 29-08-2008 a las 17:44 +0200, L. Paz escribió: > >> Hola. >> >> Expongo mi problema. >> Necesitaría que me recomendarais un programa/utilidad que permitiera >> la indexación del contenido de varios directorios residentes en varias >> particiones de varios discos duros de un servidor. Estos directorios >> contienen colecciones de ficheros en varios formatos. La mayor parte >> -más de un 95%- son ficheros de texto (ascii crudo, documentos de >> varias versiones del viejo WordPerrect, documentos de casi todas la >> versiones de MsWord, pdf, odt). También hay algunas ficheros de >> presentaciones, hojas de calculo, sonido y video. Son ficheros >> generados desde mediados de los 80, que estaban dispersos por >> diferentes servidores y que estamos tratando de reunir en una sola >> máquina para construir una especie de archivo digital. Se trata de >> unos 310.000 archivos y, por supuesto, no tenemos recursos para darles >> ningún tratamiento documental (p.ej., asignarles metadatos), >> organizarlos en colecciones y contruir un repositorio digital al >> estilo de los gestionados por DSpace, CDS-Invenio, Archon y similares. >> Lo que buscamos es una herramienta que nos permita realizar búsquedas >> de texto en el título y/o contenido de los ficheros (para los de >> sonido y video, me conformaría que los localizara por el título) y que >> tuviera una interfaz de interrogación/presentación de resultados lo >> más amigable posible para usuarios finales (no informáticos, ni >> documentalistas). Los ideal sería que las consultas se pudieran >> realizar a través de una página web. >> >> Saludos a todo/as, y gracias anticipadas. >> >> RPZ >> > > tracker > creo que en etch no esta pero si en lenny y sid > > > > "Estos directorios contienen colecciones de ficheros en varios formatos. La mayor parte -más de un 95%- son ficheros de texto (ascii crudo, documentos de varias versiones del viejo WordPerrect, documentos de casi todas la versiones de MsWord, pdf, odt). " " y que tuviera una interfaz de interrogación/presentación de resultados lo más amigable posible para usuarios finales (no informáticos, ni documentalistas). " Da la idea de una búsqueda un tanto "a lo bruto, en un montón de chatarra". Y digo yo, ¿no te sirve el Google Desktop? Es fácil de usar, es la misma interfaz web de Google. Es por página web. Hace lo que pedís, busca por título y contenido en los de texto. Permite realizar búsqueda avanzadas (por fecha, relevancia, tipo de extensión) Las contras: Si están los archivos en utf-16, vas muerto, porque no encuentra una palabra de búsqueda contenida en un archivo de texto, dado el uso de dos bytes por letra. Pero creo que es problema de todos los buscadores. La interfaz está en inglés, aunque muy, muy básico. -- GNU/Linux - Usuario Registrado # 389414 http://i18n.counter.li.org -- To UNSUBSCRIBE, email to debian-user-spanish-REQUEST@... with a subject of "unsubscribe". Trouble? Contact listmaster@... |
| Free Forum Powered by Nabble | Forum Help |