scriptje

View: New views
10 Messages — Rating Filter:   Alert me  

scriptje

by r.baars :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

Kan iemand aangeven hoe het gemakkelijkst in een bash-script in een keer
alle pdf-files omgezet kunnen worden met:

 /local/bin/pdftotext -f 1 -l 999 -raw <filenaam>

en meteen die file verwijderen?
en de ontstane .txt-file meteen naar een andere directory te kopiëren?

Dat is om de pdf-files die we geoogst hebben in 1 keer om te zetten, en
ze vervolgens in te kunnen lezen.

Alvast bedankt.

Ruud
_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

Re: scriptje

by Bob vd Loo :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

zo?
for i in `ls *.pdf`; do `/local/bin/pdftotext -f 1 -l 999 -raw $i && mv $i nieuwe_dir/ `; done

 
Op Thursday 24 April 2008, schreef r.baars:

> Kan iemand aangeven hoe het gemakkelijkst in een bash-script in een keer
> alle pdf-files omgezet kunnen worden met:
>
>  /local/bin/pdftotext -f 1 -l 999 -raw <filenaam>
>
> en meteen die file verwijderen?
> en de ontstane .txt-file meteen naar een andere directory te kopiëren?
>
> Dat is om de pdf-files die we geoogst hebben in 1 keer om te zetten, en
> ze vervolgens in te kunnen lezen.
>
> Alvast bedankt.
>
> Ruud
> _______________________________________________
> Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
> Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
> Juridische voorwaarden: http://opentaal.org/licentie.php
>



_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

Re: scriptje

by Reinier Post :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

On Thu, Apr 24, 2008 at 06:01:57PM +0200, Bob vd Loo wrote:
> zo?
> for i in `ls *.pdf`; do `/local/bin/pdftotext -f 1 -l 999 -raw $i && mv $i nieuwe_dir/ `; done

Liever

  for i in *.pdf
  do
    pdftotext -f 1 -l 999 -raw $i && rm $i
  done

je bent de PDF-file dan wel echt kwijt.

--
Reinier

_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

Re: scriptje

by Bob vd Loo :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

Klopt idd, maar ik was in de waar met iets anders zie ik.

het resultaat moet naar een andere map, niet de pdf zoals ik voorstelde.

dus dan :
 for i in *.pdf
 do
    pdftotext -f 1 -l 999 -raw $i > nieuwe_map/resultaat.txt && rm $i
 done


Op Thursday 24 April 2008, schreef Reinier Post:

> On Thu, Apr 24, 2008 at 06:01:57PM +0200, Bob vd Loo wrote:
> > zo?
> > for i in `ls *.pdf`; do `/local/bin/pdftotext -f 1 -l 999 -raw $i && mv $i nieuwe_dir/ `; done
>
> Liever
>
>   for i in *.pdf
>   do
>     pdftotext -f 1 -l 999 -raw $i && rm $i
>   done
>
> je bent de PDF-file dan wel echt kwijt.
>


_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

Re: scriptje

by r.baars :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

Heren,

Ik vind dit nogal cryptisch. Logisch als je er geen verstand van hebt.
Waar in deze reeks staat het kopiëren van de .txt-file (en dus niet de
pdf) naar de andere directory?
    de instructie
             /local/bin/pdftotext -f 1 -l 999 -raw $i zal de file wel
omzetten

        mv $i nieuwe_dir/ zal de file (maar is dat dan niet de pdf i.p.v de txt?) verplaatsen

             en in het 2e voorbeeld mis in dan de remove ...
mvg
Ruud

Reinier Post schreef:

> On Thu, Apr 24, 2008 at 06:01:57PM +0200, Bob vd Loo wrote:
>  
>> zo?
>> for i in `ls *.pdf`; do `/local/bin/pdftotext -f 1 -l 999 -raw $i && mv $i nieuwe_dir/ `; done
>>    
>
> Liever
>
>   for i in *.pdf
>   do
>     pdftotext -f 1 -l 999 -raw $i && rm $i
>   done
>
> je bent de PDF-file dan wel echt kwijt.
>
>  
> ------------------------------------------------------------------------
>
> _______________________________________________
> Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
> Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
> Juridische voorwaarden: http://opentaal.org/licentie.php

_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

Re: scriptje

by Bob vd Loo :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

het resultaat van pdftotext gaat regelrecht naar de nieuwe map, en daarna
wordt de pdf verwijderd mbv rm.

 for i in *.pdf
 do
    pdftotext -f 1 -l 999 -raw $i > nieuwe_map/$i.txt && rm $i
 done



Op Thursday 24 April 2008, schreef r.baars:

> Heren,
>
> Ik vind dit nogal cryptisch. Logisch als je er geen verstand van hebt.
> Waar in deze reeks staat het kopiëren van de .txt-file (en dus niet de
> pdf) naar de andere directory?
>     de instructie
>              /local/bin/pdftotext -f 1 -l 999 -raw $i zal de file wel
> omzetten
>
> mv $i nieuwe_dir/ zal de file (maar is dat dan niet de pdf i.p.v de txt?)
> verplaatsen
>
>              en in het 2e voorbeeld mis in dan de remove ...
> mvg
> Ruud
>
> Reinier Post schreef:
> > On Thu, Apr 24, 2008 at 06:01:57PM +0200, Bob vd Loo wrote:
> >> zo?
> >> for i in `ls *.pdf`; do `/local/bin/pdftotext -f 1 -l 999 -raw $i && mv
> >> $i nieuwe_dir/ `; done
> >
> > Liever
> >
> >   for i in *.pdf
> >   do
> >     pdftotext -f 1 -l 999 -raw $i && rm $i
> >   done
> >
> > je bent de PDF-file dan wel echt kwijt.
> >
> >
> > ------------------------------------------------------------------------
> >
> > _______________________________________________
> > Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
> > Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
> > Juridische voorwaarden: http://opentaal.org/licentie.php
>
> _______________________________________________
> Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
> Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
> Juridische voorwaarden: http://opentaal.org/licentie.php



_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

Re: scriptje

by r.baars :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

OK, het is gelukt.

De overdag geoogste files worden regelmatig geconverteerd naar text, en
dat wordt dan weer ingelezen met de routine die ook eerder
geconverteerde pdf's inleest.

Het is een hele verrijking zo, en een hoop minder werk voor me.
Vooral omdat ik een 4-dvd-box  met Nederlandse teksten heb gekocht in
pdf-formaat.

mvg
Ruud

r.baars schreef:

> Heren,
>
> Ik vind dit nogal cryptisch. Logisch als je er geen verstand van hebt.
> Waar in deze reeks staat het kopiëren van de .txt-file (en dus niet de
> pdf) naar de andere directory?
>    de instructie
>             /local/bin/pdftotext -f 1 -l 999 -raw $i zal de file wel
> omzetten
>
>     mv $i nieuwe_dir/ zal de file (maar is dat dan niet de pdf i.p.v
> de txt?) verplaatsen
>
>             en in het 2e voorbeeld mis in dan de remove ...
> mvg
> Ruud
>
> Reinier Post schreef:
>> On Thu, Apr 24, 2008 at 06:01:57PM +0200, Bob vd Loo wrote:
>>  
>>> zo?
>>> for i in `ls *.pdf`; do `/local/bin/pdftotext -f 1 -l 999 -raw $i &&
>>> mv $i nieuwe_dir/ `; done
>>>    
>>
>> Liever
>>
>>   for i in *.pdf
>>   do
>>     pdftotext -f 1 -l 999 -raw $i && rm $i
>>   done
>>
>> je bent de PDF-file dan wel echt kwijt.
>>
>>  
>> ------------------------------------------------------------------------
>>
>> _______________________________________________
>> Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
>> Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
>> Juridische voorwaarden: http://opentaal.org/licentie.php
>
> _______________________________________________
> Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
> Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
> Juridische voorwaarden: http://opentaal.org/licentie.php
>
>

_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

Re: scriptje

by Bob vd Loo :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

dat is niet verkeerd.


Op Thursday 24 April 2008, schreef r.baars:

> OK, het is gelukt.
>
> De overdag geoogste files worden regelmatig geconverteerd naar text, en
> dat wordt dan weer ingelezen met de routine die ook eerder
> geconverteerde pdf's inleest.
>
> Het is een hele verrijking zo, en een hoop minder werk voor me.
> Vooral omdat ik een 4-dvd-box  met Nederlandse teksten heb gekocht in
> pdf-formaat.
>
> mvg
> Ruud
>
> r.baars schreef:
> > Heren,
> >
> > Ik vind dit nogal cryptisch. Logisch als je er geen verstand van hebt.
> > Waar in deze reeks staat het kopiëren van de .txt-file (en dus niet de
> > pdf) naar de andere directory?
> >    de instructie
> >             /local/bin/pdftotext -f 1 -l 999 -raw $i zal de file wel
> > omzetten
> >
> >     mv $i nieuwe_dir/ zal de file (maar is dat dan niet de pdf i.p.v
> > de txt?) verplaatsen
> >
> >             en in het 2e voorbeeld mis in dan de remove ...
> > mvg
> > Ruud
> >
> > Reinier Post schreef:
> >> On Thu, Apr 24, 2008 at 06:01:57PM +0200, Bob vd Loo wrote:
> >>> zo?
> >>> for i in `ls *.pdf`; do `/local/bin/pdftotext -f 1 -l 999 -raw $i &&
> >>> mv $i nieuwe_dir/ `; done
> >>
> >> Liever
> >>
> >>   for i in *.pdf
> >>   do
> >>     pdftotext -f 1 -l 999 -raw $i && rm $i
> >>   done
> >>
> >> je bent de PDF-file dan wel echt kwijt.
> >>
> >>
> >> ------------------------------------------------------------------------
> >>
> >> _______________________________________________
> >> Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
> >> Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
> >> Juridische voorwaarden: http://opentaal.org/licentie.php
> >
> > _______________________________________________
> > Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
> > Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
> > Juridische voorwaarden: http://opentaal.org/licentie.php
>
> _______________________________________________
> Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
> Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
> Juridische voorwaarden: http://opentaal.org/licentie.php



_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

Re: scriptje

by Reinier Post :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

On Thu, Apr 24, 2008 at 07:30:11PM +0200, Bob van de Loo wrote:
> het resultaat van pdftotext gaat regelrecht naar de nieuwe map, en daarna
> wordt de pdf verwijderd mbv rm.
>
>  for i in *.pdf
>  do
>     pdftotext -f 1 -l 999 -raw $i > nieuwe_map/$i.txt && rm $i
>  done

Ruud schrijft dat het is gelukt, maar als je het bovenstaande doet
krijg je lege tekstbestanden (in elk geval bij mij) omdat pdftotext
zich niet als een standaard Unix-commando blijkt te gedragen.

Het zou moeten zijn:

  for i in *.pdf
  do
    pdftotext -f 1 -l 999 -raw $i nieuwe_map/$i.txt && rm $i
  done

(dwz. de > weglaten).

Wel weer standaard is dat je met

  pdftotext -h

uitleg kunt krijgen en met

  man pdftotext

nog veel meer.

--
Reinier
_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

Re: scriptje

by r.baars :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

Ik heb de scriptjes dan ook niet letterlijk overgenomen, maar in de for-lus afzonderlijke commano'd gezet die stuk voor stuk de gewenste actie uitvoeren.

Maar jullie vertelden wel precies het soort info wat ik nodig had. Nog bedankt daarvoor.

mvg
Ruud

Reinier Post schreef:
On Thu, Apr 24, 2008 at 07:30:11PM +0200, Bob van de Loo wrote:
  
het resultaat van pdftotext gaat regelrecht naar de nieuwe map, en daarna 
wordt de pdf verwijderd mbv rm.

 for i in *.pdf
 do
    pdftotext -f 1 -l 999 -raw $i > nieuwe_map/$i.txt && rm $i
 done
    

Ruud schrijft dat het is gelukt, maar als je het bovenstaande doet
krijg je lege tekstbestanden (in elk geval bij mij) omdat pdftotext
zich niet als een standaard Unix-commando blijkt te gedragen.

Het zou moeten zijn:

  for i in *.pdf
  do
    pdftotext -f 1 -l 999 -raw $i nieuwe_map/$i.txt && rm $i
  done

(dwz. de > weglaten).

Wel weer standaard is dat je met

  pdftotext -h

uitleg kunt krijgen en met

  man pdftotext

nog veel meer.

  


_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php