Indexation de document PDF, Word, Excel et Powerpoint

Discussion dans 'Hébergements Mutualisés' démarrée par Elsilbador, Nov 8, 2012.

  1. Elsilbador

    Elsilbador New Member

    Bonjour,
    Je souhaiterai savoir si les librairies suivantes pdftotext, catdoc, xls2csv, ppthtml qui me permettraient d'extraire le contenu texte des documents de type PDF, Word, Excel ou Powerpoint, sont installées sur les distribution Linux de vos serveurs mutualisés ? Et sinon, est-il possible que vous les installiez ?
    Vos suggestions pour l'utilisation d'une autre éventuelle solution sont les bienvenues !
    Merci
     
  2. pierre_kuhn

    pierre_kuhn New Member

    Bonsoir

    On peut regarder cela effectivement, un collègue plus pointu te répondra dans la soirée.
     
  3. Elsilbador

    Elsilbador New Member

  4. Elsilbador

    Elsilbador New Member

    Bonjour,

    Il y a également une autre solution pour indexer le contenu de ces documents via un toolkit JAVA nommé APACHE TIKA. Proposez-vous des solutions mutualisés qui nous permettraient d'avoir recours à une classe Java pour cette indexation.
    Merci
     
  5. Elsilbador

    Elsilbador New Member

    Marchine virtuelle Java sur hébergement mutualisé

    Une machine virtuelle java (JVM) suffirait, nous avons uniquement besoin de lancer un .jar
     
  6. F0rum

    F0rum New Member

    Bonjour,

    J'aimerais aussi utiliser pdftotext afin de récupérer le texte des fichiers pdf, j'ai testé en copiant pdftotext dans le cgi-bin et en l’appelant d'un script en php mais cela ne fonctionne pas.

    Quelle est la solution ? ( je précise que je suis sur un serveur mutualisé )

    Merci.
     
  7. lxwfr

    lxwfr New Member

    pas possible en Mutualisé mais un VPS son autorisé
     

Partager cette page