Buscar este blog

domingo, 2 de junio de 2013

Obteniendo el texto de un PDF en .Net

PdfBox es una librería que permite entre otras cosas obtener el texto de un pdf, este software es para java pero se puede usar en gracias a IKVM que permite convertir archivos de java en dlls.

El ejemplo:


using org.pdfbox.pdmodel;
using org.pdfbox.util;
using System;
 
public class GetText() {
    public string Retrieve(string fileName) {
        PDDocument doc = PDDocument.load(fileName);
        PDFTextStripper stripper = new PDFTextStripper();
        return stripper.getText(doc);
    }
}

PDFBox se puede obtener en esta página: http://www.squarepdf.net/pdfbox-in-net/

No hay comentarios:

Publicar un comentario