論文PDF解析ツール PDFNLT

PDFNLTは、論文のPDFデータを解析し、ページ・ブロック・パラグラフ・センテンス・単語という階層構造を持ったXHTMLデータに変換するシステムです。本システム開発の一部を国立情報学研究所様よりご発注いただき、約3年かけて性能改善や機能拡張を行いました。2018年5月よりMITライセンスで一般公開されています。

特徴

PDFを解析してテキストやXMLに変換するシステムはこれまでにもいくつか公開されています。しかし、汎用ツールとして設計されているため、特殊な構造を持つ論文フォーマットに合わせてカスタマイズしたり、英語以外に対応することが困難です。PDFNLT は比較的少数の正解データから機械学習によって解析モデルを作成できるため、論文フォーマットや言語に合わせることができます。

また、XHTML では各単語に固有IDと元の PDF 上の座標を格納しています。そのため、 XHTML のテキストに自然言語処理手法を適用してマークアップを行った結果を、PDF 上のアノテーションとして可視化することにも用いることができます。

技術

機械学習手法としては CRFsuite を利用しています。