xdoc2txt − PDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出
概要| ダウンロード| 動作環境| 著作権・利用条件について| フィルタ活用事例| 履歴|

xdoc2txt

■ 概要

xdoc2txt.exe [-s|-e|-j][-c][-f][-p][-n][-r=(0|1|2)] <filename...>
	-h	ヘルプの表示
	-s	出力のエンコードはShiftJIS(デフォルト)
	-j	出力のエンコードはJIS
	-s	出力のエンコードはEUC
	-c	PDFキャッシュ on(デフォルトはoff)
	-f	変換結果をファイルに出力。デフォルトでは標準出力に出力
	-p	OLE2複合文書の場合、文書プロパティを表示(Office、一太郎で有効)
	-n	PDF文書のアクセス権限の設定を無視(cryptlib.dllが必要)
	-r=	HTML文書のルビの変換
		-r=0	ルビ削除
		-r=1	()
		-r=2	《》青空文庫形式
	-o=	その他のオプション
		-o=0	PDFで -- ? -- の形式のページ番号を表示しない
		-o=1	PDFで改行を削除(縦書きで1字毎に改行される場合に使用)
	-g=#	PDFの字間調整オプション(省略値は92)
		# は0以上の百分率(60%の場合、-g=60と指定)
		字間が、文字高*(#/100) 以上開くと、空いているとみなして空白を出力
  • -g=0 字間調整をしない -g=60 文字高の60%以上開くと、字間が空いているとみなす -v バージョン番号表示 -x EXCEL2007で存在するセルのみ表示(xdoc2txt 1.33以降) <filename> 変換元のファイル名。ワイルドカード文字(* ?)が使用可。 ※空白を含むファイル名の場合、""で囲ってください。
  • ■ ダウンロード

    ■ 動作環境

    xdoc2txtは下記の環境で動作します。

    Windows 95/98/ME/NT4.0/2000/XP/Vista/Server 2003

    ■ 著作権・利用条件について

    ■ フィルタ活用事例

    名称 種別 ジャンル URL 同梱
    GoogleXdoc
    (GoogleDeskTopにxdoc2txtを組み込むPlugIn)
    free 全文検索 http://softfarm.net/
    ソフトファーム
    Namazu for Win32 free 全文検索

    xdoc2txtを利用した文書フィルターのサンプル(by a.hanai氏)
    http://www.geocities.co.jp/SiliconValley-Oakland/8718/namazu/

    全文検索システム Namazu for Win32
    http://www.namazu.org/windows/

     
    Hyper Estraier free 全文検索 http://hyperestraier.sourceforge.net/
    Meadow2 free エディタ http://www.bookshelf.jp/pukiwiki/pukiwiki.php?Meadow%20memo%20Wiki
    Meadow memo Wiki
    MiGrep free 検索 http://homepage3.nifty.com/m-and-i/freetalk/upload/index.html
    M&Iのページ
     
    VxEditor free エディタ http://homepage3.nifty.com/x-labo/
    X-Labo WebPage
    smoopy free テキスト縦書きビューア http://www.vector.co.jp/soft/win95/util/se263229.html  
    Transwise free 翻訳支援 http://www6.ocn.ne.jp/~vmel/software/Transwise/Transwise.htm
     
    EBView free 辞書・テキスト検索 http://ebview.sourceforge.net/  
    サーチクロス 製品 全文検索 http://www.villagecenter.co.jp/soft/searchx/
    ビレッジセンター(株)
     

    ※xdoc2txtをフィルタとして利用できるソフトウェアのうち、作者が把握しているもの。

    ■ 履歴

    1.37 2010/05/16
    • 一部のPDF writer(Brava!Desktop)で出力したPDFが文字化けする問題に対処
    • EXCELのテキストボックスでごみが入るケースを修正
    1.36 2010/01/09
    • EUCエンコードのPDFが文字化けする問題を修正
    1.35 2009/08/28
    • 空のOffice2007文書に対応
    1.34 2009/06/22
    • パスワード付のOffice2007文書は"encrypted file."と表示するようにする。
    • 本バージョンからzlib.dllは不要(静的リンクに変更)
    1.33 2009/06/07
    • 破損したPDFで異常終了するケースを修正
    • パスワード付のOpenOffice文書で文字化けする問題を修正("encrypted file."と表示する)
    • シート数や行数が極端に多いExcel2007文書で異常終了するケースを修正。
    • -x オプション追加。EXCEL2007で存在するセルのみ表示
    1.32 2008/12/01
    • 破損したPDFで無限ループになるケースがあるのを修正
    • Acrobat7.0以降の、128bit AESで暗号化されたPDFの読み取り対応(cryptlib.dllの導入が必要)
    1.31 2008/11/05
    • 破損したOffice2007ファイルで文字化けする問題を修正。
    • Excel2007でシート数が100付近を超えると異常終了する問題を修正
    1.30 R2 2008/08/18
    • AtiveX版 xdoc2txt.ocx を追加。配布条件はexe版と同じ。
    1.30 2008/05/22
    • -p オプション:Office文書のプロパティ表示に「会社名」「分類」「管理者名」を追加
    1.29 2008/05/18
    • Acrobat以外のPDF作成ソフトで作成されたPDFファイルで異常終了する場合がある問題を修正
    • サイズが0バイトのPDFで異常終了する問題を修正
    1.28 2008/03/18
    • PDFMaker8.1で作成されたPDFに対応
    1.27 2008/01/24
    • 入力ファイルのパス名が256バイトを超えると "error in ファイル名"と表示されて処理できない問題を修正
    1.26a 2007/10/21
    • 改行が0x0D,0x0AでないHTMLでバッファオーバーランのケースがあるのを修正
    1.26 2007/05/11
    • Microsoft Office Excel2007 で列の一部が表示されないbug修正
    • PDFに関するbug修正2件(表示漏れ、異常終了対策)
    1.25 2007/02/28
    • Microsoft Wordで差込フィールド名の表示に対応
    1.24 2007/02/18
    • Microsoft Office Word2007/Excel2007/PowerPoint2007,OpenOffice.org,Open Documentに対応
    • EXCELで1E+275 のように大きな桁数の数字を使用すると異常終了するbug修正。
    1.23 2006/08/29
    • AntenaHouse PDF Driver2.0 で作成されたPDFからテキスト抽出できない問題に対応
      (PDF1.5以降のCross-Reference Streamsに対応)
    • PDFによって、ファイルの最後までテキスト抽出できない場合があった問題を修正
    1.22 2006/05/28
    • PDFのエンコードによって‘’“”が文字化けするbug修正
    - 2006/05/10
    • 商用利用の利用条件変更
    1.21 2006/05/08
    • 一太郎Ver6のパスワード付文書を検索するとメモリ不足になるbug修正
    1.20 2006/02/17
    • PDFでUnicodeマッピングのリガチャ(ff,fi等)に対応
    1.19 2006/02/08
    • PDFでバッファオーバーランの予防的修正
    1.18 2006/02/04
    • PowerPoint95対応
    • EXCELで行の内容がすべて表示されないことがあるbug修正
    1.17 2005/09/19
    • PDFの字間調整パラメータ -g を追加
    1.16 2005/05/02
    • PDFでサポートするCMAPの種類に /H /V を追加(JISエンコーディング)
    • PDFで巨大な図形が/FlateDecodeで圧縮されている場合、メモリ確保に失敗するbugを修正
    • PDFのオプション追加
      -o=0 PDFで -- ? -- の形式のページ番号を表示しない
      -o=1 PDFで改行を削除(縦書きで1字毎に改行される場合)
    • HTMLのルビの出力オプション
      -r=0 なし
      -r=1 ()
      -r=2 《》青空文庫形式
    • HTMLのテキスト化でタグ直後の空白が消えるbugを修正
    1.15 2005/04/23
    • Acrobat4で作成したPDFで一部テキスト化できないケースを修正
    • Acrobatで一度でもスタンプを付けたPDFがテキスト化できないbugを修正
    1.14 2005/01/31
    • Justsystem PDF Creator で作成したPDFで異常終了するbug修正
    • 画像のみでテキストのないPDFで異常終了するケースのあるbug修正
    1.13 2004/05/30
    • PDFの字間の計算を調整
    • WK4(123)で異常終了するケースがあるbug修正
    1.12 2004/05/05
    • PDF文書のアクセス権限の設定を無視するオプション(-n)
    • PDFで半角のCIDが表示されないbug修正
    • 標準出力に出力したとき、余分な改行が表示されるbug修正
    1.11 2004/04/04
    • パスワード無しで暗号化されたPDF対応(128bit暗号まで)。 ただし別途 cryptlib.dll をダウンロードする必要有り
    • 「easyPDF 3.1」「Jaws PDF Creator」で作成したPDFに対応
    • 一太郎V7以降でタブ文字が削除される問題に対処
    • -p オプションを追加。Office文書のプロパティを表示
    1.10 2004/03/13
    • OpenOffice.org.1.1で作成したPDFに対応
    1.09 2004/02/25
    • ActiveReports 2.0J で出力したPDFに対応
    • 特定のPDFで異常終了するbug修正
    1.08 2004/01/28
    • EXCELの計算式の結果文字列に全角"±×÷"が現れた場合、半角カナに文字化けするbug修正
    • 余分な改行の除去
    1.07 2004/01/26
    • Word、EXCEL、PowerPointで全角の"±×÷"が半角カナに文字化けする場合があるbug修正
    2004/01/18
    • 「著作権・利用条件について」を明文化する。
    1.06 2003/11/09
    • ワードパッドで保存したRTFの1行目が表示されないbug修正
    • 拡張子が.docのOLE文書でWord文書が含まれない場合、異常終了するbug修正
    1.05 2003/07/15
    • Acrobat6.0で作成したPDFの表示対応
    1.04 2003/03/26
    • 日本語PDFの字間の計算の改良
    1.03 2002/11/23
    • UnicodeエンコーディングのPDF対応
    1.02 2002/10/18
    • mht/htmlに対応
    1.01 2002/9/9
    • -cオプション追加
    1.00 2002/7/8
    • KWIC Finderからテキスト抽出部分を分離し、フィルタとして公開。

    ©2002-2003 hishida
    Go to Home