| xdoc2txt − PDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出 |
xdoc2txt.exe [-s|-e|-j][-c][-f][-p][-n][-r=(0|1|2)] <filename...> -h ヘルプの表示 -s 出力のエンコードはShiftJIS(デフォルト) -j 出力のエンコードはJIS -s 出力のエンコードはEUC -c PDFキャッシュ on(デフォルトはoff) -f 変換結果をファイルに出力。デフォルトでは標準出力に出力 -p OLE2複合文書の場合、文書プロパティを表示(Office、一太郎で有効) -n PDF文書のアクセス権限の設定を無視(cryptlib.dllが必要) -r= HTML文書のルビの変換 -r=0 ルビ削除 -r=1 () -r=2 《》青空文庫形式 -o= その他のオプション -o=0 PDFで -- ? -- の形式のページ番号を表示しない -o=1 PDFで改行を削除(縦書きで1字毎に改行される場合に使用) -g=# PDFの字間調整オプション(省略値は92) # は0以上の百分率(60%の場合、-g=60と指定) 字間が、文字高*(#/100) 以上開くと、空いているとみなして空白を出力 |
| .rtf | リッチテキスト |
| .docx | Microsoft WORD 2007(OOXML) |
| .xlsx | Microsoft Excel 2007(OOXML) |
| .pptx | Microsoft PowerPoint 2007(OOXML) |
| .doc | Microsoft WORD ver5.0/95/97/2000/XP/2003 |
| .xls | Microsoft Excel ver5.0/95/97/2000/XP/2003 |
| .ppt | Microsoft PowerPoint 97/2000/XP/2003 |
| .sxw/.sxc/.sxi/.sxd | OpenOffice.org |
| .odt/.ods/.odp/.odg | Open Document |
| .jaw/jtw | 一太郎 ver5 |
| .jbw/juw | 一太郎 ver6 |
| .jfw/jvw | 一太郎 ver7 |
| .jtd/jtt | 一太郎 ver8/9/10/11/12 |
| .oas/oa2/oa3 | OASYS/Win |
| .bun | 新松/松5/松6 |
| .wj2/wj3/wk3/wk4/123 | Lotus 123 |
| .wri | Windows3.1 Write |
| Adobe PDF | |
| .mht | Webアーカイブ |
| .html | HTML |
| .eml | OutlookExpressのエクスポート形式 |
次のように出力先をリダイレクトすることで、ファイルに保存することもでき ます。
xdoc2txt sample.doc
-f オプションを付けると、出力先をファイルに変更できます。拡張子は自動的に.txt になります。
xdoc2txt sample.doc > sample.txt
ワイルドカード * ? が使用できるため、複数のファイルを一括してテキスト化するこ とが出来ます。
xdoc2txt -f sample.doc sample.xls
Office文書や一太郎文書(Ver8以降)の場合、-p オプションで文書プロパティを表示できます。プロパティは設定された項目のみ表示されます。
xdoc2txt -f *.xls
xdoc2txt -p マニュアル.doc 【実行結果】 <Title>KWIC Finderマニュアル</Title> <Author>hishida</Author> <Template>Normal.dot</Template> <LastAuthor>hishida</LastAuthor> <RevisionNumber>1</RevisionNumber> <AppName>Microsoft Word 9.0</AppName> <Lastprinted>2004/03/23 19:39:00</Lastprinted> <Created>2004/03/23 19:35:00</Created> <LastSaved>2004/03/23 19:44:00</LastSaved> <PageCount>1</PageCount> <WordCount>21</WordCount> <CharCount>121</CharCount>
xdoc2txtは下記の環境で動作します。
| Windows 95/98/ME/NT4.0/2000/XP/Vista/Server 2003 |
xdoc2txt 商用ライセンス(2007/5/24版)
| 名称 | 種別 | ジャンル | URL | 同梱 |
|---|---|---|---|---|
| GoogleXdoc (GoogleDeskTopにxdoc2txtを組み込むPlugIn) |
free | 全文検索 |
http://softfarm.net/ ソフトファーム |
○ |
| Namazu for Win32 | free | 全文検索 |
xdoc2txtを利用した文書フィルターのサンプル(by a.hanai氏) 全文検索システム Namazu for Win32 |
|
| Hyper Estraier | free | 全文検索 | http://hyperestraier.sourceforge.net/ | ○ |
| Meadow2 | free | エディタ |
http://www.bookshelf.jp/pukiwiki/pukiwiki.php?Meadow%20memo%20Wiki Meadow memo Wiki |
○ |
| MiGrep | free | 検索 |
http://homepage3.nifty.com/m-and-i/freetalk/upload/index.html M&Iのページ | |
| VxEditor | free | エディタ |
http://homepage3.nifty.com/x-labo/ X-Labo WebPage |
○ |
| smoopy | free | テキスト縦書きビューア | http://www.vector.co.jp/soft/win95/util/se263229.html | |
| Transwise | free | 翻訳支援 |
http://www6.ocn.ne.jp/~vmel/software/Transwise/Transwise.htm |
|
| EBView | free | 辞書・テキスト検索 | http://ebview.sourceforge.net/ | |
| サーチクロス | 製品 | 全文検索 |
http://www.villagecenter.co.jp/soft/searchx/ ビレッジセンター(株) |
※xdoc2txtをフィルタとして利用できるソフトウェアのうち、作者が把握しているもの。
|