PDFテキスト整形ツール

arXiv等の英語論文をコピペした時のテキストを機械翻訳に優しい形に自動整形します

DeepLで翻訳 Googleで翻訳

処理内容:リストやピリオドを考慮しつつなるべく良い感じにします。不具合やリクエストはこちらにどうぞ

  1. 先頭が大文字の単語の場合は前の行を改行 (前の行の最後の文字が記号の場合は例外("(a) Foo" の(a)で切れているような時), 前の文が5単語以上の文章の場合も例外)
  2. 先頭が記号や番号付きの箇条書きの場合は前の行を改行(•, 1., 2., [1], [2])
  3. ピリオドで終わる場合は段落と判断して改行
  4. 先頭がピリオドの場合は前の行とそのまま繋げる (数式で見られる問題への対応)
  5. 空行の場合は段落と判断して改行
  6. その他の場合は改行せずにスペースで接続する