PDFテキスト整形&翻訳

arXiv等の英語論文をコピペした時のテキストを機械翻訳に優しい形に整形してDeepLで翻訳します。

DeepLで翻訳 Googleで翻訳

このサイトでは入力データは保存しませんがDeepLで自動翻訳をする場合はDeepLに整形済みデータが送信されます

処理内容:リストやピリオドを考慮しつつなるべく良い感じにします。不具合やリクエストはこちらにどうぞ

  1. 先頭が大文字の単語の場合は前の行を改行 (前の行の最後の文字が記号の場合は例外("(a) Foo" の(a)で切れているような時), 前の文が5単語以上の文章の場合も例外)
  2. 先頭が記号や番号付きの箇条書きの場合は前の行を改行(•, 1., 2., [1], [2])
  3. ピリオドで終わる場合は段落と判断して改行
  4. 先頭がピリオドの場合は前の行とそのまま繋げる (数式で見られる問題への対応)
  5. 空行の場合は段落と判断して改行
  6. その他の場合は改行せずにスペースで接続する

更新履歴

  • 2022/06/14 URI に使用される文字を使った場合に以降の文字列が切れてしまう問題を修正しました。報告頂いた方ありがとうございます