言語商会

言語商会旧研究室SNOW

SNOW T23:やさしい日本語拡張コーパス

Name in English

  • SNOW T23: Crowdsourced Corpus of Sentence Simplification with Core Vocabulary

Reference in English

  • Akihiro Katsuta and Kazuhide Yamamoto. Crowdsourced Corpus of Sentence Simplification with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.461-466 (2018.5)

内容

  • SNOW T15:やさしい日本語コーパスを参考にして、新たに3万5千文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。
    • クラウドソーシングで集めた7名がすべて人手で書き換えました。
      • 各作業者が5,000文を書き換え、その内の100文は作業者間で共通の文を書き換えてもらいました。
      • 各作業者で作業量にばらつきが出にくいように平均文長を極力揃えました。
  • ここで言う「やさしい日本語」とは、我々が独自に定義したUniDic単語体系の2,000語です。
    • 詳しくはやさしい日本語の解説ページをご覧ください。
  • テキストは以下の条件を満たす田中コーパスの文から無作為抽出しています。

ダウンロード

    • 2020/1/7 対応のおかしかった下記の行(Ab_101, Ab_519, Ab_721, Ab_2238, Ab_3280, Ab_4095, Ab_4832, Ac_87, Ah_1238, Ah_1426, Ah_2410, Ah_2450, Ah_2650, Ah_2651, Ah_2975, Ah_2976, Ah_4243, Ah_4632, Ak_1454, Ak_2089, Ak_2154, Ak_2321, Ak_4686, Al_1311, Al_1723, Al_2780, Al_3737, Al_3796, Al_3860, Al_4024) について修正を行いました。ご指摘ありがとうございました。
    • 2019/7/2 公開
  • ID:日本語(原文):やさしい日本語:英語(原文):固有名詞 のデータが入っています。
    • IDは作業者_番号 共通の文は、eval_番号 で管理しています。
    • 固有名詞は作業者が固有名詞として抽出した単語です。
      • 固有名詞は書き換えないように指示をしており、固有名詞の判断は作業者に任せています。
    • 4,900文と共通の100文でそれぞれシートを分けています。

利用制限・免責事項

発表文献

  • [1] Akihiro Katsuta and Kazuhide Yamamoto. Crowdsourced Corpus of Sentence Simplification with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.461-466 (2018.5)

フィードバック

  • 本公開に対する責任はすべて山本にあります。
  • 本公開に関するあらゆるご意見・苦情・ご感想は山本にお送りください。
 (感想・要望・情報提供)