スキップしてメイン コンテンツに移動

投稿

7月, 2017の投稿を表示しています

「書籍において全単語の90%は20ページ目までに出てくる」のか? その3 -品詞ごとの増加傾向-

前々エントリの「書籍において全単語の90%は20ページ目までに出てくる」のか?で新出単語の増加のしかたを見たが、これはどの品詞でも同じように増えるのだろうか。品詞ごとに増加割合に違いがあって動詞や形容詞は早い段階で頭打ちになり、後半は名詞だけが増えるような状態になるのではないだろうかという気がした。もしそうなら書籍の前半数十ページに出てくる動詞や形容詞を完全に掌握することで、それ以後の読解を簡単にすることができるはずである。
 前のエントリと同じ小説の文章を使って調べてみた。
 結果、多少の違いはあるが、名詞も動詞も形容詞も副詞も小説全編に渡って新しいものが出続けることがわかった。副詞は比較的早いページでカバー率が上がりがちである。
品詞ごとのユニーク単語出現割合推移 細雪は副詞のみが先行してカバー率を上げる。
私本太平記は副詞に加え形容詞も早めにカバー率が上がる。
幼女戦記は10話あたりに新出の形容詞がたくさんあるようだ。
Re:ゼロから始める異世界生活も1章の終わりあたりに新出形容詞が多いようだ。100ページ目くらいまではどの品詞も同じようなペース。
読売新聞のサンプルデータは前半が事件、政治などのストレートニュース。社説などのコラムを挟んで文化面的な記事をくっつけてある。前半のストレートニュースは副詞が極端に少なく、中盤以降のコラムでは多用される。多くの記者のいろんな文体が混ざっているためグラフが素直な形になっていない。

「書籍において全単語の90%は20ページ目までに出てくる」のか? その2 -品詞の比率-

前エントリの「書籍において全単語の90%は20ページ目までに出てくる」のか?と同じ小説の文章を使って品詞の比率は作品ごとに特徴はあるのかを確認してみる。
 近年のWeb小説やライトノベルは一般的な小説に比べて下に見られやすいが、それを構成する単語の成分に違いはあるのだろうか。それとも印象論からの言いがかりに過ぎないのだろうか。前エントリでは単語のバリエーションに関しては大きな差がなく、新しい小説も古い小説もページ数が増えれば増えるだけユニークな単語数が増えていくことは分かった。このエントリでは作品ごとの構成する品詞の比率について違いはないのか見てみる。

 小説の新作と旧作だけではサンプルの幅がないので、現代の実用的な文章のサンプルとして新聞社のWeb配信ニュースを比較対象として加えた。小説と新聞とでは読む感じはかなり違うが、小説で身につけた読解力は新聞に通用するのか、その逆もどうなのかという疑問から追加した。 品詞の構成比率グラフ まずはユニークな単語数の比率から。例えば助詞の「の」や助動詞の「だ」は各作品で1,000回は使われるが、1,000回使われようが1個として数えている。
 聞きなれないフィラーという品詞は「ええと」「あの」「まあ」といった間に挟む言葉。

 新聞は小説に比べて名詞のバリエーションが豊富になっている。記事ごとに全く別の事柄を幅広く扱うために名詞のバリエーションが多くなるようである。逆に副詞の種類が少ない。形容詞の種類も少なめである。小説の中では幼女戦記が若干新聞よりの品詞比率になっている。他はだいたい似た傾向を示している。

 次いで単語の延べ数の比率で見てみる。こちらは助詞の「の」が1,000回使われていたら1,000個と数える。文中で何度も繰り返し使われる助詞や助動詞は比率が名詞並みに高くなる。
 これも新聞だけが大きく異なる。新聞の文章は延べの数の上でも名詞の比率がかなり高いことが分かる。文章が名詞中心に構成されているようである。この名詞の中には数詞も入っており、具体的な数値が文章中にあることも名詞比率増加の一因である。また、副詞の比率が目立って低い。文章の修飾は少なくなるように書かれているようだ。動詞は若干少なめである。
 他には私本太平記で接頭詞の比率が高いことが目立つ。

小説ごとの品詞比率の集計
細雪上巻品詞ユニーク延べ名詞4,566(65…

「書籍において全単語の90%は20ページ目までに出てくる」のか?

Hacker Newsでこんな記事を見かけた。Do 20 pages of a book give you 90% of its words? - Vocapouch
 その書籍に含まれる単語の90%は最初の20ページまでに出てくるから、そこまで頑張って読めばそれ以降は楽に読めるよというアドバイスを英語教師からこの記事の筆者は受けたそうだ。それが正しいかどうか検証してみようという記事。どこで見かけたかは忘れたけれど、日本語の本についても似たような主張を見た覚えがある。日本語でも同じ法則が成り立っているのか検証してみた。
 元の記事では
アガサ・クリスティー著「秘密機関」マーク・トゥエイン著「Eve's Diary」ジェームズ・ロイス著「ユリシーズ」 について調べられている。https://blog.vocapouch.com/do-20-pages-of-a-book-gives-you-90-of-its-words-795a405afe70から確認できる。
検証  元の記事では単語の出現の仕方については2種類のカウント方法を採用している。ひとつはUnique words、重複を除いた全単語の内、そのページまでに何%の単語が出現したかをみる。「20ページ目までに単語の90%」と見たとき自分はこっちの方法をイメージした。
 もうひとつはAll words、こちらは重複を考慮しない。例えば1000単語中100個を占める単語があったとすると、その単語が初めて出現したページでパーセンテージは10%ポンと上がる。1000単語中1回しか出ない単語が出現したページでは0.1%だけ上がるという数え方である。直感的なイメージには反する気がするが、ページ内で見覚えがある単語の率を示すという意味ではより正しいのかもしれない。
 日本語での検証には青空文庫収録作品とWeb小説の中から次の4作品を使わせてもらった。
谷崎 潤一郎著「細雪」上巻吉川 英治著「私本太平記」第一巻カルロ・ゼン著「幼女戦記」Web版 1~10話鼠色猫/長月 達平著「Re:ゼロから始める異世界生活」小説家になろう版 第一章  半世紀ほど前の重めの小説と軽めの小説、最近のライトノベルから選んでみたつもり。
 青空文庫などのデータからページ数は分からないので簡易的に545文字で1ページとした。これは「細雪」文…