スキップしてメイン コンテンツに移動

「書籍において全単語の90%は20ページ目までに出てくる」のか?


 Hacker Newsでこんな記事を見かけた。Do 20 pages of a book give you 90% of its words? - Vocapouch
 その書籍に含まれる単語の90%は最初の20ページまでに出てくるから、そこまで頑張って読めばそれ以降は楽に読めるよというアドバイスを英語教師からこの記事の筆者は受けたそうだ。それが正しいかどうか検証してみようという記事。どこで見かけたかは忘れたけれど、日本語の本についても似たような主張を見た覚えがある。日本語でも同じ法則が成り立っているのか検証してみた。
 元の記事では
について調べられている。https://blog.vocapouch.com/do-20-pages-of-a-book-gives-you-90-of-its-words-795a405afe70から確認できる。

検証

 元の記事では単語の出現の仕方については2種類のカウント方法を採用している。ひとつはUnique words、重複を除いた全単語の内、そのページまでに何%の単語が出現したかをみる。「20ページ目までに単語の90%」と見たとき自分はこっちの方法をイメージした。
 もうひとつはAll words、こちらは重複を考慮しない。例えば1000単語中100個を占める単語があったとすると、その単語が初めて出現したページでパーセンテージは10%ポンと上がる。1000単語中1回しか出ない単語が出現したページでは0.1%だけ上がるという数え方である。直感的なイメージには反する気がするが、ページ内で見覚えがある単語の率を示すという意味ではより正しいのかもしれない。
 日本語での検証には青空文庫収録作品とWeb小説の中から次の4作品を使わせてもらった。
 半世紀ほど前の重めの小説と軽めの小説、最近のライトノベルから選んでみたつもり。
 青空文庫などのデータからページ数は分からないので簡易的に545文字で1ページとした。これは「細雪」文庫版のページ数から逆算した数字。今回調べた4作品では545文字には平均して280〜308単語が含まれる。これはVocapouchが300単語を1ページと換算しているのと近い区切り方となった。
 また、句読点、カッコなどの記号は単語から除外。動詞、形容詞、形容動詞など活用する単語は原形に変換して1単語として数えた。
 文章の形態素解析にはMeCabNAIST Japanese Dictionaryを使った。区切り間違いも多く発生するがそのまま集計している。

細雪01上巻


 152652字(281ページ相当)、86333単語、6967ユニーク単語。
 一般的な長さの小説。1946年6月発行。1943年1月に連載が始まったが戦時にそぐわないとして連載は休止された。戦後すぐベストセラーとなる。会話は標準語ではなく船場の言葉で書かれている。
 「細雪」上巻のグラフをVocapouchに掲載されていたアガサ・クリスティー「秘密機関」のグラフと重ね合わせてみる。「秘密機関」のほうが前半で数多くの単語が出る。大まかに見ると同じような傾向である。


私本太平記 第一巻


 123495字(227ページ相当)、68673単語、8374ユニーク単語。227ページ相当と書いたが、講談社から出ている文庫版は478ページある。1ページあたりの文字数が少なめになっているようだ。
 吉川英治の歴史小説で1958年1月から新聞に連載されたと言う。構えず気楽に読める文章。
 「細雪」上巻に比べると短いにもかかわらず使われる単語の種類が多い。また、後半になっても新出単語が多い。

幼女戦記1-10話


 98754字(182ページ相当)、51672単語、5805ユニーク単語。単語数は本文以外の作者のコメントも込み。
 2011年から小説投稿サイトArcadiaにて連載された。2013年10月エンターブレインより刊行。出版形態はライトノベルではない。
上記作品に比べると平均の単語の長さがちょっと長め。細雪が1単語1.8文字、幼女戦記が1.9文字。

Re:ゼロから始める異世界生活 第一章


 153294字(282ページ相当)、78789単語、7489ユニーク単語。
 2012年4月から小説投稿サイト小説家になろうで連載開始。2014年1月MF文庫Jより刊行。

結論

 日本語の小説も英語の小説とほぼ同じ傾向が見られた。
 全単語の90%は20ページ目までに出てくるかと言えばそのようなことはなく、長くても短くても、最後までほぼ一定のペースで新しい単語は出現し続ける。
 かと言って20ページまで我慢して読んでも後が楽にならないかと言うとそうでもない。グラフの青いラインを見ると分かるように頻出単語は前半で既に出現するので20ページも読むと文中の80%の単語は既に見たことのあるものとなる。

ページの既出単語割合直接算出

 ここまではVocapouchと同じ数え方でグラフを書いてみたが、各々のページごとに既出単語の割合を見たほうが分かりやすい気がする。そのグラフを最後に掲載しておく。
 先程書いたように1ページは約300単語なので、新出単語1単語現れるごとに約0.3%、3単語で約1%値が動くと考えて見るといい。

細雪01上巻

 50ページを過ぎるとだいたい90%は見覚えのある単語になる。後半はページ内に新出単語は10~20単語となる。

私本太平記 第一巻

細雪に比べると既出単語割合の増え方が遅い。

幼女戦記1-10話


既出単語が80%を超えるのがかなり遅い。

Re:ゼロから始める異世界生活 第一章


既出単語数が90%を越えてくるのが最も遅いが、一旦越えてしまえば新出単語はかなり少なめ。

コメント