スキップしてメイン コンテンツに移動

投稿

「書籍において全単語の90%は20ページ目までに出てくる」のか? その2の参考 -副詞など品詞ごとの頻出単語-

その2で品詞の比率を見たが、各品詞で具体的にどういう単語が使われているかを確認する。その2を見て具体的にどんな単語が使われているんだ?と疑問に感じた人用のデータ。特に何か結論があるわけではないが、どの作品でもよく使われる副詞や助詞が同じなのか、異なっているのか確認できる。

 よく使われる副詞を眺めてみると、その作品の空気が割と再現されている気がする。
頻出する副詞細雪 上巻私本太平記幼女戦記Re:ゼロ読売新聞単語度数単語度数単語度数単語度数単語度数そう316まだ87そう78そう114さらに11又114もう83実に48どう59初めて10もう97すぐ69どう44まだ45どう8どう85そう62なにしろ39もう40いつも7まだ76又56本当に32ちょっと35次々7よく69やがて49まあ31初めて32特に7ちょっと67どう45何故28かなり29よく6いつも55よく43全く28さらに24まず5こう48ふと33当然24なんで20最も5まあ45つい32要するに24わずか20あまり4ああ30もし30すでに22思わず20かなり4きっと25すでに29はっきり20たぶん19しっかり4つい24こう24極めて20げに18そう4却って24なぜ23ともかく19どうにか17ちょっと4暫く24ついに21まだ17そろそろ16もう4決して24きっと19あまりに16とりあえず16少し4少し23さらに19最も15ふと16改めて4時々23やっと18もちろん14まさか16ちょうど3ほんとうに21ぜひ17よく14もっと16とても3ほんに21はや17少なくとも14もはや16より3直ぐ21かつて16なんと13改めて16先ず20どうして16やはり13すでに15じつは15一応13少し15まず15
助詞は「の」とてにおはが上位を占める。作品により順位は若干異なる。
頻出する助詞細雪 上巻私本太平記幼女戦記Re:ゼロ読売新聞単語度数単語度数単語度数単語度数単語度数て(接続助詞)4143の(連体化)3888は(係助詞)2017の(連体化)3467の(連体化)1259の(連体化)3432は(係助詞)2787の(連体化)1696を(格助詞)3056を(格助詞)879に(格助詞)3076に(格助詞)2110に(格助詞)1521は(係助詞)2680に(格助詞)770は(係助詞)2711て(接続助詞)2022を(格助詞)1485に(格…

「書籍において全単語の90%は20ページ目までに出てくる」のか? その4 -小説間に共通して出現する単語の割合-

1冊の本の何ページ目まで読めば見覚えのある単語ばかりになって以後楽に読むことができるのかという疑問から始めた検証だったが、ある1冊の本を読み終えたらまた別の本を紐解いた時に前の本で見知った単語ばかりになって楽に読めるのだろうか? それともそこにはまた別の知らない単語ばかりが並んでいて1から努力のやり直しになるのだろうか?
 それを調べるために小説の作品間で共通する単語はどれくらいあるかという基準で比べてみた。ついでに新聞と小説でどれくらい共通しているのかもみてみる。

比較元小説に比較先小説に存在する単語が含まれる割合比較元\比較先細雪 上巻私本太平記かんかん虫幼女戦記Re:ゼロ読売新聞細雪上巻37%34%27%35%21%私本太平記 第一巻31%31%24%30%17%かんかん虫は唄う38%42%28%36%21%幼女戦記 1-10話33%34%30%47%30%Re:ゼロから始める異世界生活 第一章32%34%30%36%23%読売新聞 Web版2017年7月14日31%30%27%37%37%
 どの小説間でも共通する単語は20%〜50%である。1冊の単語をすべて理解したとしても別の本に臨むときは知らない単語に出くわす覚悟が必要そうである。
 書かれた時代が近い作品は共通する単語が増え、時代が異なる作品では共通する単語が若干少なめとなったがサンプル数が少ないので結論は出せない。
 新聞は新し目の2作品との間で共通する単語が若干多い。
 同一作者の作品間でどうなっているかを見るために吉川英治の「かんかん虫は唄う」を比較対象として追加した。同作者の「私本太平記」との間で共通する単語の割合は少し高めとなった。

「書籍において全単語の90%は20ページ目までに出てくる」のか? その3 -品詞ごとの増加傾向-

前々エントリの「書籍において全単語の90%は20ページ目までに出てくる」のか?で新出単語の増加のしかたを見たが、これはどの品詞でも同じように増えるのだろうか。品詞ごとに増加割合に違いがあって動詞や形容詞は早い段階で頭打ちになり、後半は名詞だけが増えるような状態になるのではないだろうかという気がした。もしそうなら書籍の前半数十ページに出てくる動詞や形容詞を完全に掌握することで、それ以後の読解を簡単にすることができるはずである。
 前のエントリと同じ小説の文章を使って調べてみた。
 結果、多少の違いはあるが、名詞も動詞も形容詞も副詞も小説全編に渡って新しいものが出続けることがわかった。副詞は比較的早いページでカバー率が上がりがちである。
品詞ごとのユニーク単語出現割合推移 細雪は副詞のみが先行してカバー率を上げる。
私本太平記は副詞に加え形容詞も早めにカバー率が上がる。
幼女戦記は10話あたりに新出の形容詞がたくさんあるようだ。
Re:ゼロから始める異世界生活も1章の終わりあたりに新出形容詞が多いようだ。100ページ目くらいまではどの品詞も同じようなペース。
読売新聞のサンプルデータは前半が事件、政治などのストレートニュース。社説などのコラムを挟んで文化面的な記事をくっつけてある。前半のストレートニュースは副詞が極端に少なく、中盤以降のコラムでは多用される。多くの記者のいろんな文体が混ざっているためグラフが素直な形になっていない。

「書籍において全単語の90%は20ページ目までに出てくる」のか? その2 -品詞の比率-

前エントリの「書籍において全単語の90%は20ページ目までに出てくる」のか?と同じ小説の文章を使って品詞の比率は作品ごとに特徴はあるのかを確認してみる。
 近年のWeb小説やライトノベルは一般的な小説に比べて下に見られやすいが、それを構成する単語の成分に違いはあるのだろうか。それとも印象論からの言いがかりに過ぎないのだろうか。前エントリでは単語のバリエーションに関しては大きな差がなく、新しい小説も古い小説もページ数が増えれば増えるだけユニークな単語数が増えていくことは分かった。このエントリでは作品ごとの構成する品詞の比率について違いはないのか見てみる。

 小説の新作と旧作だけではサンプルの幅がないので、現代の実用的な文章のサンプルとして新聞社のWeb配信ニュースを比較対象として加えた。小説と新聞とでは読む感じはかなり違うが、小説で身につけた読解力は新聞に通用するのか、その逆もどうなのかという疑問から追加した。 品詞の構成比率グラフ まずはユニークな単語数の比率から。例えば助詞の「の」や助動詞の「だ」は各作品で1,000回は使われるが、1,000回使われようが1個として数えている。
 聞きなれないフィラーという品詞は「ええと」「あの」「まあ」といった間に挟む言葉。

 新聞は小説に比べて名詞のバリエーションが豊富になっている。記事ごとに全く別の事柄を幅広く扱うために名詞のバリエーションが多くなるようである。逆に副詞の種類が少ない。形容詞の種類も少なめである。小説の中では幼女戦記が若干新聞よりの品詞比率になっている。他はだいたい似た傾向を示している。

 次いで単語の延べ数の比率で見てみる。こちらは助詞の「の」が1,000回使われていたら1,000個と数える。文中で何度も繰り返し使われる助詞や助動詞は比率が名詞並みに高くなる。
 これも新聞だけが大きく異なる。新聞の文章は延べの数の上でも名詞の比率がかなり高いことが分かる。文章が名詞中心に構成されているようである。この名詞の中には数詞も入っており、具体的な数値が文章中にあることも名詞比率増加の一因である。また、副詞の比率が目立って低い。文章の修飾は少なくなるように書かれているようだ。動詞は若干少なめである。
 他には私本太平記で接頭詞の比率が高いことが目立つ。

小説ごとの品詞比率の集計
細雪上巻品詞ユニーク延べ名詞4,566(65…

「書籍において全単語の90%は20ページ目までに出てくる」のか?

Hacker Newsでこんな記事を見かけた。Do 20 pages of a book give you 90% of its words? - Vocapouch
 その書籍に含まれる単語の90%は最初の20ページまでに出てくるから、そこまで頑張って読めばそれ以降は楽に読めるよというアドバイスを英語教師からこの記事の筆者は受けたそうだ。それが正しいかどうか検証してみようという記事。どこで見かけたかは忘れたけれど、日本語の本についても似たような主張を見た覚えがある。日本語でも同じ法則が成り立っているのか検証してみた。
 元の記事では
アガサ・クリスティー著「秘密機関」マーク・トゥエイン著「Eve's Diary」ジェームズ・ロイス著「ユリシーズ」 について調べられている。https://blog.vocapouch.com/do-20-pages-of-a-book-gives-you-90-of-its-words-795a405afe70から確認できる。
検証  元の記事では単語の出現の仕方については2種類のカウント方法を採用している。ひとつはUnique words、重複を除いた全単語の内、そのページまでに何%の単語が出現したかをみる。「20ページ目までに単語の90%」と見たとき自分はこっちの方法をイメージした。
 もうひとつはAll words、こちらは重複を考慮しない。例えば1000単語中100個を占める単語があったとすると、その単語が初めて出現したページでパーセンテージは10%ポンと上がる。1000単語中1回しか出ない単語が出現したページでは0.1%だけ上がるという数え方である。直感的なイメージには反する気がするが、ページ内で見覚えがある単語の率を示すという意味ではより正しいのかもしれない。
 日本語での検証には青空文庫収録作品とWeb小説の中から次の4作品を使わせてもらった。
谷崎 潤一郎著「細雪」上巻吉川 英治著「私本太平記」第一巻カルロ・ゼン著「幼女戦記」Web版 1~10話鼠色猫/長月 達平著「Re:ゼロから始める異世界生活」小説家になろう版 第一章  半世紀ほど前の重めの小説と軽めの小説、最近のライトノベルから選んでみたつもり。
 青空文庫などのデータからページ数は分からないので簡易的に545文字で1ページとした。これは「細雪」文…

標識というのは倒れるものなのか

近所の交通標識が根本から折れて倒れていた。ポールに凹みや折れ曲がりはないので、車が正面から衝突したわけではなさそう。ポールの地面付近はかなり錆びていて、ここ数日の強風で折れてしまったのかもしれない。人が寄りかかって折れた可能性すらありそう。よく見ると根本から1mと数十cmの高さに塗料のハゲも見られた。大型車が側面で軽く擦って行った可能性もあるのかもしれない。

ホタル

野村のあたり、また田んぼが埋められて駐車場が増えていた。
ホタルが光っていた。ホタルというと夏のイメージがあるけれど、自分が見かけるのはいつも6月の梅雨の時期であるような気がする。幅1m前後のちょっと太めの用水路によくいる。