スキップしてメイン コンテンツに移動

投稿

8月, 2017の投稿を表示しています

「書籍において全単語の90%は20ページ目までに出てくる」のか? その2の参考 -副詞など品詞ごとの頻出単語-

  その2 で品詞の比率を見たが、各品詞で具体的にどういう単語が使われているかを確認する。 その2 を見て具体的にどんな単語が使われているんだ?と疑問に感じた人用のデータ。特に何か結論があるわけではないが、どの作品でもよく使われる副詞や助詞が同じなのか、異なっているのか確認できる。  よく使われる副詞を眺めてみると、その作品の空気が割と再現されている気がする。 頻出する副詞 細雪 上巻 私本太平記 幼女戦記 Re:ゼロ 読売新聞 単語 度数 単語 度数 単語 度数 単語 度数 単語 度数 そう 316 まだ 87 そう 78 そう 114 さらに 11 又 114 もう 83 実に 48 どう 59 初めて 10 もう 97 すぐ 69 どう 44 まだ 45 どう 8 どう 85 そう 62 なにしろ 39 もう 40 いつも 7 まだ 76 又 56 本当に 32 ちょっと 35 次々 7 よく 69 やがて 49 まあ 31 初めて 32 特に 7 ちょっと 67 どう 45 何故 28 かなり 29 よく 6 いつも 55 よく 43 全く 28 さらに 24 まず 5 こう 48 ふと 33 当然 24 なんで 20 最も 5 まあ 45 つい 32 要するに 24 わずか 20 あまり 4 ああ 30 もし 30 すでに 22 思わず 20 かなり 4 きっと 25 すでに 29 はっきり 20 たぶん 19 しっかり 4 つい 24 こう 24 極めて 20 げに 18 そう 4 却って 24 なぜ 23 ともかく 19 どうにか 17 ちょっと 4 暫く 24 ついに 21 まだ 17 そろそろ 16 もう 4 決して 24 きっと 19 あまりに 16 とりあえず 16 少し 4 少し 23 さら...

「書籍において全単語の90%は20ページ目までに出てくる」のか? その4 -小説間に共通して出現する単語の割合-

 1冊の本の何ページ目まで読めば見覚えのある単語ばかりになって以後楽に読むことができるのかという疑問から始めた検証だったが、ある1冊の本を読み終えたらまた別の本を紐解いた時に前の本で見知った単語ばかりになって楽に読めるのだろうか? それともそこにはまた別の知らない単語ばかりが並んでいて1から努力のやり直しになるのだろうか?  それを調べるために小説の作品間で共通する単語はどれくらいあるかという基準で比べてみた。ついでに新聞と小説でどれくらい共通しているのかもみてみる。 比較元小説に比較先小説に存在する単語が含まれる割合 比較元\比較先 細雪 上巻 私本太平記 かんかん虫 幼女戦記 Re:ゼロ 読売新聞 細雪上巻 37% 34% 27% 35% 21% 私本太平記 第一巻 31% 31% 24% 30% 17% かんかん虫は唄う 38% 42% 28% 36% 21% 幼女戦記 1-10話 33% 34% 30% 47% 30% Re:ゼロから始める異世界生活 第一章 32% 34% 30% 36% 23% 読売新聞 Web版2017年7月14日 31% 30% 27% 37% 37%  どの小説間でも共通する単語は20%〜50%である。1冊の単語をすべて理解したとしても別の本に臨むときは知らない単語に出くわす覚悟が必要そうである。  書かれた時代が近い作品は共通する単語が増え、時代が異なる作品では共通する単語が若干少なめとなったがサンプル数が少ないので結論は出せない。  新聞は新し目の2作品との間で共通する単語が若干多い。  同一作者の作品間でどうなっているかを見るために吉川英治の「かんかん虫は唄う」を比較対象として追加した。同作者の「私本太平記」との間で共通する単語の割合は少し高めとなった。