スキップしてメイン コンテンツに移動

投稿

8月, 2017の投稿を表示しています

「書籍において全単語の90%は20ページ目までに出てくる」のか? その2の参考 -副詞など品詞ごとの頻出単語-

その2で品詞の比率を見たが、各品詞で具体的にどういう単語が使われているかを確認する。その2を見て具体的にどんな単語が使われているんだ?と疑問に感じた人用のデータ。特に何か結論があるわけではないが、どの作品でもよく使われる副詞や助詞が同じなのか、異なっているのか確認できる。

 よく使われる副詞を眺めてみると、その作品の空気が割と再現されている気がする。
頻出する副詞細雪 上巻私本太平記幼女戦記Re:ゼロ読売新聞単語度数単語度数単語度数単語度数単語度数そう316まだ87そう78そう114さらに11又114もう83実に48どう59初めて10もう97すぐ69どう44まだ45どう8どう85そう62なにしろ39もう40いつも7まだ76又56本当に32ちょっと35次々7よく69やがて49まあ31初めて32特に7ちょっと67どう45何故28かなり29よく6いつも55よく43全く28さらに24まず5こう48ふと33当然24なんで20最も5まあ45つい32要するに24わずか20あまり4ああ30もし30すでに22思わず20かなり4きっと25すでに29はっきり20たぶん19しっかり4つい24こう24極めて20げに18そう4却って24なぜ23ともかく19どうにか17ちょっと4暫く24ついに21まだ17そろそろ16もう4決して24きっと19あまりに16とりあえず16少し4少し23さらに19最も15ふと16改めて4時々23やっと18もちろん14まさか16ちょうど3ほんとうに21ぜひ17よく14もっと16とても3ほんに21はや17少なくとも14もはや16より3直ぐ21かつて16なんと13改めて16先ず20どうして16やはり13すでに15じつは15一応13少し15まず15
助詞は「の」とてにおはが上位を占める。作品により順位は若干異なる。
頻出する助詞細雪 上巻私本太平記幼女戦記Re:ゼロ読売新聞単語度数単語度数単語度数単語度数単語度数て(接続助詞)4143の(連体化)3888は(係助詞)2017の(連体化)3467の(連体化)1259の(連体化)3432は(係助詞)2787の(連体化)1696を(格助詞)3056を(格助詞)879に(格助詞)3076に(格助詞)2110に(格助詞)1521は(係助詞)2680に(格助詞)770は(係助詞)2711て(接続助詞)2022を(格助詞)1485に(格…

「書籍において全単語の90%は20ページ目までに出てくる」のか? その4 -小説間に共通して出現する単語の割合-

1冊の本の何ページ目まで読めば見覚えのある単語ばかりになって以後楽に読むことができるのかという疑問から始めた検証だったが、ある1冊の本を読み終えたらまた別の本を紐解いた時に前の本で見知った単語ばかりになって楽に読めるのだろうか? それともそこにはまた別の知らない単語ばかりが並んでいて1から努力のやり直しになるのだろうか?
 それを調べるために小説の作品間で共通する単語はどれくらいあるかという基準で比べてみた。ついでに新聞と小説でどれくらい共通しているのかもみてみる。

比較元小説に比較先小説に存在する単語が含まれる割合比較元\比較先細雪 上巻私本太平記かんかん虫幼女戦記Re:ゼロ読売新聞細雪上巻37%34%27%35%21%私本太平記 第一巻31%31%24%30%17%かんかん虫は唄う38%42%28%36%21%幼女戦記 1-10話33%34%30%47%30%Re:ゼロから始める異世界生活 第一章32%34%30%36%23%読売新聞 Web版2017年7月14日31%30%27%37%37%
 どの小説間でも共通する単語は20%〜50%である。1冊の単語をすべて理解したとしても別の本に臨むときは知らない単語に出くわす覚悟が必要そうである。
 書かれた時代が近い作品は共通する単語が増え、時代が異なる作品では共通する単語が若干少なめとなったがサンプル数が少ないので結論は出せない。
 新聞は新し目の2作品との間で共通する単語が若干多い。
 同一作者の作品間でどうなっているかを見るために吉川英治の「かんかん虫は唄う」を比較対象として追加した。同作者の「私本太平記」との間で共通する単語の割合は少し高めとなった。