計量文体学とは何か。
最近、ネット検索でぶつかった言葉。
英語stylometryの訳語で、計量文献学とも訳されるらしい。
「文章の癖や特徴から、その書き手を推定または特定すること、またはそれに関する学問分野。特定の単語の使用率、句読点や一文の長さなどを統計学的に分析する」とのこと。
なぜ、こんな小難しい専門用語を知ったのか。
川端康成が菊池寛の代作を行ったという逸話が、ある本に紹介されていたので、調べてみた。
すると、菊池作とされる『不壊の白珠』や『慈悲心鳥』は川端による代作ではなかろうかという。
同志社大学大学院文化情報学研究科と同志社大学文化情報学部による「菊池寛作品に関する代作疑惑の計量文体学的な検証」の中で、『不壊の白珠』について計量文体学的な検証を行っている。
同検証の中で、菊池の『不壊の白珠』は川端による代作の可能性が高いと結論付けている。
門外漢で、よく理解できないが、同研究によると、「本研究では、読点の打ち方、品詞タグのbigramを著者の特徴量とし、階層的クラスター分析、主成分分析、ランダムフォレストとサポートベクターマシンを用いて分析を行う」とのこと。
素人なので、うかつなことは言えないが、様々な統計学的手法を用いて文獻の分析や比較を行うようだ。
興味ある方は、この研究を読んでみてはどうか。
ネット上で、全文公開されている。
少し、調べてみると、計量文献学の手法がはじめて使われたのは、15世紀のことらしい。
また、stylometry(計量文献学)という用語が最初に用いられたのは19世紀末のことであるとのこと。
海外では
・多くの小説の登場人物の感情を分析して、物語の核となる六つの型を発見した。
・ギリシャ語で書かれた新聞記事を、この手法で分析し、記事の作者やジャンル、政治的傾向などを推定した。
・数々の英語ブログ記事をこれで分析して、作者の性別や年齢、出身地などを推定した。
など多くの研究事例や成果があるらしい。
日本でも、源氏物語の研究に用いられたり、森鴎外の作品間の文体的特徴の変化を明らかにしたり、今回の菊池寛の代作疑惑を検証したりと様々な事例があるようだ。
こちらが知らなかっただけで、有名な研究手法であることは間違いなし。
勉強不足!
自分が、ボーっと生きてることを思い知らされた!