読書メモ_THE VALUES IN NUMBERS - 牧千夏の話したいこと

Hoyt Long; THE VALUES IN NUMBERS（ 2021 Columbia University Press）

を読みました。自力では読めなかったので、DeepLで翻訳して、それと対照しながら読みました。レビューというか読書メモになってしまいました。

序章
- 医学で、平均値は
- 文学研究で数値を用いる利点として
1　FACTS AND DIFFERENCE　事実と違い
2　ARCHIVE AND SAMPLE　アーカイブとサンプル
3　GENRE AND REPETITION　ジャンルと繰り返し
- 分析の着眼点：語彙の繰り返し　131
  - これまでの測定方法
  - 当書での測定方法
- 分類器による位置づけから分かる発展的なこと
4　INFLUENCE AND JUDGMENT：影響と評価
5 DISCOURSE AND CHARACTER　言説とキャラクター
- 使う理論
- 使うコーパス
両コーパスを３つの観点から比較
- ノンフィクション・コーパス
- フィクション・コーパス
「先住民」と擬声語クラスタの関連
エピローグ
感想

序章

研究に数値を持ち込むことは、さまざまな学問領域で賛否が分かれました

医学で、平均値は

患者の異常を見つけ出すために有効　／　患者の多様性を覆い隠してしまう

という対立がありました。

文学研究で数値を用いる利点として

定量的なアプローチは、研究の比較や規模の問題を同時に扱える。7
数字によって差異をフラットにすることで、異質な対象の関係を再考できる。8

が挙げられます。

1　FACTS AND DIFFERENCE　事実と違い

この章では、近代文学で数値を活用した事例を、歴史的にたどります。

夏目漱石

『文学論』の取り組み
- 大量の資料を体系化し、一般的な原理を抽出しようとした。21
- 数字を媒介とすることで、言語や社会の壁を越えて、中立的な批評活動ができると考えた。23

読書と意識の関係にも着目した
- F＋fは、読者の反応と文学の形式との対応を関係を、原子的なレベルで分離し、その原理を解明しようとしたもの。27
- 文章の感情的な価値を定量化することで、言語的・文学的伝統の異なるテキストを、1つの尺度で比較しようとした。32

以上の背景には、日本の科学重視がありました。

波多野完治

個人の発話が他者とどう共有されるのか、という心理学的な関心が出発点。34
- 個人に感情効果をもたらし、それを他者と共有する言語形式として、文学に着目する。36
具体的には、谷崎と志賀を比較
- 文章の長さ、句読点等の特徴を抽出。38
- 平均を用いて、作家のスタイル全体の規則性を証明。4

これに対し、文芸批評家は、

作品の神聖性を傷つける
読者の反応は多様だ

と批判しました。42

安本美典

彼らが波多野の方法論にくわえたもの

サンプリング（全体に対する部分の考え方）
統計的モデリング（経験的データから規則性を推測する方法）
多次元分析（複数の変数の相互作用を調べる方法）

具体的には

中村は、谷崎の例外性を導くために、50作品から2万フレーズを抜き出し、作家の経歴やスタイルに頼ることなく、谷崎の例外性を立証した。48
安本は、作家の文の長さの分布を、自然現象の統計的な分布（正規分布）と比較。49

このような方法論に対し、伊藤整らは、作家は有機的なものだと反論しました。57

社会学者

1970年代は、作家・作品・読者の関係が、社会学者によって研究されます

フィッシュ：作品の記述から作者の心は読み取れない
バルト：文学は作家だけではなく、文学の制度に影響を受ける

数値的な方法は採られませんが、作家や読者の固有性・特殊性がここで疑問視されます

小森陽一

この流れを引き継ぎ、小森氏は、テクストの価値を、作者でなく、テクストと読者との関係のなかにあると主張します。60

具体的には

テキストは歴史的な表現の引用（和歌、漢詩etc）で構成されることを証明。61
文章を、ある単位に分け、その割合を定量化するという方法をとるp.62

こうして近代文学を、海外の文体に影響を受けた形態変化の副産物だと主張します。64

2　ARCHIVE AND SAMPLE　アーカイブとサンプル

この章では、青空文庫や全集における作品の偏りが示され、それらをアーカイブやサンプルとして使う際の補正の方法が提案されます。70

部分と全体についての問題を、研究者はどう考えてきたか

1950-60年代の日本の定量的な文体論

･･･ある作品をつくる外的な条件ではなく、より多くの作品の考察へ向かった　78

･･･波多野：谷崎の文章の定量化によって、作家の意図を推論し、一般化した　79

しかし、サンプリングには次の2つが必要です

関連性のあるサンプリング：研究課題に役立つテキスト　80
変動確率サンプリング：研究課題と関連性の確率によって関連するテキスト　81

･･･アンソロジーのバイアスを理解し、研究課題に適するアーカイブに作り替える必要があります。

青空文庫・全集の内容の比較

青空文庫

長編/短編小説研究には不向き、多くの作品が数ページの雑文
- 日本は長編小説の地位が低い

翻訳文学が多い
- 日本の近代文学が翻訳文学によって発達したから　86

全集：『世界文学全集』(新潮社1927)

･･･知識人によって認証され、国民の教科書的な役割を果たした。89

内容を比較するために書誌の記録を利用

･･･収録作品の変化を歴史的に文脈化することで、時代区分を構築できる　93

翻訳文学の出版数／全出版物における翻訳文学の割合　の経年グラフ
- 1910年代(大逆事件）と1940年代（戦時下）に低調だったという特徴
原書作家の生年の平均の経年グラフ
- 比較的新しい作家が翻訳されていたという特徴　93
『世界文学全集』収録作家と全翻訳作家との関係を示すChowtest
- 断絶がある。新潮社は実勢のない作家に賭けたという特徴
『世界文学全集』収録作家と国立国会図書館の索引と比較
- ヘッセ、ハーン、コナンドイルが収録されないという特徴

国文学　青空文庫/全集/教科書の比較

青空文庫/全集/教科書の主に3つが、様々な角度でグラフ化されます

収録作品の比較

全集収録作家の没年グラフ
- 75％はパブリックドメインだが、700作品はいまでも青空に収録できない
全集出版部数の推移
- 1970年代の全集バブルの崩壊は急激
1920～、1960～、1980～の全集収録作品の推移
- 純文学からポピュラーな作家に推移
- 全体的に戦前の作品に偏る
収録数に時間を関数にした正規分布
- 青空の上位と全集の上位は半分程度しか重ならない
h-index（収録数を年数で割り、ある作家がどれだけ収録されたかの頻度）
- 全体的に明治末・大正初期の小説界の文壇人が多い。全集は、永井龍男や梅崎春生が意外に多い
青空収録タイトルの多い作家
- 大衆作家、歴史小説作家優位。純文学優位の全集を是正する可能性
全集のうち、大衆文学に特化したものの異動平均値
- 1980年以降に割合が上がる
全集のうち、女性作家の占めるタイトルの割合
- 基本的に10％以下。80年代以降に上昇。
- 青空は80年代以降の上昇を反映していない
全集/青空/教科書の収録著者リスト感の相関関係
- 全集と教科書はほぼ重ならない。青空と全集も半分程度
青空収録作品の発行年の推移
- 1925年から1940年の間に集中。昭和初めの出版ブームと合致。然し明治後期の出版ブームは反映していない
青空コーパスのMVR（形容詞・副詞に対する動詞の割合）
- 賢治は静的描写に長け、堀辰雄は動的描写に長けている

特殊性を読み取ることは文学研究の基礎です。そのために、比較は重要です。　125

･･･青空や全集は偏りがあるが、その偏りを埋めて使うべきだ、と主張されます　126

3　GENRE AND REPETITION　ジャンルと繰り返し

この章では、私小説の分類と、その反復的な語りの測定を中国文学に応用します。

私小説：定義が常に議論されており、文学史における差異を検討できるジャンルです　128

分析の着眼点：語彙の繰り返し　131

これまでの測定方法

全単語数に占める各単語の使用頻度の違いを比較　134
カイ二乗検定
- 各グループのどの単語が、予想外な頻度で使用されているかを示す。134
- 私小説は、一人称・三人称の単数代名詞と、家族に関連する単語の頻度が高い。134

私小説に繰り返しが多い背景は、以下のように考えられてきました

繰り返しは精神の異常性を示す。136
繰り返しは口語的なイディオムだから
翻訳調にすると繰り返しが多くなる　138

当書での測定方法

エントロピー（不可逆、不規則な混沌のこと）
TTR（Type Token Ratio）語彙の豊富さを示す指標。TTR=V/N（V:異なり語数, N:総語数）
Characteristic K（語彙の反復性や均一性を測定する142）
GuiraudのC（語彙集中度。作品の語彙のうち、頻度の高い単語の集中度を測定）

私小説と大衆小説とで比較されます

総ての指標で、私小説が冗長で、語彙の多様性が低い　142
しかし、この測定で判明した特徴を指標に分類器を作ると、適切に分類できない　144

という結果が出ます。さらに、繰り返しに語彙項目をくわえて測定されます。

TTRの標準偏差
人称代名詞の使用
思考・感情を表す動詞
接続詞・繋ぎ言葉の使用

すべてのテキストにおいて、代名詞、接続詞、思考・感情動詞、機能語の使用の測定値は、平均TTRおよびエントロピーと負の相関を示した146

最後に、はじめの私小説と大衆小説との分類が適切かどうか考察されます

･･･分類器で1つの指標の等価空間を作り、そこに作品を位置させて判別されます　148

分類器による位置づけから分かる発展的なこと

突出した外れ値は、評価につながらない可能性を示す？

冗長性や繰り返しは、精神障害の表現の戦略でした151

･･･この戦略をもっとも誇張したのが「おめでたき人」。数値的にも突出している

･･･しかし、当時評価されない。過剰な文体は評価につながらないことを示す？　154

読まれ方やジャンルが違っても、心理描写の方法に共通性が指摘できる

推理小説のなかには、私小説的な数値が出るものがある

･･･犯人の狂気を示すために繰り返しが使われたから

→推理小説や探偵小説は、私小説と似た文体傾向を持ったことがわかる156

中国のロマンティックフィクションとの共通性

私小説と同じ4つの特徴で、中国のロマンティック・フィクションとそれ以外を区別できた　159

･･･繰り返しは、内面を表現しようとする欲求から生まれた形式ではなく、内面の表現を可能にした媒体だと説明できる（柄谷行人の告白という制度に賛同する）　164

私小説：狂気の天才による、神秘的な自己の文学だと評価されてきました　164

･･･数値化は、既存の批評のスキーマでは見えない関係を明らかにし、スキーマ自体の偏りを見つけ出すことに貢献します　167

4　INFLUENCE AND JUDGMENT：影響と評価

意識の流れ（SOC)

･･･言語的・文化的境界を越えた影響力や、文学用語の議論の問題を検討します170

＝つまり、インターテクスチュアリティの問題です

英語圏のSOC

SOCの特徴（英語版）の測定法

文の長さの中央値（言い回しのリズムを表す）
名詞化された文の割合と動詞のない文の割合（文の断片を表す）
動名詞句で始まる文の割合（間接的な内省的モノローグの指標）
人称代名詞の比率と人称代名詞で始まる文の比率（省略の度合いを表す）

それを測る指標

Type-token ratio（TTR）による語彙の多様性
擬音語の比率、新語の比率、文章の長さに対する省略の数
自由な間接談話の要素を持つ文の比率

対象

学者がSOCの典型的な例と判断した60の小説から、SOCのコーパスを作成
比較対象：SOCに先行し、SOCの先駆者とは見なされていないリアリズムの典型的な作品を無作為に60作品抽出して、コーパスを作成　178

結果

以上の指標をもとに、分類器をつくると、85％の制度で正しく予測されました

特に重要なSOC特徴は

省略・擬音語・動詞のない文が多い
新造語が少ない
狭い範囲の語彙を使う（TTR低い）178

このSOCモデルの広がりを知るために、まずは英語圏の小説（アメリカ、イングランド、アイルランド、スコットランド、オーストラリア、カナダ、南アフリカ）で検証すされます。180

･･･高い精度でSOCを見分けられました。180

通時的な結果としては

1923年から1934年にかけてSOCは増加。1935年以降は平坦になる。
この増減はジャンルとはあまり関わりがない。182

･･･これまでの批評ではSOCとモダニズムは、ロマンスと対立すると言われた。183

日本のSOC

日本のSOC批評の問題点

SOC流行のプロセスやメカニズムが説明できていない
SOCの世界的な普及の同時性や同質性について考えられていない。187

そこで、

日本のSOCコーパスと、私小説 コーパスを比較

･･･95パーセントの制度で分類できます

特徴としては、「TTRが低い」「省略が少ない」「新語が多い」「擬音が多い」「名詞化された文章が多い」というものです。190

以上の結果から分かること

若い作家がSOCスコアが高い
- 若い作家はSOCを、素早く追いつける、新しい文学の技術だと考えた
- SOCは登場してすぐ消えるような過激なものだった
英語圏のSOCモデルで日本のSOCが捉えられるのは驚くべきこと
- しかし、省略については逆の相関を示す
- SOCの普及に、形式的な連続性と分岐とがあることを示す

続いての疑問

SOCの技法は、一般的な言語的文体的傾向ではないか？
SOCのその後はどうなる？

そのために

純文学コーパス（インテリ作家、プロ文、探偵小説）とも比較
- 年代を広くとっても、SOC分類器は正しく識別できる。SOCは一般的な言語変化ではない。196
1925-1940の青空コーパスを利用、新しいSOCサンプルを探す
- 1929年にSOCは急増。SOCは正式に登場する前に流行していた。198
  - 1929年は形式主義文学論争が起こり、その直前には芥川や葛西が亡くなっている。この世代の停滞を示すのか？
  - この停滞の中で、横光や川端、若い作家が新しい表現に挑戦。探偵小説も盛り上がる
- SOCに挑戦した若い作家がピックアップできる。犬養健、浜尾四郎、夢野久作、堀辰雄などです。

5 DISCOURSE AND CHARACTER　言説とキャラクター

この章は、人種に関する膨大な情報と、日本語小説における人種的特徴との関連を、数値的に分析します。210

これに関してはサイードも、情報が膨大であるために批評が限定的にならざるをえない、と懸念していました。

使う理論

分布仮説：2つの単語は使用されている文脈が似ているほど、意味が似ている。217

使うコーパス

ノンフィクション・コーパス
- 1887～1957年に発行された雑誌から抽出した約9,000の記事やエッセイ219
フィクション・コーパス
- Aozoraコレクションのなかで1890～1960年に出版された約2,000のフィクション219

以上によって、人種主義的なパターンと繰り返しの証拠を見つけます。220

両コーパスを３つの観点から比較

ノンフィクション・コーパス

人種に関する言及
- 1900年まで急増、その後急落し1930年に小さな山、その後1950年に向けて少しずつ増加
日本人への言及
- 1910年に大きな山、1930年に小さな山、1950年にかけて一番大きな山
語彙どうしの関連性の強さを示すグリッド
- 精神・倫理に分類される語彙･･･日本人と共起しやすい
- 音声・認知に分類される語彙･･･先住民との共起が抑制されている

フィクション・コーパス

人種に関する言及
- 1920年代半ばに一番大きな鋭角の山　1930年に小山　1940年代半ばにも山
日本人への言及
- 1930年代に大きな山　1940年あたりから細かく大きな山が1950年まで続く
語彙どうしの関連を示すグリッド
- ノンフィクションコーパスよりも不透明、人種主義的な共起が少ない
- 文末マーカー、声の表現･･･原住民と余り共起しない

「先住民」と擬声語 クラスタの関連

これらの結果のなかで、「先住民」と擬声語クラスタとの強い関連に着目します。238

･･･擬声語は、過剰に生き生きとしたエスニックの表現考えられてきたものです239

国枝史郎（伝奇小説作家）

彼は、先住民表現に擬声語を多用します。しかし、これは過去のパターンの引用です。

例えば

感情をコントロールできない人が叫ぶ小説（漱石）
他の冒険的な小説（谷譲次、坂口安吾）

などがあります。これは擬声語とキャラクター化の問題と関係します。

キャラクター化

キャラクターは、パターンを利用することで作品を社会的に読みやすくし、作品を寓話的なものにする効果があります。242

しかし、方向性の違いから、キャラクター化とリアリズムの緊張関係は、文芸批評でさまざまに論じられてきました。

キャラクター化の問題

「最小限の特徴で特徴づける」ステレオタイプの表現は、現実世界との拡張性を前提としながら、実際には偏りがある
キャラクターの人為的なステレオタイプ表現を、現実世界と勘違いしてしまう。　243

日本におけるキャラクター化に関する主張

逍遙：表面的で類型的な人物造形を批判
漱石：複雑なキャラクターと、単純なキャラクターを区別
横光：純文学はまるで、ある登場人物だけが思考できるように読める。四人称によってその偏りを均等化すべき。

特に、日本帝国主義下の小説では、キャラクターは、個性的な自己である同時に、人種や民族の代表でもあるといダブルバインドに直面していました。247

例えば、

菊池寛「俊寛」
- 苦悩する日本人と先住民とに擬声語を利用。
- しかし、日本人と先住民は、かつてのアイデンティティの一部を放棄して、混血の調和の中で生活するという結末。250
王昶雄「奔流」
- 結末は俊寛と対極にあるが、擬声語表現を利用した点で共通する。
- 台湾人の皇民化の浸透度の違いを描きながら、擬声語において共通した台湾人性を表現した

以上のキャラクター分析によって

特定から一般、そして再び特定へという往還のある解釈を検討できる。
キャラクターは、特定と一般を往還するための蝶番。ある人種を他者化する語彙のパターンを、常用から消滅までだどることができる。263

エピローグ

文学研究では、

一つ一つの作品を読んでその特徴を直接知る
真実や美を、括弧に入れて問い直す

という方法をとってきました。そのため、科学の領域にあり、真実や確実性を示すような数値を用いることは、警戒されます。269

しかし、数値とは、

研究者の主観的な判断によって用いるもの
異なる価値体系や解釈を接続できるもの
異質な対象を、ある基準の等価空間で、比較できるもの。270

そのため、数値を用いた文学研究によって

コンピュータ科学、言語学、社会学の研究と、文学研究とが対話できる
文学研究で事実と見なされてきた概念や習慣を考え直せる
ある目的のために、研究方法を変更することができる271

当書では、数値を用いたことで

私小説や意識の流れという観点から、国際的な比較ができた
人種や民族に関する偏った表現パターンを導き出せた

という成果を上げられました。

こうした可能性ある数値的な方法に無関心であると、弊害も起こります

文学を美的な領域の専有物にしてしまう279
グローバルな情報時代から排除されてしまう

というものです。

感想

理屈をきちんと追いたかったので、だらだら書いていたら、長大なメモになってしまいました。

全体的にとても興味深かったのですが、２章が特に勉強になりました。

面白かったです！

The Values in Numbers: Reading Japanese Literature in a Global Information Age (English Edition)

作者:Long, Hoyt
Columbia University Press

Amazon

序章