Hoyt Long; THE VALUES IN NUMBERS( 2021 Columbia University Press)
を読みました。自力では読めなかったので、DeepLで翻訳して、それと対照しながら読みました。レビューというか読書メモになってしまいました。
- 序章
- 1 FACTS AND DIFFERENCE 事実と違い
- 2 ARCHIVE AND SAMPLE アーカイブとサンプル
- 3 GENRE AND REPETITION ジャンルと繰り返し
- 4 INFLUENCE AND JUDGMENT: 影響と評価
- 5 DISCOURSE AND CHARACTER 言説とキャラクター
- 両コーパスを3つの観点から比較
- 「先住民」と擬声語クラスタの関連
- エピローグ
- 感想
序章
研究に数値を持ち込むことは、さまざまな学問領域で賛否が分かれました
医学で、平均値は
患者の異常を見つけ出すために有効 / 患者の多様性を覆い隠してしまう
という対立がありました。
文学研究で数値を用いる利点として
- 定量的なアプローチは、研究の比較や規模の問題を同時に扱える。7
- 数字によって差異をフラットにすることで、異質な対象の関係を再考できる。8
が挙げられます。
1 FACTS AND DIFFERENCE 事実と違い
この章では、近代文学で数値を活用した事例を、歴史的にたどります。
夏目漱石
- 『文学論』の取り組み
- 大量の資料を体系化し、一般的な原理を抽出しようとした。21
- 数字を媒介とすることで、言語や社会の壁を越えて、中立的な批評活動ができると考えた。23
- 読書と意識の関係にも着目した
- F+fは、読者の反応と文学の形式との対応を関係を、原子的なレベルで分離し、その原理を解明しようとしたもの。27
- 文章の感情的な価値を定量化することで、言語的・文学的伝統の異なるテキストを、1つの尺度で比較しようとした。32
以上の背景には、日本の科学重視がありました。
波多野完治
- 個人の発話が他者とどう共有されるのか、という心理学的な関心が出発点。34
- 個人に感情効果をもたらし、それを他者と共有する言語形式として、文学に着目する。36
- 具体的には、谷崎と志賀を比較
- 文章の長さ、句読点等の特徴を抽出。38
- 平均を用いて、作家のスタイル全体の規則性を証明。4
これに対し、文芸批評家は、
- 作品の神聖性を傷つける
- 読者の反応は多様だ
と批判しました。42
安本 美典
彼らが波多野の方法論にくわえたもの
- サンプリング(全体に対する部分の考え方)
- 統計的モデリング(経験的データから規則性を推測する方法)
- 多次元分析(複数の変数の相互作用を調べる方法)
具体的には
- 中村は、谷崎の例外性を導くために、50作品から2万フレーズを抜き出し、作家の経歴やスタイルに頼ることなく、谷崎の例外性を立証した。48
- 安本は、作家の文の長さの分布を、自然現象の統計的な分布(正規分布)と比較。49
このような方法論に対し、伊藤整らは、作家は有機的なものだと反論しました。57
社会学者
1970年代は、作家・作品・読者の関係が、社会学者によって研究されます
- フィッシュ:作品の記述から作者の心は読み取れない
- バルト:文学は作家だけではなく、文学の制度に影響を受ける
数値的な方法は採られませんが、作家や読者の固有性・特殊性がここで疑問視されます
小森陽一
この流れを引き継ぎ、小森氏は、テクストの価値を、作者でなく、テクストと読者との関係のなかにあると主張します。60
具体的には
こうして近代文学を、海外の文体に影響を受けた形態変化の副産物だと主張します。64
2 ARCHIVE AND SAMPLE アーカイブとサンプル
この章では、青空文庫や全集における作品の偏りが示され、それらをアーカイブやサンプルとして使う際の補正の方法が提案されます。70
部分と全体についての問題を、研究者はどう考えてきたか
1950-60年代の日本の定量的な文体論
・・・ある作品をつくる外的な条件ではなく、より多くの作品の考察へ向かった 78
・・・波多野:谷崎の文章の定量化によって、作家の意図を推論し、一般化した 79
しかし、サンプリングには次の2つが必要です
- 関連性のあるサンプリング:研究課題に役立つテキスト 80
- 変動確率サンプリング:研究課題と関連性の確率によって関連するテキスト 81
・・・アンソロジーのバイアスを理解し、研究課題に適するアーカイブに作り替える必要があります。
青空文庫・全集の内容の比較
青空文庫
- 長編/短編小説研究には不向き、多くの作品が数ページの雑文
- 日本は長編小説の地位が低い
- 翻訳文学が多い
- 日本の近代文学が翻訳文学によって発達したから 86
全集:『世界文学全集』(新潮社1927)
・・・知識人によって認証され、国民の教科書的な役割を果たした。89
内容を比較するために書誌の記録を利用
・・・収録作品の変化を歴史的に文脈化することで、時代区分を構築できる 93
- 翻訳文学の出版数/全出版物における翻訳文学の割合 の経年グラフ
- 1910年代(大逆事件)と1940年代(戦時下)に低調だったという特徴
- 原書作家の生年の平均の経年グラフ
- 比較的新しい作家が翻訳されていたという特徴 93
- 『世界文学全集』収録作家と全翻訳作家との関係を示すChowtest
- 断絶がある。新潮社は実勢のない作家に賭けたという特徴
- 『世界文学全集』収録作家と国立国会図書館の索引と比較
- ヘッセ、ハーン、コナンドイルが収録されないという特徴
国文学 青空文庫/全集/教科書の比較
青空文庫/全集/教科書の主に3つが、様々な角度でグラフ化されます
収録作品の比較
- 全集収録作家の没年グラフ
- 75%はパブリックドメインだが、700作品はいまでも青空に収録できない
- 全集出版部数の推移
- 1970年代の全集バブルの崩壊は急激
- 1920~、1960~、1980~の全集収録作品の推移
- 純文学からポピュラーな作家に推移
- 全体的に戦前の作品に偏る
- 収録数に時間を関数にした正規分布
- 青空の上位と全集の上位は半分程度しか重ならない
- h-index(収録数を年数で割り、ある作家がどれだけ収録されたかの頻度)
- 青空収録タイトルの多い作家
- 大衆作家、歴史小説作家優位。純文学優位の全集を是正する可能性
- 全集のうち、大衆文学に特化したものの異動平均値
- 1980年以降に割合が上がる
- 全集のうち、女性作家の占めるタイトルの割合
- 基本的に10%以下。80年代以降に上昇。
- 青空は80年代以降の上昇を反映していない
- 全集/青空/教科書の収録著者リスト感の相関関係
- 全集と教科書はほぼ重ならない。青空と全集も半分程度
- 青空収録作品の発行年の推移
- 1925年から1940年の間に集中。昭和初めの出版ブームと合致。然し明治後期の出版ブームは反映していない
- 青空コーパスのMVR(形容詞・副詞に対する動詞の割合)
- 賢治は静的描写に長け、堀辰雄は動的描写に長けている
特殊性を読み取ることは文学研究の基礎です。そのために、比較は重要です。 125
・・・青空や全集は偏りがあるが、その偏りを埋めて使うべきだ、と主張されます 126
3 GENRE AND REPETITION ジャンルと繰り返し
この章では、私小説の分類と、その反復的な語りの測定を中国文学に応用します。
私小説:定義が常に議論されており、文学史における差異を検討できるジャンルです 128
分析の着眼点:語彙の繰り返し 131
これまでの測定方法
- 全単語数に占める各単語の使用頻度の違いを比較 134
- カイ二乗検定
- 各グループのどの単語が、予想外な頻度で使用されているかを示す。134
- 私小説は、一人称・三人称の単数代名詞と、家族に関連する単語の頻度が高い。134
私小説に繰り返しが多い背景は、以下のように考えられてきました
- 繰り返しは精神の異常性を示す。136
- 繰り返しは口語的なイディオムだから
- 翻訳調にすると繰り返しが多くなる 138
当書での測定方法
- エントロピー(不可逆、不規則な混沌のこと)
- TTR(Type Token Ratio)語彙の豊富さを示す指標。
T T R = (V:異なり語数, N:総語数)V/ N - Characteristic K(語彙の反復性や均一性を測定する142)
- GuiraudのC(語彙集中度。作品の語彙のうち、頻度の高い単語の集中度を測定)
私小説と大衆小説とで比較されます
- 総ての指標で、私小説が冗長で、語彙の多様性が低い 142
- しかし、この測定で判明した特徴を指標に分類器を作ると、適切に分類できない 144
という結果が出ます。さらに、繰り返しに語彙項目をくわえて測定されます。
すべてのテキストにおいて、代名詞、接続詞、思考・感情動詞、機能語の使用の測定値は、平均TTRおよびエントロピーと負の相関を示した146
最後に、はじめの私小説と大衆小説との分類が適切かどうか考察されます
・・・分類器で1つの指標の等価空間を作り、そこに作品を位置させて判別されます 148
分類器による位置づけから分かる発展的なこと
突出した外れ値は、評価につながらない可能性を示す?
冗長性や繰り返しは、精神障害の表現の戦略でした151
・・・この戦略をもっとも誇張したのが「おめでたき人」。数値的にも突出している
・・・しかし、当時評価されない。過剰な文体は評価につながらないことを示す? 154
読まれ方やジャンルが違っても、心理描写の方法に共通性が指摘できる
・・・犯人の狂気を示すために繰り返しが使われたから
→推理小説や探偵小説は、私小説と似た文体傾向を持ったことがわかる156
中国のロマンティックフィクションとの共通性
私小説と同じ4つの特徴で、中国のロマンティック・フィクションとそれ以外を区別できた 159
・・・繰り返しは、内面を表現しようとする欲求から生まれた形式ではなく、内面の表現を可能にした媒体だと説明できる(柄谷行人の告白という制度に賛同する) 164
私小説:狂気の天才による、神秘的な自己の文学だと評価されてきました 164
・・・数値化は、既存の批評のスキーマでは見えない関係を明らかにし、スキーマ自体の偏りを見つけ出すことに貢献します 167
4 INFLUENCE AND JUDGMENT: 影響と評価
意識の流れ(SOC)
・・・言語的・文化的境界を越えた影響力や、文学用語の議論の問題を検討します170
=つまり、インターテクスチュアリティの問題です
英語圏のSOC
SOCの特徴(英語版)の測定法
- 文の長さの中央値(言い回しのリズムを表す)
- 名詞化された文の割合と動詞のない文の割合(文の断片を表す)
- 動名詞句で始まる文の割合(間接的な内省的モノローグの指標)
- 人称代名詞の比率と人称代名詞で始まる文の比率(省略の度合いを表す)
それを測る指標
- Type-token ratio(TTR)による語彙の多様性
- 擬音語の比率、新語の比率、文章の長さに対する省略の数
- 自由な間接談話の要素を持つ文の比率
対象
- 学者がSOCの典型的な例と判断した60の小説から、SOCのコーパスを作成
- 比較対象:SOCに先行し、SOCの先駆者とは見なされていないリアリズムの典型的な作品を無作為に60作品抽出して、コーパスを作成 178
結果
以上の指標をもとに、分類器をつくると、85%の制度で正しく予測されました
特に重要なSOC特徴は
- 省略・擬音語・動詞のない文が多い
- 新造語が少ない
- 狭い範囲の語彙を使う(TTR低い)178
このSOCモデルの広がりを知るために、まずは英語圏の小説(アメリカ、イングランド、アイルランド、スコットランド、オーストラリア、カナダ、南アフリカ)で検証すされます。180
・・・高い精度でSOCを見分けられました。180
通時的な結果としては
- 1923年から1934年にかけてSOCは増加。1935年以降は平坦になる。
- この増減はジャンルとはあまり関わりがない。182
・・・これまでの批評ではSOCとモダニズムは、ロマンスと対立すると言われた。183
日本のSOC
日本のSOC批評の問題点
- SOC流行のプロセスやメカニズムが説明できていない
- SOCの世界的な普及の同時性や同質性について考えられていない。187
そこで、
日本のSOCコーパスと、私小説コーパスを比較
・・・95パーセントの制度で分類できます
特徴としては、「TTRが低い」「省略が少ない」「新語が多い」「擬音が多い」「名詞化された文章が多い」というものです。190
以上の結果から分かること
- 若い作家がSOCスコアが高い
- 若い作家はSOCを、素早く追いつける、新しい文学の技術だと考えた
- SOCは登場してすぐ消えるような過激なものだった
- 英語圏のSOCモデルで日本のSOCが捉えられるのは驚くべきこと
- しかし、省略については逆の相関を示す
- SOCの普及に、形式的な連続性と分岐とがあることを示す
続いての疑問
- SOCの技法は、一般的な言語的文体的傾向ではないか?
- SOCのその後はどうなる?
そのために
- 純文学コーパス(インテリ作家、プロ文、探偵小説)とも比較
- 年代を広くとっても、SOC分類器は正しく識別できる。SOCは一般的な言語変化ではない。196
- 1925-1940の青空コーパスを利用、新しいSOCサンプルを探す
5 DISCOURSE AND CHARACTER 言説とキャラクター
この章は、人種に関する膨大な情報と、日本語小説における人種的特徴との関連を、数値的に分析します。210
これに関してはサイードも、情報が膨大であるために批評が限定的にならざるをえない、と懸念していました。
使う理論
分布仮説:2つの単語は使用されている文脈が似ているほど、意味が似ている。217
使うコーパス
- ノンフィクション・コーパス
- 1887~1957年に発行された雑誌から抽出した約9,000の記事やエッセイ219
- フィクション・コーパス
- Aozoraコレクションのなかで1890~1960年に出版された約2,000のフィクション219
以上によって、人種主義的なパターンと繰り返しの証拠を見つけます。220
両コーパスを3つの観点から比較
ノンフィクション・コーパス
- 人種に関する言及
- 1900年まで急増、その後急落し1930年に小さな山、その後1950年に向けて少しずつ増加
- 日本人への言及
- 1910年に大きな山、1930年に小さな山、1950年にかけて一番大きな山
- 語彙どうしの関連性の強さを示すグリッド
- 精神・倫理に分類される語彙・・・日本人と共起しやすい
- 音声・認知に分類される語彙・・・先住民との共起が抑制されている
フィクション・コーパス
- 人種に関する言及
- 1920年代半ばに一番大きな鋭角の山 1930年に小山 1940年代半ばにも山
- 日本人への言及
- 1930年代に大きな山 1940年あたりから細かく大きな山が1950年まで続く
- 語彙どうしの関連を示すグリッド
- ノンフィクションコーパスよりも不透明、人種主義的な共起が少ない
- 文末マーカー、声の表現・・・原住民と余り共起しない
「先住民」と擬声語クラスタの関連
これらの結果のなかで、「先住民」と擬声語クラスタとの強い関連に着目します。238
・・・擬声語は、過剰に生き生きとしたエスニックの表現考えられてきたものです239
国枝史郎(伝奇小説作家)
彼は、先住民表現に擬声語を多用します。しかし、これは過去のパターンの引用です。
例えば
などがあります。これは擬声語とキャラクター化の問題と関係します。
キャラクター化
キャラクターは、パターンを利用することで作品を社会的に読みやすくし、作品を寓話的なものにする効果があります。242
しかし、方向性の違いから、キャラクター化とリアリズムの緊張関係は、文芸批評でさまざまに論じられてきました。
キャラクター化の問題
日本におけるキャラクター化に関する主張
特に、日本帝国主義下の小説では、キャラクターは、個性的な自己である同時に、人種や民族の代表でもあるといダブルバインドに直面していました。247
例えば、
以上のキャラクター分析によって
- 特定から一般、そして再び特定へという往還のある解釈を検討できる。
- キャラクターは、特定と一般を往還するための蝶番。ある人種を他者化する語彙のパターンを、常用から消滅までだどることができる。263
エピローグ
文学研究では、
- 一つ一つの作品を読んでその特徴を直接知る
- 真実や美を、括弧に入れて問い直す
という方法をとってきました。そのため、科学の領域にあり、真実や確実性を示すような数値を用いることは、警戒されます。269
しかし、数値とは、
- 研究者の主観的な判断によって用いるもの
- 異なる価値体系や解釈を接続できるもの
- 異質な対象を、ある基準の等価空間で、比較できるもの。270
そのため、数値を用いた文学研究によって
当書では、数値を用いたことで
- 私小説や意識の流れという観点から、国際的な比較ができた
- 人種や民族に関する偏った表現パターンを導き出せた
という成果を上げられました。
こうした可能性ある数値的な方法に無関心であると、弊害も起こります
- 文学を美的な領域の専有物にしてしまう279
-
グローバルな情報時代から排除されてしまう
というものです。
感想
理屈をきちんと追いたかったので、だらだら書いていたら、長大なメモになってしまいました。
全体的にとても興味深かったのですが、2章が特に勉強になりました。
面白かったです!