
日本国内の地域言語(いわゆる方言)は深刻な消滅の危機にあると言われます。世界にある6,000とも7,000とも言われる言語のうち、今世紀中におよそ半数が、悲観的な予測だと90%が消滅してしまうとも言われています[1]。日本の地域言語もまた、消滅の危機にあるのです。この危機に対して、記述言語学者、言語再活性化の研究者など、色々な専門家が総合的に対応する学際分野を消滅危機言語研究と言います。私は主に琉球諸語の消滅危機言語研究を行なっています。

図1. 伊良部島での調査の様子
消滅危機言語研究の重要な研究テーマの1つが、ズバリ「データ」です。フィールドワークで得たデータをどのように保存すべきかという問題や、そのデータを誰でも、いつでも、いつまでも使えるようにするためにどのような仕組みを整えておくかという問題を扱う研究分野です。このエッセイでは、消滅危機言語研究の観点から、データに関する問題をごく簡単に解説した上で、より詳しい解説記事を紹介したいと思っています。
データは誰のもの?
消滅危機言語の場合、自分がその言語を研究している唯一の、あるいは数少ない1人であることが普通です。私もそうです。私の対象言語は南琉球宮古語伊良部島方言ですが、これを専門に扱っている研究者は今のところ世界で私くらいです。そうなってくると、色々な消滅危機言語を扱う個々の研究者が取得したデータは、その人だけが保管しているはずで、またその人がこれから取得するデータは、これから誰も、二度と取得できないデータである、ということになります。つまり、その言語のデータを、自分が全人類に代わって取得しているという意識を持たなければならない、ということになります。
言語調査で得られるデータは実に様々です。語彙調査で得られた基礎語彙データ、あるいはアクセント調査や活用調査の中で得られる単語の発話データ、文法項目調査で得られる例文データなど多岐にわたります。このエッセイでは、特に自然談話データの扱いについて考えていきます。自然談話とは、話者に特定のトピックについて自由に語ってもらうことで得られるデータを指します。言語学者が自然談話をどのような目論見で収集し、どのように研究に役立てているのかについては、私の以下のnote記事を見てみてください。
言語学者が継承のためにできること:自然談話を記録する営み
https://note.com/lingfieldwork/n/n2dbca1976bdd?sub_rt=share_sb
この記事でも述べていますが、自然談話データは応用可能性がとても大きいデータで、言語再活性化を見据えた時に一番役に立つデータと言ってもいいくらいです。つまり、言語記述のためだけでなく、話者のコミュニティがその言語を継承していく際に大いに役立ちます。例えば昔話や伝説であれば、そのまま教材にすることもできるし、料理の作り方や戦争体験であれば、言語教育を超えた「記憶の継承」という意味で、非常に貴重なデータとなるでしょう[2]。
談話データを得る方法や、それを研究に使う方法については、上で紹介したnote記事の他にも、フィールド言語学に関する教科書や学術誌の記事などでよく見かけますし、実際それらは非常に役立ちます。一方、談話データそのものに注目し、それをどう管理し、どのように永続的に保存していくのか、という問題はなかなか議論されず、ノウハウも共有されにくいのが現状です。記述言語学者の主眼はデータよりもデータから得られる言語記述なので、それは当然と言えば当然ですね。
でも、「データをどう使うか」という記述言語学的な考えだけで、データそのものの記録保存に関する視点が欠けているとしたら、消滅危機言語研究として大変まずい状況です。消滅危機言語研究の文脈では、談話データを「どう使うか」に加えて「どう守るか」を議論する観点も重要なのです[3]。
たとえば、ある消滅危機言語の研究者が大量に収集した談話の録音データや書き起こしデータがあったとして、その研究者が引退したとしましょう。集めたデータ全てがその研究者のハードディスク内に死蔵され、誰にもアクセスできなくなったら、言語学全体にとって、そして何より当該言語のコミュニティにとって、大変な損失になりますね。「これは大変だ!」と気づいた研究者が一念発起して、手持ちの大量のデータを誰かに引き継ごうと、ウェブ上で公開しようとしたとしましょう。しかし、話者にデータ公開の許諾をとっていないことに後で気づいて、結局公開出来ないまま、なんてことも起こり得ます。このような状況を避けるために、適切な手順で「データを守る」必要があるわけです。
「データを守る」ためにやるべき3つのステップ
言語学者が収集した貴重な談話データを安全に保存し、また他の研究者や現地コミュニティがいつでも、いつまでも使えるようにしようと考えた時、いくつかの、踏まなければならないステップがあります。「絶対にすべきこと」から「こういうふうになっていると望ましい」、「こういうふうになっていたらすごくいい」までの順番があるということです。「こういうふうになっていたらすごくいい」ようなことだけやって、「絶対にすべきこと」をやっていない人もいる。それではダメ、ということです。
- Step 1 絶対にすべきこと:データの永続性の確保。自分のローカル環境(パソコンのHDDとかSDカード保存とか)に加えて、ウェブ上の安定したリポジトリにも関連データを全て置く。関連データとは、談話の生データ(録音、録画)、談話の書き起こしデータ(注釈付き)、メタデータ(話者情報、注釈者情報など)
- Step 2 望ましいこと:少なくとものちの研究者/コミュニティが利用しやすいような仕組みを整えておく。後の修正が入る場合のバージョン管理の徹底。個々のデータに対するデジタル資料の固有識別番号であるDOI(Digital Object Identifier)の取得など。
- Step 3 できると素晴らしいこと:コミュニティが、自らの言語復興や継承言語教育のリソースに使いやすくする。目的特化型のWebページを作り、誰でもわかりやすい方法で談話資料を公開する。談話の例文ごとに音声も聞けるような仕組みなどがあると素晴らしい。
それぞれのStepについての詳しい解説と、それぞれのStepで役にたつウェブツール(例えば談話データを自動で文単位に切り出すなどのツール)は、私が以下のnote記事で詳しく解説していますので、関心のある方はぜひそちらで続きを読み進めてください。
---
#### 消滅危機言語の記録保存(特に談話データを例に):基礎編
https://note.com/lingfieldwork/n/ndd75bcb99b6f?sub_rt=share_sb
#### 消滅危機言語の記録保存(特に談話データを例に):応用編
https://note.com/lingfieldwork/n/n06e3bd144dbc?sub_rt=share_sb
#### 危機言語フィールドワーカー向け:手持ちの談話データを簡単に音声付きWebページに変えるツール
https://note.com/lingfieldwork/n/n7e0299ed494a?sub_rt=share_sb
---
下地理則
[1] 90%という衝撃的な数字は、Krauss (1992)の有名な論文に基づきますが、2011年から2016年にかけて行われたCatalog of Endangered Language Project (ELCat)のより多角的・客観的な指標に基づく推計によると、およそ46% (3,150言語/6,879言語)が消滅の危機にあるとされます(Campbell and Rehg 2018: 4)。
[2] 私の研究室のウェブサイトでは、伊良部島で集めた昔話や戦争体験の談話などをいくつか公開しています(https://www.mshimoji.com/about-7)。
[3] このように、記述言語学と独立した部門として、データの扱いに関する研究も必要であるという認識のもと、1990年代後半に始まったのが記録言語学(Documentary linguistics)という分野です(Himmelmann 1998)。
引用文献
Campbell, Lyle, and Kenneth L. Rehg (2018) Introduction: Endangered Languages. In Kenneth L. Rehg, and Lyle Campbell (eds), The Oxford Handbook of Endangered Languages, 1-18, Oxford: OUP.
Endangered Languages Catalogue Project. (n.d.) Compiled by research teams at University of Hawai'i Mānoa and Institute for Language Information and Technology (LINGUIST List) at Eastern Michigan University. http://www.endangeredlanguages.com/
Himmelmann, N. P. (1998). Documentary and Descriptive Linguistics. Linguistics, 36, 161-195. https://doi.org/10.1515/ling.1998.36.1.161
Krauss, Michael (1992) The world’s languages in crisis. Language 68: 4-10.