国立民族学博物館(みんぱく)は、博物館をもった文化人類学・民族学の研究所です。

新手話学の構成素の実証的検証研究(2018-2020)

科学研究費助成事業による研究プロジェクト|挑戦的研究(萌芽) 代表者 神田和幸

研究プロジェクト一覧

目的・内容

従来の枠組みでは達成困難な手話認識システム構築の基礎となる新手話学を構築する。新構成素として音素に代わり像素、形態素に代わり描素を提案する。モーションキャプチャから収集した手話データの解析により、像素が運動体と運動から構成されているという仮説を実証的に検証する。音素が形態素を形成するように、像素が描素を構成していると仮定している。現手話学の記述記号は先験的かつ恣意的で記述できない手話が多くあった。本研究はモーションキャプチャの機械的データから帰納的に構成素を抽出し記号化し像素とする。まず動作の構成素として関節の運動を位置と軌跡と速度に設定、ディープラーニングにより運動の特徴点を抽出し像素の種類と頻度の関係を抽出する。次に手話の語義を元に像素が描素を構成するシステムを構築する。手話では語形成に文法が反映されることが多く、文法論も同時的に構成されていくという新手話学を構築する。

活動内容

助成事業期間中の実施計画

実際の手話をモーションキャプチャ(mocap)などの技法により、像素が運動体と軌跡と速度から構成される実態を示す。mocapでは関節の位置の時間的変化として記録される。像素論では、手を一塊と考え、mocapの関節と同様に扱う。像素の核を運動体と規定し、運動体にはmocapで測定される関節すべてを考え、頭部も一塊とする。像素は像素軌跡と像素速度とする。像素は空間的・時間的に結合し意味をもつ描素となる。CLは描素(動詞の語幹)と規定、軌跡あるいは速度あるいはその両方の組み合わせにより意味をもつ動作も描素となる。従来の枠組みでは達成困難な手話認識システム構築の基礎となる新手話学を構築する。
平成30年度は 1) モーションキャプチャによる手話動作データの収集:手話モデルに依頼し、手話辞典などに掲載されている語彙及び文章をモーションキャプチャにより、動作データとして収集する。2) ディープラーニング手法を用いて手話動作の特徴点を抽出。同時に手話の動きをオプティカルフロー手法を用いて移動物体(運動体)の運動(軌跡と速度)の特徴を抽出し、その変化パタンを学習データとする。変化パタンの統計頻度をとり像素の種類の候補を抽出する。3) 従来の記述法と像素の比較:従来の研究では無視されてきたわたりも抽出される。手話者の直観と像素候補の変化パタンを比較し、像素の種類を決める。4) 像素リスト作成:像素で記述された語彙のリストを作成する。5) 描素の像素結合構造解析:新手話学文法論を踏まえ、動詞に項が内蔵される構造やCLの語幹としての機能などの知識を元にして、描素を文法範疇化する。6) 手話文法辞書作成:語形成段階に反映される描素による文法の他にも、統語レベルにおける文法が手話に存在するため、これまでの表情研究を参考に、語彙レベル文法と統語レベル文法のリストを作成し、手話文法辞書を作成する。
平成31年度はディープラーニングによる数値分布と従来研究との比較を行う。7) 動作データ語彙の拡大:前年度の成果と反省を踏まえ追加データを収集する。辞書に掲載されている手話語彙の多くが複合語であることを踏まえ、まず単純語を収集。同形異義語を削除。複合語についてはわたりに注目しつつデータを収集する。8) 動作数値データと像素候補の比較による像素リストの作成:先に収集したデータから抽出した像素リストに新たに抽出した像素を加える。9) 像素結合としての描素を抽出:収集した語彙を意味的に分析し、像素結合としての描素を抽出する。
平成32年度は描素の確定と語形成における文法情報のリスト化を行う。10) 描素分析の段階で抽出される文法要素のリスト化:描素には多くの文法項目、項構造、品詞、派生などの情報がある。統語的文法項目も手話の文法項目に加え描素情報と統語情報に分類しリスト化する。

2018年度活動報告

新手話学の構成素として像素と描素を提案。基本概念を手話コミュニケーション研究会と福祉情報工学研究会で発表した。従来の手話学の創始者ストーキーの理論を再検証し、彼以降、仮説的に検証されてきた音素と形態素という構成素は音声言語の研究成果を敷衍したものであるから、視覚言語である手話研究では齟齬を生じることが多かったことの原因解明のヒントを得た。とくに工学的視点からの分析に適合できないことも多く、手話の機械認識や自動翻訳装置開発に障害が大きかった。本研究は工学にも適用しやすい構成素を提案し、実証することを目的としているが、まず演繹的視点からの提案として像素を提案、これまでの研究成果から手話の重要な要素が運動にあることに着目、運動が運動体と軌跡と速度の3要素からなると考えた。その像素が構成する意味単位として形態素ではなく、描素を提案、CLと呼ばれる手型が手話動詞の語幹であるという過去の研究成果に基づき、描素がCLと運動から成ることを仮説として提案した。その仮説の検証として、手話ビデオを工学的に検証する方法としてモーションキャプチャによるデータとOpenPoseなどの光学的データによる分析を開始し、初年度としては基本的な101語について検証した。また分担者との協働により、深層学習システムを用いて手話の自動認識実験を行い、101単語の総計7,763個のデータを用いて認識実験を行い、約75%の認識率を得た。深層学習ではどの要因が決定的であったのか不明だが、誤答となった類似手話を分析することでその要素を探ることができると考え、次年度の研究課題とした。