@article{oai:niigata-u.repo.nii.ac.jp:02000678, author = {畠野, 雄也 and Hatano, Yuya}, issue = {8}, journal = {新潟医学会雑誌}, month = {Aug}, note = {【緒言】筋萎縮性側索硬化症(Amyotrophic lateral sclerosis: ALS)の原因遺伝子は30種類以上が知られている.しかし,大家系が少なくなる一方,エクソーム解析で遺伝子多型が多数同定され,これらの病的意義を検討するのが困難となっている.遺伝子多型を認める遺伝子の中から,ALSの原因としての候補遺伝子を効率よく抽出し,病的意義を解析することが求められている.テキストマイニングは,テキスト情報から,類似する性質の単語を抽出する方法である.近年,IBM社の人工知能Watsonを用い,テキストマイニングによりALSの原因候補遺伝子の抽出が行われた.しかし,得られた候補遺伝子に対して,当該遺伝子に変異を持つ例は見出されておらず,その意義は不明である.著者はオープンソースのテキストマイニングであるword2vec/fastTextを用いALSの原因候補遺伝子の抽出を試み,それらの遺伝子の変異の有無をALS剖検例で検討し,その意義を検証した.【方法】word2vecおよびfastTextを用いて2000年から2019年にPubMed上に公開された英語論文163948報の抄録を解析した.ALSの原因遺伝子の約3割はRNA結合蛋白質(RNA-binding protein: RBP)である.よって,1164個のRBP遺伝子を,既知の11種類のALS原因RBP遺伝子との類似度(テキストマイニングにおけるcos類似度)が高い順に順位付けし,ALS原因遺伝子の候補順とした.上位10%をCST 10%遺伝子(cosine similarity top10% gene)と命名した.また,既報のメタアナライシスデータより,ALSと非神経疾患ないし一般人集団コントロール群の間で,Rare damaging variant(RDV)の出現頻度が,コントロールに比してALS群に有意に多い遺伝子をALS-RVgと定義した.本法の正当性を,CST 10%遺伝子の中で 1)ALS-RVgの頻度,2)アノテーションに用いられたGene ontology (GO) termの解析,3)アミノ酸配列から予測した天然変性領域とcos類似度の順位との関連の検討を行った.さらにCST 10%遺伝子のうちALS-RVgを新規ALS原因候補遺伝子とし,病理診断ALS108症例でRDVを検索した.【結果】2012年度までのテキストデータを用いた解析で,word2vecではcos類似度上位10%内に,2013年以降に同定された原因遺伝子が含まれた.word2vecでは,CST 10%遺伝子群はそれ以外の遺伝子群と比して,ALS-RVgが有意に多かった(word2vec: p=0.0044,fastText: p=0.073).しかし,多重検定補正後のq値0.05未満の遺伝子はなかった.またGO解析では,CST 10%遺伝子は,スプライシングに関係する遺伝子が多かった.cos類似度上位上位の遺伝子群は下位の遺伝子群と比べて,天然変性領域の占める割合が大きい傾向にあった(word2vec: p<0.0001,fastText: p<0.0001).新規ALS原因候補遺伝子として,9遺伝子が同定され,ALS108例中8例にRDVを認めた.下位10%のALS-RVgは2遺伝子のみで,RDVは認めず,RDVを持つ症例の比率に有意な差を認めた(p=0.0039).【考察】CST 10%遺伝子ではそれ以下の群と比較して,ALS-RVgが有意に多かった.さらにCST 10%遺伝子群は,既存のALS原因遺伝子の特徴を有した.このことはテキストマイニングによる候補遺伝子抽出が機能している可能性を示した.新規ALS原因候補遺伝子にはスプライシング関連遺伝子4遺伝子にRDVを見いだした.これらRDVの病原性を今後検討したい.}, pages = {161--173}, title = {テキストマイニングを用いた筋萎縮性側索硬化症の新規原因候補遺伝子の抽出}, volume = {135}, year = {2021} }