上田さつきさん(大学院2年)が、第142回MPS・第73回BIO合同研究発表会で、タンパク質の分散表現とその配列・構造的特徴の関係性に関する解析について発表しました。
【研究概要】
単語や文書の分散表現を用いてタンパク質のアミノ酸配列を固定長のベクトルに変換し,これらを用いたタンパク質間の相互作用予測手法等が,近年,開発されている.しかしながら,そのような分散表現が,タンパク質の配列や構造的な特徴をどの程度正確に捉えられているのかについての詳細な解析はほとんどない.そこで本研究では,単語や文書の分散表現として最も一般的な手法であるWord2VecとDoc2Vecを用いて生成されたタンパク質のベクトルの類似性と,タンパク質の配列・構造の類似性の比較を行い,タンパク質の分散表現とその配列・構造的特徴の関係性について解析を行う.Word2Vecでは,タンパク質を構成する各アミノ酸を単語とみなしてベクトル化し,それらの平均ベクトルをそのタンパク質のベクトルとしている.結果として,いずれの分散表現においてもベクトル間の類似度と配列間の類似度に相関はみられなかったが,Doc2Vecにおいてはベクトル間のユークリッド距離と構造間の類似度に弱い相関がみられた.
テクニカルレポート(SIG Technical Reports)はこちらからダウンロードできます。