シングル

ブログ

ホームページホームページ / ブログ / シングル

Oct 20, 2023

シングル

Edizione di biologia della comunicazione

Communications Biology volume 6、記事番号: 201 (2023) この記事を引用

6934 アクセス

29 オルトメトリック

メトリクスの詳細

関与した生物学的混合物から個人を特定することは、犯罪現場捜査やさまざまな生物医学研究分野に非常に関連していますが、これまでの試みにもかかわらず、依然としてほぼ不可能です。 ここで我々は、この長年の問題を解決するために、専用のバイオインフォマティクス パイプライン (De-goulash) と組み合わせた単一細胞トランスクリプトーム シーケンス (scRNA-seq) の使用の可能性を調査しました。 私たちは新しいアプローチを開発し、複数人の血液混合物からデノボ生成した scRNA-seq データと、公開されている単一の個別の scRNA-seq データセットから集めた、さまざまな数、比率、およびインシリコ混合物を使用してそれをテストしました。貢献者の生物地理的祖先。 最大 1:60 の比率で 2 人から 9 人までのバランスのとれた血液混合物と不均衡な血液混合物すべてについて、貢献した個人によると、明確な単一細胞の分離が達成されました。 すべての分離された混合寄与者について、性別および生物地理的祖先 (母系、父系、および双親系) が正確に決定されました。 すべての分離された貢献者は、デノボで生成された全エクソーム配列参照データを使用して、法廷で許容される統計的確実性で正確に個別に特定されました。 この概念実証研究では、生物学的混合物をデコンボリューションし、その後遺伝的に特徴付け、分離された混合物の寄与者を個別に特定するための単一細胞アプローチの実現可能性を実証します。 さらなる最適化と実装により、このアプローチは最終的に、犯罪現場で見つかったものを含む、困難な生物学的混合物への移行を可能にする可能性があります。

生物学的混合物に寄与した人物の遺伝的特徴付けと個人の遺伝的特定は、科学と社会のさまざまな分野に関連しています。 犯罪現場では、複数の個人の関与による生物学的混合物が収集されることがよくあります。 既知の加害者がいる事件では、個人の遺伝子識別により、比較法医学 DNA プロファイリング 1 によって犯人を特定できます。一方、加害者が不明の事件では、遺伝的特徴付け (性別、生物地理的祖先など) が、未知の加害者を見つけるのに役立つ調査の手がかりを提供できます 1。 混合生体材料からの個人の遺伝的特徴付けと同定を成功させるには、正確な混合デコンボリューション、つまり個々の寄与者に応じて混合生体材料を分離することから始まります。これは最も重要であると同時に最も困難なステップです。 さまざまな方法論に基づくさまざまな試みにもかかわらず、生物学的混合物のデコンボリューションにおける限界は依然として法医学 DNA 分析の主要な課題の 1 つです 2、3、4、5、6。 さらに、混合物の分離は、生物医学の研究や応用の他の分野、たとえば、広く使用されている細胞、組織、オルガノイド培養における汚染の検出と解決にも関連しています。

現在、法医学混合物のデコンボリューションで使用される最も一般的な技術は差分溶解法 7 であり、これは男性加害者の精液細胞と性的暴行事件で通常遭遇する女性被害者の上皮細胞を含む混合物に膣スワブを分析することによって適用されます。 ただし、ディファレンシャル溶解では、男性と女性の DNA 画分の分離が不完全になることがよくあります。 その結果、得られた常染色体ショートタンデムリピート(STR)プロファイルには、被害者の女性と加害者の男性の対立遺伝子の混合が依然として示されています。 このため、たとえ女性被害者の STR プロファイルが参考 DNA 分析からわかっていたとしても、混合 DNA プロファイルから男性加害者の STR プロファイルを特定することは困難であり、多くの場合不可能です。 Y染色体の男性特異的部分を標的とすることは、混合物中の男性特異的STRを特異的に分析することを可能にし、性的暴行事件の資料のように女性のDNAが大量にアクセスできる混合物で機能するため、助けとなる9。 ただし、法医学的な Y-STR プロファイリングには、通常同じ Y-STR プロファイルを共有する父系の男性を区別できないことがほとんどであるという欠点があります。 結果として、男性容疑者について得られた一致確率は、その父方の男性親族にも当てはまり、法廷で必要とされる個人レベルで結論を引き出すことはできない9。 確率的遺伝子型決定などの統計的手法を利用して、混合染色から得られた混合常染色体 STR プロファイルをデコンボリューションする方法が利用可能 10、11、12、13 ですが、その成功には限界があり、多くの要因に依存します 12、13。 大規模並列シーケンシング (MPS) とも呼ばれる次世代シーケンシング (NGS) をフォレンジック STR プロファイリングに使用すると、その定量的な性質により、混合 STR プロファイルのデコンボリューションがある程度改善されますが、その成功は主に複雑さの低いものに限定されます。 2人分のような混合1. さらに、分別溶解は、異なる男性からの精液の混合物の分離には適しておらず、精子細胞がまったく含まれていない混合物にも適していません。

現在の方法のもう 1 つの大きな欠点は、DNA プロファイリングの前に混合サンプルを寄与者に応じて分離するのではなく、混合 DNA プロファイルを分離することを目的としていることです。 潜在的により有望な混合物分離戦略は、最初に個々の寄与に応じて生物学的混合物を分離することであり、これにより、分離された個々の寄与の遺伝的同定または特徴付けのためのその後の DNA 分析が、技術的にそれほど困難ではない単一ソース分析となる。 最近、法医学的 STR 分析の前に混合物から細胞を分離する方法は、DEPArraytm 14、15、16、レーザー キャプチャ マイクロダイセクション 17、または FACS18、19 など、法医学的混合物のデコンボリューションを目的としてテストされたことがほとんどありません。 DEPArraytm およびレーザーキャプチャマイクロダイセクションの主な欠点は、この技術で分離できる細胞の数が少ないことです。 分離された細胞の数が少ないほど、混合物への微量な寄与を見逃す可能性が高くなります。 分離可能な細胞型間の蛍光の違いを必要とするFACSを使用すると細胞の数を増やすことができますが、FACSは同じ細胞型の混合物や蛍光分離できない細胞型には機能しません。

混合デコンボリューションに現在利用可能なすべての方法を統合する全体的な欠点は、犯罪現場から得られる限られた量の DNA に基づいて、通常は部分的な STR プロファイルしか生成されないことです 14、15、16、18、19、20。 法医学の実務で使用される市販の STR キットに含まれる STR の数は限られているため、部分的な STR プロファイルから得られる一致確率は、裁判所が認める必要な統計的確実性を備えて個人の身元を結論付けるのに十分なほど高くないことがよくあります。 法医学 STR キット内の STR マーカーの数を増やすことは技術的に困難です。 特に、広く応用されている蛍光標識マルチプレックス PCR およびキャピラリー電気泳動 (CE) に基づくキットに適しています。 標的 MPS は CE 解析に比べて STR マーカーの数を増やすことができますが、将来そのような市販キットが利用可能になった場合、反復 DNA の配列決定に伴う酵素の問題により、STR の配列決定は依然として課題となります。 注目すべきことに、一塩基多型 (SNP) に関してはこの制限はなく、個人の遺伝的同定だけでなく、個人の遺伝的特徴付けも可能になります 1,21,22。 さらに、ターゲットまたは非ターゲット MPS テクノロジーを使用して、多数の SNP を同時に簡単に遺伝子型特定することができます。

近年、大規模なゲノム、エピゲノム、トランスクリプトームシーケンスを伴う単一細胞シーケンス技術がいくつか登場し、生物学および生物医学の研究と応用に革命をもたらしています23。 シングルセルシーケンシング技術では、大規模シーケンシングの前に細胞を事前に標識し、その後の分析に十分な量の SNP データを提供できます。 原理的には、このような単一細胞配列決定技術は、混合デコンボリューションに現在使用されている方法の限界を克服すると期待されています。 しかし、我々の知る限り、ハイスループットの単一細胞シークエンシングは、現時点では混合デコンボリューションとその後の遺伝的特徴付けおよび分離された寄与者の個別の遺伝的同定にはまだ適用されていません。

ここでは、専用のバイオインフォマティクス パイプラインを備えた単一細胞トランスクリプトーム シーケンスに基づく新しいアプローチを紹介します。このアプローチは、複数人の生物学的混合物を分析することによって、個々の寄与者の遺伝的分離、および分離された寄与者の遺伝的特徴付けと個人の遺伝的同定を実現します。さらに、生物学的混合物の起源の組織を決定します。 この原理実証研究では、専用のバイオインフォマティクス パイプラインを使用したアプローチを導入し、複数人の血液混合物から新たに生成された scRNA-seq データセットと、公的に入手可能な個々の scRNA からイン シリコで生成された混合物を使用した最初の検証結果を提供します。 -seq データセットには、異なる生物地理的祖先を持つ異なる数の貢献者と、個々の貢献の異なる比率が含まれます。

単一細胞トランスクリプトームシーケンス(scRNA-seq)データから、複数人の血液混合に寄与した人物を遺伝的に分離、特徴づけ、個別に特定することを目的として、私たちはde-goulashと呼ばれるバイオインフォマティクスパイプラインを開発しました(図1a)24。 私たちは、複数人の血液混合物からデノボ生成した scRNA-seq データセットと、公開されている 1 人の scRNA-seq データセットを混合して作成した in silico 混合物にデグーラッシュを適用しました。 ScSplit25、Souporcell26、Vireo27 など、scRNA-seq データの分離に利用できるバイオインフォマティクス ツールがいくつかありますが、それらのどれも、単一細胞の分離と遺伝的特性評価および分離された混合物の寄与物質の個々の遺伝的同定を組み合わせた効率的なアプリケーションを可能にはしていません。 デグーラッシュでは、まず混合物をデコンボリューションします。つまり、scRNA-seq データから自動的に呼び出される 2 セットの SNP を使用して、2 段階のアプローチで混合物に寄与した個人を分離します。 デコンボリューションされた細胞クラスターは、以下で説明する混合に寄与した個人に対応し、性別、生物地理的祖先、および分離された細胞の個々の遺伝的識別に関する遺伝的特徴付けのために、分離された各細胞クラスターごとに追加の SNP セットを自動的に呼び出すために使用されます。ミックスの貢献者。

a 2 つの反復ステップ (mtDNA SNP ベースの分離とそれに続くゲノムワイド SNP ベースの分離) での scRNA-seq シーケンス データの前処理を伴う、単一細胞ベースの混合物デコンボリューションのためのデグーラッシュ パイプライン ワークフロー。 b 東アフリカ系の男性寄与者 1 名とヨーロッパ系の女性寄与者 1 名を含む、バランスのとれた 2 人の血液混合物の 2 段階の単一細胞分離プロセス (データセット M2) の 3D UMAP 表現。 c アフリカ系母系と推定される細胞クラスター1のハプログループ診断mtDNA SNPから推定されたmtDNAハプログループL2a1jの世界分布のEMPOP47マップ。 d 推定ヨーロッパ系母系のクラスター2のハプログループ診断mtDNA SNPから推定されたmtDNAハプログループU5b2b​​4aのEMPOPマップ。 e アフリカ系父方祖先と推定される細胞クラスター1のハプログループ診断Y-SNPから推定されたYハプログループEの文献マップ53。 クラスター 2 の遺伝的性別分析でも明らかになったように、クラスター 2 は女性の性別による Y ハプログループを示さなかったのに対し、クラスター 1 では男性の性別が得られました。 f、g 大陸参照集団データを使用して細胞クラスターごとに取得されたゲノム全体のSNPのSTRUCTUREを使用した双親祖先分析(Eur:ヨーロッパ人、Eas:東アジア人、Amr:ネイティブアメリカン、Afr:サハラ以南アフリカ人)、細胞クラスターの結果はサンプルとして示され、細胞クラスター 1 の結果は主要なアフリカ系祖先との推定混合双親祖先を示し、細胞クラスター 2 の結果はヨーロッパ系双親祖先を示します。 細胞クラスター 1 および 2 から推定される母方、父方、および双親の遺伝的祖先は、混合に関与する 2 人の個人の家族ベースの祖先と一致します。

デグーラッシュでは、scRNA-seq データのアラインメント後に、その後 2 ラウンドの遺伝子混合物のデコンボリューションが適用されます。 最初の反復ステップでは、scRNA-seq データに豊富に含まれるミトコンドリア DNA (mtDNA) の SNP が呼び出され、使用されます。 ヒトの mtDNA は母系を介して片親的に受け継がれるため、mtDNA のヘテロプラズミック部位を除いて、複数の個体からの DNA の存在によって多対立遺伝子 mtDNA SNP が発生します。 したがって、異なる母系に属する個体間で差異がある多数の mtDNA SNP (mtDNA ハプログループと呼ばれます) を考慮すると、mtDNA SNP は混合デコンボリューションに適しています。 この最初の反復では、大きな scRNA-seq データの小さなサブセット (つまり、mtDNA 部分) のみが処理されるため、少ないリソースで高速な計算が可能になります。 有益な mtDNA SNP は、細胞全体の頻度に基づいて選択されます。 SNP 細胞マトリックス内の位置にギャップが生じる、scRNA-seq のデータ欠落という固有の問題を克服するために、計算手法 DINEOF28 を適用しました。 欠損データを再計算した後、結果のセル行列がクラスター分析に使用されます。 次元削減と視覚化には、均一多様体近似および射影 (UMAP)29 が適用されます。 混合物中の個体数が不明な (または不明であると推定される) 場合、まず、取得される細胞クラスターの理想的な数についてのコンセンサスに達する複数のクラスター化手法のコレクションである NbClust30 を使用してクラスターの数を決定しました。 得られた行列は、事前に決定された k または NbClust 計算から得られた k を使用して、K 平均クラスタリングに使用されました。 2 番目の反復ステップでは、de-goulash は最初の反復で得られた mtDNA に基づいて確立された細胞クラスターを使用して、生成された細胞クラスターごとに適切なゲノム規模の SNP を呼び出します。 有益な SNP をフィルタリングし、欠損データを再計算した後、この拡張された SNP リストは、最初の反復と同様の手順に続く 2 回目のクラスタリング反復に使用されます。

この 2 段階の手順の後、パイプラインは最終的に取得した細胞クラスターを使用して、分離された細胞クラスターごとに追加の SNP セットを自動的に生成します。 異なる原理に基づいて選択されたこれらの異なる SNP セットは、その後パイプラインによって適用され、性別および生物地理学的祖先に関して分離された混合寄与者の特徴付けが行われ (人口参照データベースを使用)、最終的には分離された混合寄与因子を用途によって個別に特定します。全エクソーム配列参照データベースの。 その後の解析では、scRNA-seq データを使用して、解析された混合物内の細胞の起源の組織に関する情報も取得します (各単一細胞発現データ クラスターで差次的に発現された遺伝子を使用)。

私たちのアプローチをテストするために、最初に、2人の個人の寄与が等しい、単純な2人のバランスのとれた血液混合物(データセットM2、補足データ1)からscRNA-seqデータをde novo生成しました。 簡単にするために、2 人の個体は異なる性別と異なる大陸の生物地理的祖先 (アフリカ人とヨーロッパ人) を持つように選択されました。 De-goulash は、両方の反復において、混合物中の細胞が 2 つのクラスターに明確に分離していることを明らかにしました (図 1b)。 最初の反復では、62 個の mtDNA SNP が使用され、混合物中の細胞の 21.3% が分離されましたが、2 回目の反復では、630 のゲノムワイド SNP が適用され、ほぼすべての細胞 (97%) が分離されました (補足表 1)。

取得した 2 つの細胞クラスターが寄与する 2 人の個人に対応するかどうかをテストするために、まず、2 つの細胞クラスターのそれぞれについて、性別および生物地理的祖先に関する遺伝的特徴付け分析を個別に実行しました (個人の遺伝的同定分析については、以下を参照)。 遺伝的に性別を決定するために、最初に Y 染色体 SNP 分析を実行したところ、クラスター 2 では Y-SNP シーケンシング リードの数が非常に少ないことがわかり、これはノイズまたはアライメントのエラーによるものであると考えられましたが、クラスター 1 では約 10 倍多くのシーケンシングが検出されました。読み取ります (補足図 1、補足データ 2)。 次に、非コード RNA XIST をコードする遺伝子の発現レベルを調べました。この遺伝子は、生物学的女性の体細胞で特異的に発現され、2 本の X 染色体のうちの 1 つを不活化します 31。 XIST 遺伝子にマップするシーケンスリードを抽出した後、発現レベルをプロットしたところ、クラスター 2 では約 10 倍高い発現が見られ、クラスター 1 ではほとんど発現が見られませんでした (補足データ 3、補足図 2)。 これらの結果を総合すると、細胞クラスター 1 は男性に対応し、クラスター 2 は女性に対応すると結論付けることができました。これは、配列決定された血液混合物中の 1 人の女性と 1 人の男性についてのアプリオリな知識と一致します。

2 つの細胞クラスターに基づく生物地理的祖先の遺伝的推論は、ヒトゲノムの 3 つの異なる部分を使用して 3 つの異なる方法で個別に実行され、3 つの異なるレベルで生物地理的祖先を結論付けることができました。 まず、得られた mtDNA SNP データから Haplogrep232 を用いて mtDNA ハプログループを推定することにより、母方祖先、つまりその人の母方からの祖先を確立し、文献知識を用いて同定された mtDNA ハプログループの地理的分布を調査しました。 ここで、クラスター 1 (図 1b) はアフリカで最も一般的に観察される mtDNA ハプログループ L2a1j (図 1c) に割り当てられ、クラスター 2 はヨーロッパで最も一般的に見られる mtDNA ハプログループ U5b2b​​4a に割り当てられることがわかりました (図 1c) .1d)。 これらの割り当てはどちらも高い信頼度で行われました (それぞれ Q = 0.9767 および 0.9139)。

次に、Yleaf33を用いて得られたY染色体SNPデータからY染色体ハプログループを推定することで父方の祖先、すなわち男性の父方の祖先を確立し、文献知識を用いて同定されたYハプログループの地理的分布を調査しました。 細胞クラスター 1 では、中東と南アフリカをカバーする空間分布を示す Y ハプログループ E1b1b1b2a1a1 が検出されました (図 1e)。一方、クラスター 2 では、信頼できる Y 染色体データは得られませんでした (補足データ 4)。クラスター 2 の投稿者の性別は女性であると結論付けられています。

第三に、STRUCTURE 34 と公的 1000 ゲノム プロジェクト 35 の参照集団データを使用して、ゲノム全体の常染色体 SNP に基づいて、双親の生物地理的祖先、つまり父方と母方の両方からの人の祖先を推定しました。 この目的を達成するために、各細胞クラスターごとに、大陸集団間のわずかな対立遺伝子頻度の差 (最大 0.3) と物理的距離 (最小 500 kb) に基づいて祖先推定に適するようにゲノム全体の SNP をフィルタリングし、連鎖不平衡を調整しました。 細胞クラスター 1 では、53.6% のアフリカ系と 44.6% のヨーロッパ系の祖先が得られましたが、他の大陸系の祖先は少数 (0.4% アメリカ先住民、0.2% 南アジア系) かゼロ (東アジア系) でした (図 1f、補足データ 5)。 クラスター 2 については、ヨーロッパの祖先に対するほぼ完全 (99.2%) のクラスター化が明らかになりました (図 1g、補足データ 5)。

3 つの別々の遺伝的祖先分析のそれぞれによって裏付けられたデータを総合すると、クラスター 1 の男性個体は主にアフリカ系であり、クラスター 2 の女性個体はヨーロッパ系であると結論付けることができます。 この遺伝的発見は、配列決定された血液混合物中のヨーロッパ人女性とアフリカ人男性に関するアプリオリな知識と一致します。 注目すべきは、アンケートによると、男性の投稿者は父方の東アフリカ出身であることです。 東アフリカは、使用された 1000 ゲノム参照データにはあまり反映されていません (ほとんどのアフリカ人はサハラ以南のアフリカ出身です)。これは、私たちが検出した上位アフリカ系および下位非アフリカ系の祖先構成要素を説明しています。

さらに、同じ scRNA-seq データから得られた遺伝子発現プロファイルを使用して、混合物中に存在する細胞の起源の組織を決定しました。 t-SNE クラスタリング分析を使用して得られた各クラスター内で差次的に発現された遺伝子を使用して、Enrichr (Human Gene Atlas)36 による遺伝子濃縮分析によって組織および細胞の種類を決定しました。 両方のクラスターの細胞型が異なる血球型に属していることがわかりました。これは、scRNA-seqが血液混合物から生成されたというアプリオリな知識と一致しています(補足図3a)。

混合物のデコンボリューション手順の最初の反復ステップは mtDNA SNP のみに基づいているため、単一細胞分離の成功は混合物内の個体間の mtDNA の違いの程度に影響されると推測できます。 混合物のデコンボリューションに対するより密接に関連した mtDNA ハプログループの影響をテストするために、上記の個人 2 を含む 2 番目の 2 人のバランスのとれた血液混合物から scRNA-seq データ (データセット M2-cl、補足データ 1) を生成しました (ヨーロッパ人)ハプログループ U5b2b​​4a を持つ女性) と新しい個体 3 (母方はヨーロッパ人の祖先で、父方はアフリカ人の mtDNA ハプログループ U5a2b4 を持つ男性)。 技術的な理由により、この血液混合物から得られた全体的な配列決定の深さは比較的浅かったが(補足データ1)、細胞が2つのクラスターに明確に分離されていることが明らかになりました(図2a)。 最初の反復では 3 つのクラスターが検出されましたが、これは配列の深さが浅く、データ全体のノイズが原因で利用可能な mtDNA SNP の数が減少したことが原因である可能性がありますが、2 回目の反復では、今回の予想どおり、2 つの明確に分離された細胞クラスターが示されました。二人混合。 生物学的性別および生物地理学的祖先分析の結果は、この血液混合に寄与した2人の個人に関するアプリオリな知識からの予想と一致しました(補足データ3〜5、補足図2〜4)。 これらの発見は、混合物中の分離対象個体の mtDNA 分化の程度が、混合物デコンボリューション手法の成功に悪影響を及ぼさないことを示唆しています。

a – c それぞれ 2 人の個人(上、データセット M2 ~ cl)、3 人の個人(中央、データセット M3)、および 4 人の個人(下、データセット M4)が関与する平衡血液混合物の単一細胞分離の 3D UMAP 表現。 左側のパネルは、mtDNA SNP に基づく混合物デコンボリューションの最初の反復ステップ後の結果を示しています。 右側のパネルは、ゲノム全体の SNP に基づいた 2 回目の反復後の結果を示しています。 a 両方の反復ステップ後に 2 つの異なるクラスターに分離された、密接に関連した mtDNA ハプログループを持つ 2 人のヨーロッパ人個体の混合物、 b 両方の反復ステップ後に 3 つの異なるクラスターに分離された 3 人のヨーロッパ人個体の混合物、 c 多様な起源の 4 人の個体の混合物 (個体 1&2: 女性、ヨーロッパの祖先、個人 3: 男性、ヨーロッパの祖先、個人 4: 男性、母方のヨーロッパ人の祖先、父方のアフリカ人の祖先) は、両方の反復後に 4 つの異なるクラスターに分離されました。 d、f、i、k 常染色体SNPからのSTRUCTUREを使用した双親祖先分析により、1000ゲノムプロジェクトデータからの大陸参照集団データ(Eur:ヨーロッパ人、Eas:東アジア人、Amr)を使用して4人混合から個々のクラスターが得られました(図2c)。 : ネイティブアメリカン、Afr: サハラ以南アフリカ人) は、ヨーロッパ人の両親の祖先が推定された d セル クラスター 1、ヨーロッパ人の祖先が推定された f セル クラスター 2、ヨーロッパ人の祖先が推定された i セル クラスター 3、および主要なアフリカ人と推定された k セル クラスター 4祖先。 e、g、j、l mtDNA ハプログループ U5b2b​​4a (ヨーロッパ系母系) を持つ e 細胞クラスター 1、g 細胞クラスター 2 の (図 2c) の 4 人混合の個々のクラスターの mtDNA SNP から推定された mtDNA ハプログループの EMPOP マップmtDNA ハプログループ T2a1a (ヨーロッパ祖先) を含む、j 細胞クラスター 3 は mtDNA ハプログループ H11a1 (ヨーロッパ祖先) を含み、l 細胞クラスター 4 は mtDNA ハプログループ U5a2b4 (ヨーロッパ祖先) を含みます。 h – m Y ハプログループ I2a1b1a2b1a (南ヨーロッパ祖先) を持つ f 細胞クラスター 2 の 4 人混合物 (図 2C) の 4 つの細胞クラスターのうち 2 つごとのハプログループ診断 Y-SNP から推定された Y ハプログループの文献マップ 53 、Y ハプログループ E1b1a1a1a1a (アフリカ系) を持つ細胞クラスター 4 の m。

より複雑な混合物に対する私たちのアプローチをさらにテストするために、3 人以上の個人からの血液混合物に対して scRNA-seq を実行しました。 まず、同じ大陸系の祖先を持ち、全員がヨーロッパ人である 3 人の個人から 3 人のバランスの取れた血液混合物を生成し、この混合物に対して scRNA-seq を実行し、その後のデグーラッシュ データ分析を実行しました (データセット M3、補足データ 1)。 混合デコンボリューションでは、最初の反復ステップでは明確なクラスター化が得られませんでしたが、2 回目の反復後に一致するセルの大部分 (96.5%) に基づいて 3 つの異なるクラスターが得られました (図 2b) (補足表 1)。 3人混合で。 3 つの分離された細胞クラスターからの遺伝的特徴分析により、ゲノム全体の SNP に基づいて推定される母方および父方の祖先、および双親の祖先を伴う、性別、ミトコンドリアおよび Y-DNA ハプログループ (補足データ 4) に関する信頼性の高い情報が提供されました (補足図 4、補足データ 5) は、この 3 人の血液混合物中に 2 人のヨーロッパ人女性と 1 人のヨーロッパ人男性が存在するという先験的知識と完全に一致しました。

次に、前述のヨーロッパ人 3 名とアフリカ人男性 1 名を使用して 4 人のバランスの取れた血液混合物を生成し、scRNA-seq およびデグーラッシュ データ分析を実行しました (データセット M4、補足データ 1)。 3 人の混合の場合と同様、混合デコンボリューションの最初の反復では明確な分離が得られませんでした (補足表 1、図 2c)。一方、2 回目の反復では、セルのほぼすべて (98%) を使用して 4 つの異なるクラスターが示されました (図 2c)。 . 2c) 4人混合に同意。 遺伝的特徴付け分析により、この 4 人の血液混合物に含まれる個人のアプリオリな知識から予想される、性別、ハプログループ、および父方、母方、および両親の生物地理的祖先が実証されました(図 2d–m、補足図 1–4、補足データ 2-5)。

第三に、各混合物あたり 5 ~ 9 人の個体を含むバランスの取れた混合物をコンピュータで生成しました (データセット M5 ~ M9)。 5 人の in silico 混合物は、データセット M2 と M4 を組み合わせて作成されました (1 人の個人が両方の実験に参加したため、M2 と M4 の両方のデータセットに存在しました)。 6 ~ 9 人の個人を含むさまざまなインシリコ混合物は、4 つの公的に利用可能な単一個人 scRNA-seq データセットと M4 データセットを組み合わせることによって作成されました (補足表 2)。 デグーラッシュを使用して、これらすべてのインシリコ混合物について、最も複雑な9-人の混合物(図3e、補足図5e)。 個々のデータセットを個別に分析することで推定したように、分離された細胞クラスターは、性別、mtDNA、Y ハプログループ、およびその結果として生じる母方および父方の祖先に関する正しい情報も明らかにしました (補足データ 2-4 および補足表 3)。 これらの結果は、私たちがテストした最も複雑な混合物を表す 9 人の個体では、混合物のデコンボリューション手法の限界に達していないことを示唆しており、9 人を超える個体のバランスのとれた混合物は、私たちのアプローチで首尾よくデコンボリューションできることが期待されます。 これらの混合物におけるすべての寄与者について母方および父方の祖先は正しく導出されましたが、より複雑な祖先を持つ個体(インシリコ混合物 M6 ~ M9 のデータセット A1 および A2、補足表 4)の双親祖先の推定は、非常に複雑な混合物では信頼性が低いようです。 (補足図 4、補足データ 5)、さらなる調査が必要です。

a 5 人の混合、b 6 人の混合、c 7 人の混合、d 8 人の混合、e 9 人の混合。 カラーコードは、それぞれの混合物からの異なる個体を示します。 De-goulash は、mtDNA SNP に基づく最初の反復と、ゲノム全体の SNP に基づく 2 番目の反復という 2 段階のアプローチを使用します。

次に、混合物から得られたデコンボリューションに成功した scRNA-seq データに基づいて、分離された寄与者の個々の遺伝的同定が可能かどうかを調査しました。 この目的のために、前述の血液混合物に貢献したすべての個人の口腔スワブ参照サンプルから全エクソームシーケンス(WES)データをさらに生成しました。これは、比較照合に基づいて個人を識別するための研究参照データベースとして機能しました(補足表5)。 常染色体 SNP は、同一性 SNP 選択のための 2 つの一般的な基準を考慮して、すべての混合物におけるデコンボリューションされた各細胞クラスターの scRNA-seq データから抽出されました。 (i)頻度が 0.3 以下の 1000 ゲノム プロジェクト データ、および (ii) 連鎖不均衡によって引き起こされる影響を軽減するために、SNP 間の物理的距離が 500 kb より大きい。 個々の遺伝的同定は、各混合物中の分離された細胞クラスターのそれぞれから得られた同一性 SNP を WES 参照データベースと照合することによって実行されました。 分離された各細胞クラスターごとおよび混合物全体で、WES 参照と重複する細胞クラスターから得られた同一性 SNP は、クラスターと混合物間で 35 ~ 162 の範囲で、遺伝的マッチングに使用されました。

個々の遺伝的識別のための遺伝的一致の証拠の強度を決定するために、尤度比 (LR) と確率一致 (PM) が統計パラメーターとして適用されました。 LR は、一致するサンプルと参照サンプルが同じ個人に由来するかどうかを判断するために使用されます 37。一方、PM は、一致が無関係な個人によって引き起こされた確率を示します。 遺伝的識別プロセスでは、一般に 10E + 6 を超える LR は、個人識別に有利な仮説を支持する非常に強力な証拠とみなされます 38。 ここでは、新しい手法を使用しているため、より控えめな 10E + 9 しきい値を使用しました。 すべてのデータセットで、研究参照データベース内のサンプルの1つとの有意な一致(SNPの90%以上)が見つかりました(図4a〜f、補足図6)。 不一致の SNP の割合は、シーケンスのエラーまたはクラスター間の軽微なブリードスルーのいずれかに起因すると考えられます (補足データ 6)。 得られたすべての個別の一致について、一致する SNP プロファイルの LR は、一致するサンプル全体で 1.71E + 14 から 5.00E + 65 の範囲で、使用したしきい値よりも大幅に高く、分析された混合物に対する個々の寄与者の特定に成功するための強力な証拠を提供しました (図4g–l)。 注目すべきことに、最大9人の個体を含むテストされた最も複雑な混合物であっても、分離された細胞の数が大幅に少なく、すべての混合物の寄与者の個体の遺伝的同定は成功裏に達成されました(図4l、補足データ7)。 混合物および研究参照データベースで使用された一致する個体のその後の検査により、すべてのケースで正しい個体識別が確認されました。

全エクソームシーケンスリファレンスに一致する同一性 SNP の数 (a ~ f)。 a 2 人の個人の血液混合物 (データセット M2)、b 密接に関連した mtDNA ハプログループを持つ 2 人の個人の血液混合物 (データセット M2-cl)、c 3 人の個人の血液混合物 (データセット M3)、d 4 人の個人の血液混合物 (データセット M4) 、e 5人の個人のインシリコデータ混合物(データセットM5)、f 9人の個人のインシリコデータ混合物(そのうち5人のみが個人の遺伝的識別に利用可能なWES参照データを持っていた)(データセットM9)。 統計に基づいた個人の遺伝子識別。 LR と PM の対数表現 (g-l)。 尤度比 (LR) と確率一致 (PM) は、個人の遺伝的識別のための遺伝的一致の証拠の強度を決定するための統計パラメーターとして使用されました。 緑色の線は、正しく識別されるための 10E9 LR しきい値を表します。 g 2 人の個人の血液混合物 (データセット M2)、h 密接に関連した mtDNA ハプログループを持つ 2 人の個人の血液混合物 (データセット M2-cl)、i 3 人の個人の血液混合物 (データセット M3)、j 4 人の個人の血液混合物 (データセット M4) 、k 5人の個人のインシリコデータ混合物(データセットM5)、l 9人の個人のインシリコデータ混合物(そのうち5人のみが個人の遺伝的識別に利用可能なWES参照データを有していた)(データセットM9)。

次に、より困難な不均衡な混合物、つまり、さまざまな個人が異なる寄与をした混合物に対するアプローチをテストしました。 2 つのデータセット (A2 および A4) から 1000 個のセルを選択し、それらを 1:10 から 1:99 の範囲の異なる比率で混合する、不均衡な 2 人混合から始めました (補足表 6)。 マイナーコンポーネントのセルは、情報量の高いセル、つまり、それぞれのデータセット内で最も多くのシーケンシングリードを含むセルから選択されました。 細胞の選択中に保持された細胞バーコードを使用して、平衡混合物からの元のデータセットと比較することで、分離プロセスの成功を評価することができました。 1:10、1:20、および 1:40 の不均衡なインシリコ混合物では、クラスター間の「にじみ」がなく、混合内の 2 人の個人に応じた明確なクラスター分離が観察されました (図 5a)。表7)。 1:60 データセットでは、主成分のクラスターに誤って割り当てられた副次成分の 5 つのセルからなる副次数を持つ 2 つの細胞クラスターが観察されました (補足表 7)。 1:80 データセットでは、データは 2 つの異なる細胞クラスターに明らかに分離されていましたが、クラスター間の重大な不正確な割り当てとにじみが見られました (補足表 7)。 最後に、1:99 データセットでは、パイプラインはセルのクラスター分離に到達しませんでした (図 5a)。 これらの結果は、不均衡な 2 人混合の場合、私たちのアプローチが少なくとも約 1:60 までの貢献を持つ 2 人の個別の貢献者を正確にデコンボリューションできることを示唆しています。

1:10 から 1:99 までのさまざまな混合比の不均衡な 2 人混合における単一細胞分離プロセスの限界を示す UMAP クラスタリング。 b、c 総細胞数の 3% の微量成分を含む不均衡な 4 人混合の単一細胞混合物のデコンボリューションからの UMAP クラスタリング、b は 1 つの微量成分を含む混合物 (青)、c は 3 つの微量成分を含む混合物 (黒)。 d 個人の識別に使用される同一性 SNP の平均数(マーカー用)と、デコンボリューションおよびサンプリングされた 4 人の個人の混合物のクラスターの細胞数ごとのクラスターごとの利用可能な SNP の総数(マーカー合計)(データセット M4)。 e 細胞クラスターと細胞数当たりの細胞クラスターごとの WES 参照データベース間で一致する同一性 SNP 対立遺伝子のパーセンテージ (データセット M4 のデコンボリューションされたクラスターから)。 f セル数当たりのセル クラスターごとの尤度比の平均対数表現 (データセット M4 のデコンボリューションされたクラスターから)。 g (データセット M4 のデコンボリューションされたクラスターからの) セル数ごとのセルクラスターごとの一致確率の平均対数表現。 h データセット M4 のデコンボリューションされたクラスターからの、細胞クラスターごとの Y および mtDNA ハプログループの平均正しい割り当て (バー) と、予測の顕著な平均品質 (点)。

次に、前述の M4 データセットから 4 人の個体からなる 2 つの不均衡な細胞混合物を生成することにより、2 人以上の個人の貢献者によるより複雑な不均衡なインシリコ混合物に対するアプローチをテストしました。 これらの混合は、M4 データセットの以前のクラスタリング割り当てを使用して生成されました (図 2c)。 最初の不均衡な 4 人混合物には、混合物内の全セルの 3% を占める 1 つの微量コンポーネントと、残りの 97% のセルを占める等量の 3 つの主要コンポーネントが含まれていました。 私たちのアプローチは、4 つの個別のクラスターが明確に分離されていることを明らかにすることで、混合デコンボリューションに成功しました (図 5b)。 元のバランスの取れたデータセットのクラスター割り当てと比較すると、マイナーコンポーネント (3 セル) へのセルの割り当ての変化は最小限であり、メジャーコンポーネントクラスター間で 49 個のセルが誤って割り当てられていることが観察されました (補足表 7)。

2 番目の不均衡な 4 人混合では、3 つの微量成分がそれぞれ総細胞数の 3% を占め、1 つの主要成分が残りの 91% の細胞を表すという点で、微量成分と主要成分の組成を逆転させました。 ここでも、4 つの個別のクラスターが明確に分離されました (図 5c)。 また、元のバランスの取れたデータセットと比較したマイナー クラスターの差は最小限でした (そのうちの 2 つは、以前に異なるように割り当てられた 1 つのセルを含んでいます)。一方、マイナー コンポーネントからメジャー コンポーネントへの観察されたブリードスルーは合計 42 セルでした。 この分析は、4 人の不均衡な混合物では、主要なコンポーネントに加えて、セルの総数の 3% に相当するマイナーなコンポーネントも正常にデコンボリューションできることを示唆しています。

データセットの遺伝的特徴付け分析を実行すると、主要クラスターとマイナークラスターの両方で、性別、mtDNA、Yハプログループ、およびその結果として生じる母方および父方の祖先に関する正しい情報が得られました(補足表8、補足図7、8)。 双親祖先に関しては、マイナーコンポーネントクラスターのSTRUCTURE結果では明確な証拠は得られませんでしたが、これはおそらくこの分析に利用できる常染色体SNPの数が限られていたためです(補足表8、補足図7、8)。

最後に、4人の貢献者が関与する以前に分離されたM4データセットを使用して、個人の遺伝的同定に対するアプローチの感度を調査し(図2c)、10から500の範囲のさまざまな数の細胞のデータポイントを作成しました。各細胞クラスターについて、ランダムにデータセット内のさまざまな数の細胞をシミュレートするために携帯電話のバーコードを選択しました。 選択バイアスを補正するために各サンプリングを 10 回繰り返し、分析パイプラインの結果を平均してプロットして、各パラメーターを正常に決定するために必要なセルの平均数を決定しました。 個人識別のための研究参照データベースに対する遺伝子照合は、ほとんどの場合、10 個の細胞ですでに 90% 照合 SNP 閾値に達しています。 個々の遺伝的同定は、細胞数が少ないとより不安定でしたが、50 個を超える細胞が含まれると安定しました (図 5d、e、補足表 9)。 ただし、一致する SNP の割合は、20 個を超える細胞で構成される収集されたすべてのデータ ポイントで 90% 以上に留まりました (図 5d、e、補足表 9)。 LR の場合、特に 30 細胞を超えると全体的な線形傾向が観察されました (図 5f、g、補足データ 8)。ハプログループの決定でも同様の傾向が観察できます (補足データ 9 および 10)。 すべてのクラスターは、100 ~ 200 個のセルで保守的な LR しきい値 (10E + 9) を超えました。 これらの分析は、ここで使用したシーケンスの深さと範囲で、私たちのアプローチが、個々の寄与者あたり150個を超える細胞を含む、分離された不均衡な複数人の混合物に対して個人の遺伝的同定を実現できることを示唆しています。 この最小細胞数は、scRNA-seq リード深度の増加に伴ってさらに減少すると予想され、これにより検出可能な SNP の総数が増加し、したがってマッチングに利用できる同一性 SNP の数が増加します。

過去数年間で、ScSplit25、Souporcell26、Vireo27 など、混合物のデコンボリューションを可能にするいくつかの単一細胞シーケンス データ分析パイプラインが開発されました。 ただし、当社のデグーラッシュ パイプラインとは異なり、混合物のデコンボリューションに加えて、将来の法医学用途に不可欠な遺伝子特性評価と個々の遺伝子識別ステップが含まれていません。 したがって、これらの既存のパイプラインと当社の統合パイプライン デグーラッシュを直接比較することは不可能であるため、デグーラッシュの混合デコンボリューション部分をデコンボリューションのみのパイプラインと比較しました。 5000 個のセルを含む 2 人の個人の混合物でテストした場合、テストされたすべてのツール (SoupOrCell、Vireo、ScSplit、およびデグーラッシュ ツール) は 2 人の個人をデコンボリューションできました。 ただし、ScSplit はドナー 1 の細胞の 45.16% をクラスターに割り当てることができませんでした (補足図 9a、b)。 De-goulash は、SoupOrCell や Vireo と比較して、RAM の消費量が最も少なくなりました (補足図 10a、b)。 SoupOrCell と Vireo は、デグーラッシュに比べて時間がかかりませんでした (補足図 10a、b)。 ScSplit では、時間は短くなりましたが、より多くのリソースが必要になりました (補足図 10a、b)。 混合物の複雑さを 9 人、合計 10,000 個のセルに増やすと、Vireo は degoulash と同じくらい良好なパフォーマンスを示しました (補足図 9c、e)。一方で、SoupOrCell は複数のクラスターで間違ったセル割り当ての割合が高かった (補足図 9c、e)。 .9d)、ScSplit は同様の手段によるデコンボリューションに失敗しました。 9 人の個人の混合をデコンボリューションするために必要なリソース (RAM と時間) は、2 人の個人の混合をデコンボリューションするのに必要なリソースの量と同様の傾向に従います (補足図 10c、d)。 混合デコンボリューション段階では、デグーラッシュは、他のデコンボリューション専用ツールと比較して必要なリソースが少ない、正確な混合デコンボリューション パイプラインであると結論付けています。 デグーラッシュは、他のすべてのソフトウェア ツールに欠けている、遺伝子特性評価と個々の遺伝子識別部分、および組織識別部分の合理的な統合により、混合物のデコンボリューションが最初のステップとなり、その後に続く法医学用途に独自の機会を提供します。容疑者が不明の場合には遺伝的特徴付けが行われ、容疑者が既知で混合物の組織型に関する知識が非常に重要な場合には個人の遺伝的特定が行われます。

生物学的混合物に関与した個人の分離、およびその後の遺伝的特徴付けや個人の特定は、多くの分野、特に法医学調査において重要です。 混合物のデコンボリューションという長年の課題を解決するために、私たちは、適切な方法が利用可能であれば、単細胞トランスクリプトームデータに存在する遺伝情報によって、(i) 生物学的混合物に寄与した個人を分離することができると仮説を立てました。 (ii) 性別や祖先など、分離した寄与者の特徴を明らかにし、(iii) 分離した寄与者を個別に特定し、(iv) 混合物中の細胞の起源の組織を決定します。 私たちは、単一細胞シークエンシングと専用のバイオインフォマティクスパイプラインに基づく新しいアプローチを開発することで仮説を検証し、デノボで生成された、およびインシリコでの複数人の混合物から得られた、単純で複雑なだけでなくバランスの取れたさまざまなscRNA-seqデータセットでそれをテストしました。アンバランスなもの。 私たちの原理実証研究は、異なるレベルの複雑さ(単純と複雑、バランスの取れた混合と不均衡な混合)を持つ複数人の血液混合物に寄与した個人を遺伝的に分離し、分離された混合物の寄与者を遺伝的に特徴付けて個別に特定することの実現可能性を実証しています。

特に法医学における混合デコンボリューションに関するこれまでの試みのほとんどは、混合 DNA プロファイルに基づいて寄与者を分離することを目的としていましたが、私たちの新しいアプローチでは、遺伝的特徴付けと遺伝的個別化分析の前に個々の寄与者を分離しました。 したがって、下流の遺伝子分析は単一ソース分析として実行され、それにより、混合 DNA プロファイルから個人を特徴づけて特定するという課題が回避されました。 我々は、我々のアプローチが最大 9 人の個人を含む生物学的混合物への個々の寄与者を正確に分離できることを実証します。 ただし、ここでテストした混合物内の最大数 9 人の個人では、混合物のデコンボリューションに制限は見られませんでした。 これは、我々のアプローチが、個々の細胞クラスターごとに得られたSNPの数に応じて、9人を超える個体の混合物を首尾よくデコンボリューションできる可能性があることを示唆しており、今後の実験的テストが正当化される。 我々が実証したように、最初のステップとしてmtDNA SNPを考慮することによるデコンボリューションアプローチの設計は、近縁のmtDNAハプログループと遠縁のmtDNAハプログループを持つ個体からの混合物が同様によく分離されたため、マイトゲノムの類似性の程度によって妨げられることはありません。 また示されているように、私たちのアプローチは、バランスの取れた混合物と不均衡な混合物から少なくとも 1:60 の比率まで、また少なくとも 150 個の細胞から個体を分離できます。 ただし、ここで行われるよりも深い単一細胞配列解析では、利用可能な SNP の数が増加するため、より少ない細胞からのデコンボリューションおよび下流の遺伝的特徴付けおよび同定解析の成功が可能になりますが、これには将来の経験的確認が必要です。

私たちのアプローチが非常に不均衡な混合物にうまく対処できるということは、バランスの取れた混合物よりも不均衡な混合物が犯罪現場でよく見つかる法医学の状況において特に興味深いものです。 私たちのアプローチは、直接的に、またはさらなる修正や開発を加えて、法医学などの将来のアプリケーションに新たな機会を開きます。 現状では、私たちのアプローチは、複数人の血液混合物が分析に利用できる暴力犯罪事件に適用される可能性があり、容疑者がすでに捜査当局に知られているか、まだ不明であるかという両方のシナリオに適用される可能性があります。 容疑者不明の事件では、ここで研究されているように、性別と生物地理的祖先の法医学的DNA表現型解析によるサンプル提供者の遺伝的特徴付けが重要であるが、これに加えて外見的特徴も重要である。これにより、集中的な警察捜査により不明の容疑者を発見できるようになるからである。 これを達成するには、考慮される SNP が、祖先推論に使用される母集団参照データと、出現予測に使用される統計モデルに含まれる必要があります。 大陸系の祖先に関する冗長な情報を持つ多数の常染色体 SNP と、mtDNA および Y ハプログループを特徴づけて母方および父方の祖先を推測するための mtDNA および Y-DNA SNP の冗長性のため、デコンボリューションされたデータから十分な SNP を取得するだけで済みます。必ずしも特定の細胞である必要はなく、混合物内および混合物間の異なる個々の細胞クラスター間で必ずしも同じ SNP である必要はありません。 これと、分離された細胞クラスターから得られた十分な数の mtDNA、Y-DNA、および常染色体 SNP のおかげで、私たちのアプローチにより、分離された混合物の寄与者の母系、父系、および双親系の祖先を首尾よく推論することができます。 ただし、遺伝的特徴付けを拡張して、統計的予測モデルで使用される特定の SNP に基づいて機能する外観予測を追加する場合、これはさらに困難になることが予想されます。 法医学的 DNA 表現型解析の文脈における遺伝的特徴付けの拡張には、生物学的混合物のトランスクリプトームからゲノム配列決定に移行することが有益です。これにより、より多くの SNP が提供され、したがって外観予測モデルで使用される特定の SNP も提供される可能性があります。

容疑者が判明している事件の場合、法医学上の重要な結果は、比較法医学 DNA プロファイリングによるサンプル提供者の個人の遺伝的特定です。 これを達成するために、生物学的混合物に関与し、ここでデコンボリューション手法によって分離された個人などの個人が、既知の事件容疑者の参照 DNA サンプル、または法医学施設に保管されている以前に有罪判決を受けた犯罪者から得られた参照データセットと照合されます。 DNAデータベース。 我々は、我々のアプローチにより、バランスの取れた複数人の混合物と不均衡な複数人の混合物から分離された混合物の寄与者の個別の遺伝的同定が最高の統計基準で可能であることを示しました。これは、分離された個々の細胞クラスターからそれぞれ十分に十分な同一性SNPが得られたために可能でした。 ただし、アイデンティティ SNP は分離された個々の細胞クラスターごとに取得されるため、私たちのアプローチは普遍的なアイデンティティ SNP、つまりすべての個体にわたる同じアイデンティティ SNP では機能しません。 祖先 SNP に関しては、SNP 選択に使用される反対の集団遺伝的特徴に基づいているにもかかわらず、同一性 SNP にも冗長性があります。 したがって、個人の遺伝的同定にとって重要なことは、必ずしも特定の SNP ではなく、十分な同一性 SNP を取得することです。 ユニバーサル アイデンティティ SNP は使用されないため、参照データセットの要件は、できるだけ多くの SNP を含めること、したがってできるだけ多くのアイデンティティ SNP を含めることです。 このようにして、混合デコンボリューションが成功した後に細胞クラスターから取得されるアイデンティティ SNP のセットがどのようなものであっても、使用される参照データセットでほとんどが利用できるため、マッチングに利用できる可能性が高くなります。 本研究では、WES データに存在する SNP と混合物に対して実行されたトランスクリプトーム シーケンスから得られた SNP との間に予想される重複があるため、WES データを参照データセットとして使用することで、この複雑さの問題を解決しました。 全トランスクリプトームシークエンシングを参照サンプルに対して使用することもでき、これにより、遺伝子照合に利用できる同一性 SNP の数が増加します。 これは、マイナーまたはすべての寄与者ごとに少数の分離可能なセルが含まれる混合物の場合に特に興味深いでしょう。 さらに、将来的には、当社の単一細胞混合物デコンボリューション手法は、混合物と参照サンプルの両方のゲノム配列決定に応用される可能性があり、これにより、(遺伝的特徴付けに加えて)個々の遺伝的同定に利用できる SNP の数がさらに増加すると予想されます。 。

私たちは、私たちのアプローチが捜査遺伝系図学 (IGG) や法医遺伝系図学 (FGG) にも適用できると想定しており、それにより、高密度の SNP データセットを使用して、公開遺伝子データベースを介して犯罪現場サンプルのドナーの親族を見つけ出すことができます 39。 このアプローチは、数人の行方不明者と加害者の身元確認に成功したため、近年ますます注目を集めています。 実際、我々のアプローチは、混合物中の個々のプロファイルを識別して単一プロファイルの SNP データセットを作成することができましたが、現在の研究では IGG 設定で使用するにはまばらすぎました。 遺伝的代入により、その後の家系図検索のために公開データベースにアップロードできるレベルまでデータがさらに強化される可能性があります40。

法医学ケースワーク アプリケーションでは、特定の事件で警察が知っている特定の容疑者について、容疑者の参照サンプルからトランスクリプトーム、エクソーム、またはゲノム配列データを生成することが可能であり、これが私たちのアプローチで混合事件を解決するための前提条件として機能します。 残念ながら、多くの場合、警察は容疑者を知らないため、D/RNA 配列分析に利用できる参照サンプルがありません。その場合、遺伝子特徴付け部分を使用した当社のアプローチは、未知の容疑者を発見し、標準的な法医学的 STR に提出するのに役立ちます。プロファイリング。 しかし、現時点では、容疑者不明の事件を解決するために、近い将来、国立法医学 DNA データベースにトランスクリプトームまたはゲノム配列データが含まれるようになるというのは非現実的であるように思われます。 おそらく、配列決定コストが減少すれば、D/RNA 配列決定技術のさらなる発展により、この状況は変わるでしょう。

特に将来の法医学応用に関する欠点は、ここで使用した 10X ゲノミクス scRNA-seq プラットフォームでは、遺伝子分離を成功させるために生細胞が必要であるため、生細胞を含む生物学的混合物への応用が制限されることです。 より広範な法医学用途のためには、生細胞を必要としない代替の単一細胞プラットフォーム、または固定細胞で動作できるプラットフォームが将来テストされ、開発される必要があります。 さらに、すべての寄与因子または少数の寄与因子の細胞数が非常に少ない混合物の場合、SNP の総数を増加させて、遺伝的分離を成功させるのに十分な SNP が得られるように、トランスクリプトームまたはゲノムをより広範囲にカバーするより深いシークエンシングが必要になります。混合寄与者の特徴付けと個々の遺伝的同定が利用可能であるが、これも経験的にテストされるべきである。

結論として、この研究では、生物学的混合物の寄与物質を遺伝的に分離、特徴づけ、個別に特定するための新しいアプローチを開発しました。 私たちのアプローチは、個々の寄与因子ごとに細胞を遺伝的に分離するための生物学的混合物の単一細胞配列決定に基づいており、その後の遺伝的特徴付けと分離された混合寄与因子の個々の遺伝的同定が単一ソース分析になります。 この原理実証研究では、単純な混合物と複雑な混合物、およびバランスの取れた混合物と不均衡な混合物に対するアプローチの実現可能性を実証します。 今後の研究では、ここで使用した血液混合物以外の他の種類の生物学的混合物への移行性を示す必要があります。 特に、当社のバイオインフォマティック パイプライン デグーラッシュは、SNP を抽出できるあらゆる種類の配列データセットで動作するため、将来的にはトランスクリプトームからゲノム配列決定への移行が可能になります。 このようなさらなる開発により、抽出可能なSNPの数が増加すると予想されており、これは、細胞数が少ない(微量)寄与因子を含む混合物のデコンボリューションや、分離された混合寄与因子の遺伝的特徴付けおよび個々の遺伝的同定に有益であり、また、遺伝的特徴付けの拡大も可能になる可能性があります。出現予測に向けた分析を行います。 さらなる研究により、最終的には、細胞、組織、オルガノイドの培養物中の汚染物質の特定など、混合物のデコンボリューションが必要な犯罪現場や生物医学研究で発見された生物学的混合物に私たちのアプローチを適用できるようになる可能性があります。

訓練を受けた瀉血専門医による静脈穿刺手順を使用して、各ドナーから血液を 10 mL EDTA 抗凝固剤チューブに採取しました。 PBMCは、LymphoprepTM(Stemcell Technologies、#07851)プロトコルを使用した密度勾配によって単離された。 つまり、まず血液を 15 mL チューブに移し、遠心分離しました。 次いで、血漿を除去し、サンプルを2%FBSを含む1容量のPBSに再懸濁した。 次いで、サンプルをLymphoprepTM上に層にし、遠心分離した。 PBMC 層を 2% FBS を含む PBS に移し、2 回洗浄し、40 μL セル ストレーナーで濾過しました。 細胞生存率は、Countess II セルカウンターを使用して評価しました。 ドナーのバランスの取れた混合物は、各個体からの同数の細胞を混合することによって調製され、得られた細胞懸濁液は、10X Genomics 単一細胞調製ガイドの推奨に従って希釈されました。

単一細胞 RNA シーケンシング ライブラリーは、10X Chromium 単一細胞ライブラリー調製プロトコールに従って生成されました。 混合物 M2 および M2-cl scRNA-seq ライブラリーは、10X Chromium Single-cell 3' Reagent Kits v3 プロトコルに従って調製されました。 混合物 M3 および M4 は、10X Chromium Next GEM シングルセル 3' 試薬キット v3.1 (デュアル インデックス) を使用して調製されました。 ライブラリーは Illumina Novaseq6000 で配列決定されました。 シーケンスの深さ、セルごとのリード、実験ごとのシーケンスされたセルの数は、補足データ 1 で利用できます。

Cell Ranger 3.0.2 ソフトウェア (10X Genomics) の一部である STAR アライナーを使用して、シーケンシングリードをヒトゲノム (GRCh38) にアラインメントしました。 平均して、GRCh38 ゲノムに対して 91.63% のアラインメント率が得られました (アラインメント情報は補足データ 1 で入手可能)。 有効なセルは、バーコードごとの合計 UMI カウントに基づいて呼び出されます。 バーコード、UMI、遺伝子アノテーション、遺伝子発現に基づく発現マトリックスをグループ化と t-SNE クラスタリングに使用しました。 差次的発現は、クラスター間の平均発現と対象クラスター間の差を使用して計算されました。

2 ステップのデコンボリューション プロセスを開始するために、アライメントされた scRNA-seq データ (BAM ファイル) は、subset-bam v1.1.041 (i) 細胞バーコードを含むリード、および (ii) mtDNA のみを含む BAM ファイルの 2 つの基準を使用してフィルタリングされました。読み取り (最初の反復にのみ必要)。 結果として得られた BAM ファイルは、samtools v.1.942 を使用して TAG によってインデックス付けおよび並べ替えられ、セルラー バーコードに基づいたカスタムメイドの Pysam v0.15.443 スクリプトを使用して個々のセル BAM ファイルに分割されました。 バリアントは、解析引数「-iXu -C 2 -q 1」を使用して、並列 FreeBayes v1.3.144 で (データセット BAM ファイル全体で) 呼び出されました。 結果として得られた vcf ファイル (SNP を含む) は、bcftools フィルター QUAL < 80 DP < 100 (QUAL、品質、DP 深さ) によってさらにフィルターされました。 個々のセルごとに、各 SNP をサポートするリード数を samtools mpilup を使用してカウントしました。 インデルは除外され、各塩基の頻度表が SNP ごとに計算されました。 1 位置あたり 2 つ以上の塩基を持つ SNP は、対象のバリアントとみなされました。 次の変異体は、細胞間の存在量に基づいてさらにフィルタリングされました。 変異体が考慮されるためには、それが細胞の少なくとも 1% に存在する必要があります。

セルをフィルタリングするために、前の手順で取得したバリアントを適用して、セルあたりの SNP リード数をカウントしました (ベースコール品質 ≥90、およびセルあたりのバリアントのリード カバレッジ ≥2)。 次に、最小 20 個の SNP (不均衡な混合データセットまたはデータ品質が低い場合は 10 個) を含むようにセルをフィルター処理しました。 結果のセル行列を使用して、Dineof28 を使用して欠損データを補完しました。 再計算された行列は、パラメータ n_neighbors = 300、min_dist =0、n_components = 3 を使用して UMAP29 を使用して次元削減とプロットに利用されました (セル数が減った不均衡なデータセットの場合、n_neighbors は 50 に下げられています)。 必要に応じて、混合物内の個体の数 (クラスターの数) が不明な場合、クラスターの数は NbClust30 によって決定されました。 錆びたマトリックスは、k-means クラスタリングとプロットに使用されました。 これらの手順を適用することにより、mtDNA に基づいて細胞のクラスター化割り当てを生成することで、最初の反復が完了しました。

mtDNA から SNP を拡張し、細胞数とクラスタリングの有効性を高めるために、まず mtDNA クラスタリングに基づいて細胞 BAM ファイルをマージしました。 マージ後、引数「-iXu -C 2 -q 1」を指定して並列 FreeBayes v1.3.144 を使用してバリアントが呼び出されました。 クラスター バリアント リストは、Picard Tools バージョン 2.25.6 MergeVcfs を使用してマージされました。 結果として得られた vcf は、bcftools フィルター (QUAL < 80 DP < 100) を使用してフィルター処理され、非固有のバリアントは bcftools norm45 で破棄されました。 作成されたリストを使用して、セルごとのバリアントごとのカウントを作成し、SNP とクラスターセルを呼び出すための 2 回目の反復を開始しました (図 1a)。 2 回目の反復の最後に生成された BAM ファイルとクラスターごとの SNP は、最終分析 (生物地理的祖先、性別、個体識別) に使用されました。

全エクソームシーケンシング (WES) は、口腔スワブから抽出された DNA に対して実行されました。 各被験者には、歯には触れずに綿棒で両側の頬を 15 秒間こすってもらいました。 次に、800μlの水、30μlのプロテ​​イナーゼK(10mg/ml)、90μlの10%SDSを加えてDNAを抽出し、55℃で3時間インキュベートした。 次に、300μlの5M NaClを添加し、サンプルをRTで10分間インキュベートした。 遠心分離後、上清を1容量のイソプロパノールと混合し、再度遠心分離した。 次いで、ペレットを70%エタノールで2回洗浄し、乾燥させた。 得られたペレットを 50 μL の milliQ 水に溶解し、ピコグリーンで測定しました。 次に、サンプルを 30 µL 中に 500 ng の DNA が含まれるように希釈しました。 DNA の品質 (完全性) は 0.1% ゲルでチェックされました。

ライブラリーは、酵素的断片化およびデュアルインデックスアダプターライゲーションを備えたHyperprepキット(Roche)を使用して調製されました。 エクソーム捕捉は、SeqCap EZ MedExome プローブ (Roche) を使用して実行されました。 次に、サンプルを Novaseq6000 で配列決定しました。 データは逆多重化され、Burrow-Wheeler アライメント ツール (BWA バージョン 0.7.3a) を使用して、高品質のリードがヒトゲノム参照 hg19 にアライメントされました。 Genome Analysis ToolKit (GATK バージョン 3.7) を使用して、塩基品質スコアが再調整され、インデルが再調整されました 46。 重複は、Picard (Picard Tools バージョン 1.90) を使用してマークされました。 バリアント呼び出しは HaplotypeCaller (GATK v3.8) を使用して実行されました。 その後、サンプルは、GATK、GenotypeVCF、および VariantQualityScoreRecalibration ワークフローと組み合わせて呼び出すためにプールされました。 サンプル QC メトリクスは、GATK の DepthOfCoverage モジュールと VariantEvaluation モジュールを使用して取得されました。 バックグラウンド ノイズ レベルは、verifyBAMid ツールと GATKs HaplotypeCaller の「汚染率」オプションを使用して推定および補正されました。

母系 (mtDNA) 祖先は、bcftools フィルター (QUAL < 80 DP < 20) を使用して、vcf ファイルの後に各クラスターの vcf ファイルに Haplogrep2.1.20 を適用することによって取得されました。 分析の結果は、mtDNA データベース EMPOP47 (mtDNA ハプログループの地理的密度について)、および PhyloTree48 (mtDNA バリエーションの系統樹について) と比較されました。 Y 染色体の祖先は、クラスター BAM ファイルを入力として使用し、ユーザー マニュアルで推奨されているパラメーター –b 90 –q 20 –r 2 を使用する Y-leaf33 を使用して決定されました。

Y 染色体の存在は、Y 染色体に一致するリードの数を数え、異なるクラスター間で比較することによって決定されました。 雌細胞の不活性 X 染色体をカバーする長い非コーディング RNA、XIST RNA (X 染色体由来) の発現レベルを使用して、不活性 X 染色体の存在を判定しました。 XIST 遺伝子の位置は、Ensembl49 遺伝子座標を使用して決定されました。 XIST 遺伝子と Y 染色体のリードは SAM ファイルから抽出され、samtools45 を使用してカウントされました。

まず、各クラスター (scRNA-seq から) とエクソーム参照のバリアントを比較することにより、一致パーセンテージを決定しました。 一致率が 90% を超えた場合、参照エクソームと特定のクラスター間の一致が呼び出されます。 さらなる処理のために、不一致 SNP (エクソーム参照とクラスター間で一致しない SNP) およびエクソーム参照とクラスター間で共通の SNP のみが保持されました。 変異体は、1000 Genomes データベース内の存在に基づいてさらにフィルタリングされました 35。 次に、1000G プロジェクトの 5 つの大陸の集団 (ヨーロッパ人、アフリカ人、アメリカ人、南アジア人、東アジア人) を使用して 1000 ゲノム参照データ セットを生成しました。 含まれる SNP 間に最低 500 kb の距離が必要な連鎖不平衡効果を回避するために、枝刈りステップが実行されました。 各サンプルについて、STRUCTURE (v2.3.4)34 を使用して双親祖先分析を実行しました。 簡単に説明すると、ソフトウェアは統計モデルを使用して、モデルが収束すると想定されるまで、各個人を推定された集団の一部に繰り返し割り当てます。 バーンイン反復を 10,000 回実行し、その後、混合モデルを適用した 5 つの推定母集団 (K = 5) で 10,000 回の反復を実行しました。

双親祖先分析の結果は、サンプル内の優勢な集団 (クラスター) を決定するために使用され、それは次に、SNP の対立遺伝子頻度 (AF) を抽出するために使用されました。 法医学パラメータの計算のために、SNP はさらにプルーニングされ、対立遺伝子頻度が集団間で 0.3 を超えて変わらない遺伝マーカーのみが含まれました。 同時に、含まれるマーカー間の距離 500 kb を使用して SNP をプルーニングしました。これにより、連鎖不均衡の潜在的な影響が軽減されます。 次に、次のように計算しました。

以下を使用した合計ランダム一致確率 (RMP):

ここで、i は i 番目の SNP、N は SNP の総数、Pr(Gi) はホモ接合遺伝子型の場合は AFi2、Gi、ヘテロ接合遺伝子型の場合は 2AFi(1-AFi) の値をとります。AFi は SNP の対立遺伝子頻度です。 。 不均衡の調整は小さな変更ですが、計算全体を通してハーディ・ワインバーグ均衡を仮定しました。

尤度比 (LR) は次のように RMP から直接導出されます。

ここでは、サンプルの遺伝子型と参照 (この研究では使用されていません) の間に完全な一致があるシナリオを想定していますが、モデルは対立遺伝子のドロップアウト/ドロップインやその他のエラーを考慮して簡単に拡張できます。

複合一致確率 (CPM) (本文では PM とのみ呼ばれます) は次のように計算されました。

ここで、内部合計はマーカー i で考えられるすべての遺伝子型 (Gi,g) を横断し、各マーカーで 2 つの同一の遺伝子型が観察される確率を要約します。 CPM は、各マーカーの確率の積です。

1 と 2 は特定の DNA プロファイルに関連しており、3 はクラスターから取得でき、枝刈り後に残っているマーカーの平均統計に関連していることに注意してください。

4 つの公的に利用可能な scRNA-seq データセットは、10x genomics (https://www.10xgenomics.com/resources/datasets) から取得されました。 SNP は、FreeBayes v1.3.144 解析引数「-iXu -C 2 -q 1–throw-away-indels-obs」を使用して呼び出されました。 SNP vcf ファイルは、bcftools フィルター QUAL < 80 DP < 20 を使用してフィルター処理され、さらなる分析に使用されました。 母方、父方、および双親の祖先は上記のように決定されました。

各データセットからバーコードをランダムに選択し (すべてのインシリコ混合内容については補足表 2)、各データセットの選択されたバーコードからの読み取りをマージすることで、5 ~ 9 人の個体を含むバランスのとれた混合物を生成しました。 各データセットには、さらなる評価を可能にするために携帯電話のバーコード情報が保持されていました。 各混合物中の細胞の数は補足表 2 で入手できます。データセットは、上記のようにデコンボリューションおよび分析パイプラインを介して処理されました。

不均衡な混合物は、合計 1000 個のセルをランダムに選択することによって公的に入手可能なソースから取得した 2 つのデータセット (A2、A4) を使用して作成されました。 主要なデータセット (A4) では、利用可能なすべてのセルが使用されました。 マイナー データセット (A2) では、情報量の少ないセルによる分析の偏りを避けるために、セルあたりの読み取り数が最も多い 1000 セルが事前に選択されました。 微量成分と主成分の比率は 1:9 ~ 1:99 の範囲でした。 次に、選択したバーコードを含む読み取りについて各データセットをフィルター処理しました。 結果として得られたデータセットのサブセットが新しい混合物にマージされました。 分離には、セル数の減少を反映するために、SNP と近傍 UMAP の数を減らして、修正されたデコンボリューション パイプラインを使用しました。 ここでは、細胞数が少ないため、QUAL < 50 DP < 50 の SNP フィルタリング パラメーターが使用されました。 データは、限られたデータセットに対して説明した変更を加えた分析パイプラインを使用してさらに分析され、元のソースのクラスターへの各セルの正しい割り当てが分析されました。

M4 データセットのデコンボリューション クラスター割り当てに基づいて、各クラスターからセル バーコードをランダムに選択しました。 次に、選択したバーコードの読み取りをフィルタリングして、元のデータセットの不均衡なサブセットを作成しました。 次に、それぞれのデータセットに副成分と主成分が比例的に混合されたデータセットを生成しました。 最初の混合物では、1 つの微量成分 (全細胞の 3%) と 3 つの主要成分 (比例して全細胞の 97%) を選択しました。 2 番目の混合物には、3 つの副成分クラスター (それぞれ総細胞の 3%) と 1 つの主成分クラスター (総細胞の残り 91%) が含まれていました。 混合物は、前述のようにデコンボリューションおよび分析パイプラインを使用して処理されました。

M4 データセットの各クラスターについて、(以前のデコンボリューションとセルのクラスター割り当てに基づいて) 10 ~ 500 個のセル バーコードをランダムに選択しました。 すべてのポイント (バーコードの数) について、バッチ効果を修正するために 10 回を選択しました。 選択したバーコードの読み取りは元の M4 データセットからフィルタリングされ、新しいサブセット データセットが作成されます。 各サブセット データセットには、引数「-iXu -C 2 -q 1–throw-away-indels-obs」を指定して FreeBayes v1.3.144 を使用して呼び出されるバリアントがありました。 次に、各サブセットに対して分析パイプラインが実行されました (呼び出された SNP vcf ファイルとサブセット BAM ファイルを入力として使用)。 エクソーム一致の結果とポイントごとの法医学パラメータが平均されました。 ハプログループ割り当ての結果には、ハプログループが正しければ 1 が、不正確であれば 0 が与えられました。 0.5 という値は、PhyloTree48 に従ってハプログループが 1 分岐上にある場合に与えられました。 次いで、蓄積されたスコアを平均した。

合計 4 つの混合デコンボリューション パイプライン (ScSplit 1.0.8、Vireo 0.2.3、SoupOrCell 2.0、De-goulash) が 2 つのインシリコ混合物でテストされました。 最初のシリコ混合物は、合計 5000 個の細胞バーコード (ドナーあたり 2500 個) を生成する 2 つの単一ドナー データセット (データセット A3 および A4、補足表 2 を参照) を混合することによって調製されました。 それぞれの bam ファイルは、samtools 1.9 を使用してサブセット化され、マージされています。 パイプラインの比較に使用される 2 番目のインシリコ混合物は、de novo で生成されたデータと単一ドナー データセットを混合することによって生成された複雑な混合物でした (M9 混合物、補足表 2 を参照)。

各パイプラインについて、提供されたマニュアルに従い、推奨パラメーターを適用しました。 scSplit の前処理は、cellSNP 0.3.1 を備えた Vireo 用の samtools 1.9 を使用して実行されました。 Vireo と SoupOrCell では、混合物内の個体数を知る必要があるため、個体数を提供しました。 各パイプラインについて、消費された時間、使用されたリソースの量、および最終的なクラスタリング (デコンボリューションが記録された) が比較されました。

研究デザインの詳細については、この記事にリンクされている Nature Portfolio Reporting Summary を参照してください。

研究のインシリコ部分で使用される個々のデータセットは、10x Web サイトから入手できます: A1: https://www.10xgenomics.com/resources/datasets/5-k-peripheral-blood-mononuclear-cells-pbm-cs -from-a-healthy-donor-v-3-chemistry-3.0.2 A2: https://www.10xgenomics.com/resources/datasets/peripheral-blood-mononuclear-cells-pbm-cs-from-a- health-donor-chromium-connect-channel-1-3.1.0 A3: https://www.10xgenomics.com/resources/datasets/4-k-pbm-cs-from-a-healthy-donor-2.1.0 A4: https://www.10xgenomics.com/resources/datasets/10-k-pbm-cs-from-a-healthy-donor-gene-expression-and-cell-surface-protein-3.0.0 混合データセットこの研究で新たに生成されたものは、EGA データベースで EGAS00001006202 で入手できます。 クラスタリング グラフの生成に使用される UMAP 座標ファイルと STRUCTURE 1000Genomes クラスタリングは、figshare50、51、52 ​​にあります。

バイオインフォマティクス パイプライン de-goulash24 は、https://github.com/genid/de-goulash から入手できます。

Kayser, M. & De Knijff, P. 遺伝学、ゲノミクス、分子生物学の進歩による人体法医学の改善。 ナット。 ジュネ牧師。 12、179–192 (2011)。

論文 CAS PubMed Google Scholar

ベネット、L.ら。 マイクロハプロタイプの大規模並列シーケンスによる混合物のデコンボリューション。 内部。 J.レッグ医学。 133、719–729 (2019)。

記事 Google Scholar

Holland, MM、McQuillan, MR & O'Hanlon, KA 第 2 世代シーケンシングでは、mtDNA 混合物のデコンボリューションとヘテロプラスミーの高分解能検出が可能です。 クロアチア人。 医学。 J. 52、299–313 (2011)。

論文 CAS PubMed PubMed Central Google Scholar

パーリン、MW et al. TrueAllele (R) DNA 混合物の解釈を検証しています。 J.法医学科学。 56、1430–1447 (2011)。

論文 CAS PubMed Google Scholar

ノヴロスキ、NMM et al. 現在のコア STR 遺伝子座を超えた拡張: DNA 混合物のデコンボリューションを強化するために多様性を高めた 73 個の STR マーカーの探索。 法医学。 内部。 ジュネット。 38、121–129 (2019)。

論文 CAS PubMed Google Scholar

ファ、HLら。 DNA 混合物の超並列シーケンス解析のための 1204 個の一塩基多型および挿入欠失多型パネル。 法医学。 内部。 ジュネット。 32、94–101 (2018)。

論文 CAS PubMed Google Scholar

Gill, P.、Jeffreys, AJ & Werrett, DJ DNA 指紋の法医学的応用。 Nature 318、577–579 (1985)。

論文 CAS PubMed Google Scholar

Vuichard, S. et al. 性的暴行を模擬した困難なサンプルからの差分 DNA 抽出: スイスの共同研究。 調査します。 ジュネット。 2、11 (2011)。

記事 PubMed PubMed Central Google Scholar

Kayser, M. Y 染色体 DNA の法医学的使用: 概要。 ハム。 ジュネット。 136、621–635 (2017)。

論文 CAS PubMed PubMed Central Google Scholar

Alladio、E. et al. DNA 混合物の解釈 - 困難なサンプルに対するさまざまな確率的手法のパフォーマンスを強調する、概念実証のマルチソフトウェア比較。 法医学。 内部。 ジュネット。 37、143–150 (2018)。

論文 CAS PubMed Google Scholar

Budowl, B. et al. 混合物の解釈: 法医学ケースワークにおける混合 DNA プロファイルの評価のガイドラインに関連する機能の定義。 J.法医学科学。 54、810–821 (2009)。

論文 CAS PubMed Google Scholar

ギル、P.ら。 対立遺伝子のピーク面積を使用した単純な STR 混合物の解釈。 法医学。 内部。 91、41–53 (1998)。

論文 CAS PubMed Google Scholar

バックルトン、JS et al. 確率的ジェノタイピング ソフトウェア STRmix: 有用性とその有効性の証拠。 J.法医学科学。 64、393–405 (2019)。

論文 PubMed Google Scholar

アンスリンガー、K. & バイエル、B. それは誰の血ですか? DEPArray (TM) テクノロジーを応用して、血液が混合汚れに寄与した個人を特定します。 内部。 J.レッグ医学。 133、419–426 (2019)。

記事 CAS Google Scholar

Williamson, VR、Laris, TM、Romano, R. & Marciano, MA DEPArray システムを使用した性犯罪サンプルの DNA 混合デコンボリューションを強化しました。 法医学。 内部。 ジュネット。 34、265–276 (2018)。

論文 CAS PubMed Google Scholar

Anslinger, K.、Graw, M. & Bayer, B. DEPArray(TM) 分離単一細胞 STR プロファイリングを使用した血液-血液混合物のデコンボリューション。 Rechtsmedizin 29、30–40 (2019)。

記事 Google Scholar

Elliott, K.、Hill, DS、Lambert, C.、Burroughes, TR & Gill, P. レーザー顕微解剖の使用により、顕微鏡スライド上の精子からの DNA の回収が大幅に向上します。 法医学。 内部。 137、28–36 (2003)。

論文 CAS PubMed Google Scholar

フォンタナ、F.ら。 法医学的生物学的混合物からの純粋な細胞の分離と遺伝子分析: デジタル アプローチの精度。 法医学。 内部。 ジュネット。 29、225–241 (2017)。

論文 CAS PubMed Google Scholar

Verdon, TJ、Mitchell, RJ、Chen, W.、Xiao, K. & Van Oorschot, RAH 法医学的に関連する生物学的混合物の妥協のない FACS 分離。 法医学。 内部。 ジュネット。 14、194–200 (2015)。

論文 CAS PubMed Google Scholar

Watkins, DRL、Myers, D.、Xavier, HE & Marciano, MA 法医学における単一細胞分析の再考。 科学。 議員番号 11、7054 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

Kayser, M. 法医学 DNA 表現型検査: 捜査目的で犯罪現場の資料から人間の外観を予測します。 法医学。 内部。 ジュネット。 18、33–48 (2015)。

論文 CAS PubMed Google Scholar

Phillips, C. 生物地理的祖先の法医学的遺伝分析。 法医学。 内部。 ジュネット。 18、49–65 (2015)。

論文 CAS PubMed Google Scholar

Tang, X.、Huang, Y.、Lei, J.、Luo, H. & Zhu, X. 単一細胞シークエンシング: 新しい開発と医療への応用。 細胞生物科学。 9, 53 (2019)。

記事 PubMed PubMed Central Google Scholar

クルハンコバ、L.ら。 デグーラッシュ セル デコンボリューションおよびフォレンジック分析パイプライン。 https://doi.org/10.5281/zenodo.7559996 (Github、2022)。

Xu、J.ら。 プールされた単一細胞 RNA 配列の遺伝子型フリーの逆多重化。 ゲノムバイオル。 20、290 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

ヒートン、H.ら。 Souporcell: 参照遺伝子型を使用しない遺伝子型別の単一細胞 RNA-seq データの堅牢なクラスタリング。 ナット。 方法 17、615–620 (2020)。

論文 CAS PubMed Google Scholar

Huang, Y.、McCarthy, DJ & Stegle, O. Vireo: 遺伝子型参照なしのプールされた単一細胞 RNA-seq データのベイズ逆多重化。 ゲノムバイオル。 20、273 (2019)。

記事 PubMed PubMed Central Google Scholar

Zheng, S.、Huang, SX および Fang, HX EOF 計算を使用した不完全な海洋データセットからのデータ充填。 (World Acad Union-World Acad Press、2008)。

McInnes, L.、Healy, J. & Melville, J. UMAP: 次元削減のための一様多様体近似と投影。 arXiv https://doi.org/10.48550/arXiv.1802.03426 (2020) のプレプリント。

Charrad, M.、Ghazzali, N.、Boiteau, V. & Niknafs, A. Nbclust: データ セット内のクラスターの関連数を決定するための R パッケージ。 J.Stat. ソフトウェア。 61、1–36 (2014)。

記事 Google Scholar

Pontier、DB & Gribnau、J. Xist の規制と機能が調査されました。 ハム。 ジュネット。 130、223–236 (2011)。

記事 PubMed PubMed Central Google Scholar

Weissensteiner, H. et al. HaploGrep 2: ハイスループットシークエンシング時代のミトコンドリアハプログループ分類。 核酸研究所 44、W58–W63 (2016)。

論文 CAS PubMed PubMed Central Google Scholar

Ralf, A.、Montiel Gonzalez, D.、Zhong, K. & Kayser, M. Yleaf: 次世代配列データからヒト Y 染色体ハプログループを推論するソフトウェア。 モル。 バイオル。 進化。 35、1291–1294 (2018)。

論文 CAS PubMed Google Scholar

Pritchard, JK、Stephens, M.、Donnelly, P. 多座位遺伝子型データを使用した集団構造の推論。 遺伝学 155、945–959 (2000)。

論文 CAS PubMed PubMed Central Google Scholar

1000ゲノムプロジェクトコンソーシアム。 他。 人間の遺伝的変異に関する世界的なリファレンス。 ネイチャー 526、68–74 (2015)。

記事 Google Scholar

チェン、EYら。 Enrichr: インタラクティブで協調的な HTML5 遺伝子リスト エンリッチメント分析ツール。 BMCバイオインフォマ。 14、128 (2013)。

記事 Google Scholar

Collins, A. & Morton, NE DNA 識別の尤度比。 手順国立アカデミー。 科学。 USA 91、6007–6011 (1994)。

論文 CAS PubMed PubMed Central Google Scholar

Martire, KA、Kemp, RI、Sayle, M. & Newell, BR 法医学証拠における尤度比の解釈について: プレゼンテーション形式と弱い証拠効果。 法医学。 内部。 240、61–68 (2014)。

論文 CAS PubMed Google Scholar

Greytak, EM、Moore, C. & Armentrout, SL 未解決事件と積極的な捜査のための遺伝系図。 法医学。 内部。 299、103–113 (2019)。

論文 CAS PubMed Google Scholar

Das、S.、Abecasis、GR & Browning、BL、Genomics and Human Genetics の年次レビュー、Vol. 19 (A. チャクラヴァルティ & ED グリーン編) 73–96 (2018)。

ゲノミクス、X. サブセット-bam、https://github.com/10XGenomics/subset-bam (2020)。

Danecek、P. et al. SAMtools と BCFtools の 12 年間。 ギガサイエンス 10、giab008 (2021)。

記事 PubMed PubMed Central Google Scholar

pysam開発者。 Pysam、https://github.com/pysam-developers/pysam (2020)。

Garrison, E. & Marth, G. ショートリードシーケンスからのハプロタイプベースの変異検出。 arXiv https://doi.org/10.48550/arXiv.1207.3907 (2012) のプレプリント。

リー、Hら。 シーケンス アライメント/マップ形式と SAMtools。 バイオインフォマティクス 25、2078–2079 (2009)。

記事 PubMed PubMed Central Google Scholar

マッケンナ、A.ら。 ゲノム解析ツールキット: 次世代 DNA シーケンス データを解析するための MapReduce フレームワーク。 ゲノム研究所 20、1297–1303 (2010)。

論文 CAS PubMed PubMed Central Google Scholar

Parson, W. & Dür, A. EMPOP - 法医学 mtDNA データベース。 法医学。 内部。 ジュネット。 1、88–92 (2007)。

論文 PubMed Google Scholar

van Oven, M. & Kayser, M. 世界的なヒトミトコンドリア DNA 変異の包括的な系統樹を更新しました。 ハム。 ムタット。 30、E386–E394 (2009)。

論文 PubMed Google Scholar

ハウ、KLら。 Ensembl 2021. 核酸研究。 49、D884–D891 (2021)。

論文 CAS PubMed Google Scholar

クルハンコバ、L.ら。 クラスタリング ファイル Iteration1、https://doi.org/10.6084/m9.figshare.21790061.v2、(Figshare、2022)。

クルハンコバ、L.ら。 クラスタリング ファイル Iteration2、https://doi.org/10.6084/m9.figshare.21790061.v2、(Figshare、2022)。

クルハンコバ、L.ら。 STRUCTURE クラスタリング ファイル、https://doi.org/10.6084/m9.figshare.21792344.v2、(Figshare、2022)。

Chiaroni, J.、Underhill, PA & Cavalli-Sforza, LL Y 染色体の多様性、人類の拡大、漂流、文化進化。 手順国立アカデミー。 科学。 USA 106、20174–20179 (2009)。

論文 CAS PubMed PubMed Central Google Scholar

リファレンスをダウンロードする

この研究に資料を提供していただいたボランティアの皆様に感謝いたします。 この研究のための WES データを作成してくれたエラスムス MC の内科遺伝子研究所のヒトゲノミクス施設 (HuGE-F) のスタッフに感謝します。 サンプル収集にご協力いただいた Bella Banjanin、Stijn Fuchs、Bianca de Graaf、Almira Zada、Martijn Ernst にも感謝いたします。

ディエゴ・モンティエル・ゴンザレス

現在の住所: プリンセス マキシマ小児腫瘍センター、ユトレヒト、オランダ

次の著者も同様に貢献しました: Manfred Kayser、Eskeatnaf Mulugeta。

遺伝子識別部門、エラスムス MC、ロッテルダム大学医療センター、ロッテルダム、オランダ

ルーシー・クルハンコワ, ディエゴ・モンティエル・ゴンザレス, マンフレッド・カイザー & スキートナフ・ムルゲタ

ロッテルダム大学医療センター、エラスムス MC、血液内科、ロッテルダム、オランダ

エリック・ビンデルス

スウェーデン、リンシェーピングの国立法医学委員会、法医学遺伝毒性学部門

ダニエル・クリング

細胞生物学部、エラスムス MC、ロッテルダム大学医療センター、ロッテルダム、オランダ

スキートナフ・ムルゲタ

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

MK と EM は研究を概念化し、設計し、データを解釈し、作業を監督し、リソースを提供し、原稿を執筆しました。 LK はサンプルを準備し、データを収集、分析、解釈し、バイオインフォマティクス パイプラインを支援し、結果を視覚化し、原稿を書きました。 DMG はバイオインフォマティクス パイプラインを開発しました。 EB は sc-RNA 配列決定を実行しました。 DK は個体識別分析に貢献しました。 著者全員が最終原稿にコメントし、承認しました。

マンフレッド・カイザーまたはスキートナフ・ムルゲタへの対応。

著者らは競合する利害関係を宣言していません。

この研究は、エラスムス MC の医療倫理委員会 (METC) による倫理に関する規定を含む、エラスムス MC の研究規則および規制に従って実施されました。 関係するすべてのボランティアから書面による同意が得られました。

Communications Biology は、この研究の査読に貢献してくれた Sumanta Ray と他の匿名の査読者に感謝します。 主な編集者: Debarka Sengupta と Christina Karlsson Rosenthal。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Kulhankova, L.、Montiel González, D.、Bindels, E. 他単一細胞トランスクリプトーム配列決定により、複数人の生物学的混合物における個人の遺伝的分離、特性評価、および同定が可能になります。 Commun Biol 6、201 (2023)。 https://doi.org/10.1038/s42003-023-04557-z

引用をダウンロード

受領日: 2022 年 5 月 31 日

受理日: 2023 年 2 月 6 日

公開日: 2023 年 2 月 20 日

DOI: https://doi.org/10.1038/s42003-023-04557-z

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。