[Whole Genome Sequencing] 유전체 데이터 분석 처리 방법 순서 및 의미 정리

티스토리 뷰

카테고리 없음

[Whole Genome Sequencing] 유전체 데이터 분석 처리 방법 순서 및 의미 정리

⊂ΟΜΞτ 2021. 11. 23. 16:08

Whole Genome Sequencing의 분석 처리 방법으로 Quality Control, Mapping, Sorting, Duplicates, Realigning, Recalibration, Variant Calling 등이 있습니다. 각 분석 방법의 순서와 왜 처리가 필요한지에 대해 정리하겠습니다.

유전체-데이터-분석-워크플로우-테이블 — 유전체 데이터 분석의 워크플로우 (WorkFlow)

1-1. Raw data processing - Quality Control

Quality Control 단계에서 유전자 분석을 통한 시퀀스 데이터를 얻게 되면 유전체 분석을 시작하기 전에 먼저 기계로 얻어진 시퀀싱 데이터가 정확한지 선행 검토가 필요합니다.

대량의 시퀀스 중에서 특정 값 이하인 부분은 모두 제외하고 연구를 진행합니다. 이 단계를 Quality Control 단계라 부릅니다. 기본적으로 모든 read들의 품질 점수가 20 이하인 값들을 모두 제거합니다. 만약 사용자가 직접 품질 점수를 조절하고 싶다면 개인 설정이 가능합니다.

사용 가능한 분석 tool: NGSQCToolkit

1-2. Raw data processing - Mapping

Mapping 단계는 Quality Control이 완료된 read를 유전체 프로젝트에서 밝혀진 인간 레퍼런스 유전체에 나열하여 붙여서 비교하는 과정입니다.

입력 input은 염기 서열이 정리된 FastQ 파일을 사용하면 인간 유전체와 비교해 인덱싱과 binary로 변환된 BAM을 ouput으로 받습니다. 이 과정을 통해서 인간 유전체에 정렬시켜 같은 정확한 read 값들을 확인할 수 있고 통계적 수치를 통해 염색체 쌍이 정확히 연결되었는지, 같은 염색체 상에서 정확히 mapping 되었는지 확인이 가능합니다.

사용 가능한 분석 tool: BWA, samtools

1-3. Raw data processing - Sorting, Duplicates

Sorting, Duplicates 단계는 BWA alignment 이후에 정확한 유전체 분석을 위해 다시 한번 데이터를 검토하고 정리하는 과정입니다.

시퀀싱 과정에서 발생한 문제들을 제거합니다. 예를 들어 PRC 과정을 통해 복제할 때 중복되어 나타나는 read나 오류가 일어난 read를 확인합니다.

Sorting은 각각의 read를 mate pair와 비교해서 옵션에 따른 sort를 진행합니다.

Duplicate는 Sequencing 과정에서 생긴 duplicate read를 제거합니다.

사용 가능한 분석 tool: Picard, GATK

1-4. Raw data processing - Realigning, Recalibration

Realigning, Recalibration 단계는 alignment 된 bam 파일에서 Indel( Inconsistent indel, Cryptic indel) 부분의 에러로 인해 나타난 변이로 보이는 부분을 정렬하는 과정입니다.

레퍼런스 인간 유전체에 다시 mapping 시키기 때문에 quality가 더 높아집니다.

1-5 Variant Calling : GATK (Germline mutation) / Varsan (Somatic mutation)

Variant Calling이란 샘플을 시퀀싱 해서 얻은 결과와 기본 인간 유전체 레퍼런스를 비교해서 염기서열이 얼마나 다른지 유전형, 형질 관계, 질병 관련 변이를 찾아내는 것을 의미합니다.

Germline 변이는 흔히 나타나는 변이들로 질병을 야기할 확률이 매우 낮습니다. 하지만 Somatic 변이는 체세포나 특정 조직에서 후천적으로 발생하는 변이로 암을 야기합니다.

저작자표시 비영리 변경금지 (새창열림)

Comet

티스토리 뷰