Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1598-5504(Print)
ISSN : 2383-8272(Online)
Journal of Agriculture & Life Science Vol.53 No.4 pp.93-101
DOI : https://doi.org/10.14397/jals.2019.53.4.93

SNP Marker Selection for Dog Breed Identification from Genotypes of High-density SNP Array and Machine Learning

Hyung-Yong Kim1, Bong-Hwan Choi2, Taeyun Oh1, Byeong-Chul Kang1*
1Insilicogen, Inc., Yongin, 16954, Korea
2National Institute of Animal Science, Wanju, 55365, Korea
Corresponding author: Byeong-Chul Kang Tel: +82-31-278-0061 Fax: +82-31-278-0062 Email: bckang@insilicogen.com
May 29, 2019 July 31, 2019 August 6, 2019

Abstract


Dog (Canis lupus familiaris) is a member of genius Canis that forms part of the wolf-like canids, and it has been evolved to diverse domestic breeds since 100 thousand years ago. Practical dog breed identification has been emerged to important part of pet industry such as genealogical certificates. From 11 dog breeds, 226 dogs and 23K SNP genotypes, we selected minimal SNPs of breed identification using machine learning algorithms including multiclass classification and feature selection. With 100 times of random choice of 70% data for training and 30% testing, we evaluated 9 classifiers’ accuracies and 2 methods of feature selection. Linear SVM and PCA weighted feature selection showed the best accuracy of classification. Finally, we selected SNP markers and it could identify 11 breeds with approximately 90% accuracy, when having 40 SNP. This marker set is expected to be useful for dog breed and disease management by integration with disease markers.



고밀도 SNP 칩 유전자형 데이터 기계학습 기반 반려견 품종 식별 유전마커 선발

김 형용1, 최 봉환2, 오 태윤1, 강 병철1*
1(주)인실리코젠
2농촌진흥청 국립축산과학원

초록


개(Canis lupus familiaris)는 인간의 소외 현상을 개선하고, 공동체 생활 의식 향상에 기여하는 반 려동물이다. 반려견 품종을 명확히 관리하는 것은 유전병을 감소시키거나, 형질 개량, 종 다양성 유지 등을 위해 중요하다. 본 연구에서는 고밀도 SNP 칩 유전자형 데이터와 기계학습 기술을 이용하여, 유 전자형 데이터에 기반한 품종 식별이 가능한지, 가능하다면 최소 몇 개의 유전마커로 품종 식별을 유 의하게 수행할 수 있는지 확인하기 위하여, 반려견 11 품종 226두의 23K SNP 칩 데이터를 분석하였 다. 9종의 기계학습 다중범주 분류 알고리즘과 2종의 특징 선택 방법의 성능을 비교하여, 선형 서포트 벡터 머신 분류기와 주성분 분석 특징 기여도를 이용한 특징 선택 방법을 이용했을 때, 11종의 반려견 품종을 90% 이상 정확도로 식별하였으며, 이 때 40개의 유전마커가 필요함을 확인하였다. 최종 선발 된 40개의 반려견 품종 식별 유전마커는 타 질병 예측 마커와 결합하여 유전자 검사 키트로 제작될 수 있으며, 반려견 품종 관리 및 질병 관리 기술로 유용하게 활용될 수 있을 것이다.



    Rural Development Administration
    PJ01283301

    서론

    개(Canis lupus familiaris)는 식육목 개과에 속 하는 동물로 회색 늑대(Canis lupus)의 아종이다. 인류가 처음 가축화한 동물인 개는 인류의 역사와 함께 해 왔으며, 최근 인간의 소외 현상을 개선하고 공동체 생활 의식 향상에 기여하면서, 인간과 더불어 살아가는 반려동물이라는 의미로 반려견으로 불리고 있다. 오늘날 개의 품종은 약 350가지이며, 23계통 군에 포함된다(Parker et al., 2017). 각각의 품종 들은 특이한 형질과 행동을 보이며, 특별한 유전병 을 공유한다(Shearin & Ostrander, 2010). 품종을 명확히 관리하는 것은 유전병을 감소시키거나, 혹은 형질 개량, 종 다양성 유지 등을 위해 중요하다. 일 부 기관에서는 혈통증명서(Certified pedigree) 등 증빙 수단을 통해 고유 품종의 혈통 보존과 번식 계 획 수립에 활용하고 있다. 하지만, 가계도에 기반한 품종 및 혈통 관리는 많은 오류 가능성을 포함하고 있으며, 이를 위한 과학적 기반이 충분하지 않다.

    유전자 검사는 서로간에 다른 DNA 영역을 확인 하는 것으로, 개인 혹은 개체 식별, 친자 관계 확인 등의 식별 목적부터 표현형 예측과 유전병 및 각종 질병 가능성 확인 등 활용 영역이 확대되고 있다 (Holtzman et al., 1997). 검사하는 유전마커(locus)도 예전의 10~20개 수준에서 10,000~2,000,000개에 달 하는 고밀도 SNP (Single nucleotide polymorphism) 칩, 혹은 전체 유전체 영역(WGS, Whole genome sequencing)으로 확장되면서, 예측 정확도도 높아 지고 있다(Ostrander et al., 2017). 이는 대부분 의 표현형 혹은 특성에 영향을 주는 유전마커는 하 나(monogenic)가 아닌 다수(polygenic)가 복합적으 로 작용한다는 생물학적, 유전학적 특징을 설명하 고 있다(Ritchie et al., 2015). 품종 식별을 위한 유전자 검사는 주로 STR (short tandem repeats) 을 이용하였다. STR분석은 식물부터 동물까지 여 러 개체에서 품종 식별을 위한 방법으로 다양하게 활용되어 왔으나, 최근에는 SNP 마커의 효용성이 증대되고 있다(Pontes et al., 2015). 개의 경우도 품종을 식별할 수 있는 13개의 STR마커가 알려져 있다(Berger et al., 2018). 하지만 더욱 명확한 품종 식별을 위해서는 SNP 분석을 요구한다(Irion et al., 2003). STR마커는 비용적인 측면에서 저렴 하다는 장점이 있지만 DNA상에서의 양이 적고, 처 리량(Throughput)이 낮으며 에러율이 높다. 또한, 실험 단계에서도 복잡한 프라이머(Primer) 디자인 을 필요로 한다. 반면에 SNP마커는 프라이머 디자 인이 간단하고 DNA상에 양이 많으며, 맵핑 해상도 가 높고 에러율이 낮다. 기존의 보고에 따르면 최적 의 SNP조합을 통해 개인과 집단 수준에서 STR보다 더욱 의미있고 정확한 분류가 가능하다(Glover et al., 2010). 품종을 정확히 알고 있는 반려견에 대 한 고밀도 SNP칩 실험 결과를 통해 유전자형 정보 로 품종 식별이 가능한지, 가능하다면 어떤 유전마 커가 품종에 영향을 주는 마커인지 확인할 수 있다.

    기계 학습은 인공지능의 한 분야로, 통계적 방법 과 전산학 알고리즘으로 일련의 데이터셋을 학습하 여, 미지의 데이터 특성을 예측하는 것을 가능하게 한다. 복합질병(Complex disease)의 원인 유전마커 를 탐색하는 데 기계 학습을 이용하는 등 다수의 유 전학 분야 연구 결과들도 보고되고 있다(Ho et al., 2019). 고밀도 SNP칩과 같은 대량의 유전마커 결과 로부터, 품종 구분 혹은 질병 여부를 가늠하고, 유 전마커를 선발하는 것은 기계 학습 다중범주 분류 (Multiclass classification)와 특징 선택(Feature selection) 문제에 해당한다. 다중범주 분류는 복수 개의 품종 가운데, 어떤 품종인지 알려진 유전마커 데이터로 기계학습 후, 임의의 유전마커 데이터로 어떤 품종인지 예측하는 것이며, 특징 선택은 어떤 유전마커가 품종을 식별할 수 있는 유의한 마커인 지 가중치를 통해 선택하는 것을 의미한다. 특징 선택은 예측 모델에서 중요한 특징을 통계적 방법 으로 선발하는 것으로, 특징 집합의 크기를 줄임으 로써 차원의 저주(Curse of dimensions)를 해결하 고, 분별력 있는 특징들로 구성함으로써 분류 성능 을 보장한다(Wang et al., 2016). 또한 데이터 수 집을 용이하게 하여, 좀 더 경제적인 예측 모델 구 현을 가능하게 한다.

    본 연구에서는, 품종이 알려진 다수의 반려견 고 밀도 SNP칩 데이터를 이용하여, 유전자형 데이터 로 품종을 구분할 수 있는지 확인하고, 어떤 기계 학습 분류기(classifier)와 특징 선택 방법을 사용 했을 때, 분류 정확도가 높은 최소 갯수의 유전마 커는 몇 개인지 확인하고자 한다. 이를 통하여, 경 제적인 반려견 품종 식별용 유전마커를 최종 선발 하고 유전자형 데이터에 기반한 반려견 품종 및 혈 통 관리 분야에 기여하고자 한다.

    재료 및 방법

    1 고밀도 SNP 칩 데이터 확보 및 기초 분석

    국립축산과학원으로부터, 질병 연관 연구용으로 확보한 11개 품종 226두의 반려견에 대한 고밀도 SNP칩(Illumina CanineSNP20 BeadChip, San Diego, California, USA) 데이터를 활용하였다(Table 1). 고밀도 SNP칩 유전자형 데이터는 PLINK 2.0 프 로그램(Purcell et al., 2007)을 이용하여, 기본적 인 유전자형 품질관리(genotype QC)와 연관불평 형(LD, Linkage disequilibrium) 분석(Carlson et al., 2004)과 같은 데이터 정제 과정을 거쳐 분석 대상 SNP 유전마커 12,561개를 확보하였다(Fig. 1).

    2 기계학습과 정확도 측정

    프로그래밍 언어 파이썬(python)과 데이터 분석 용 라이브러리 판다스(pandas), 기계학습 라이브러 리 사이킷런(scikit-learn)을 이용하여, 주성분분석 (PCA)와 다중범주 분류(multiclass classification) 을 수행하였다. 어떤 분류기(classifier)가 다중범주 분류 성능이 높은지 확인하기 위하여, 9종의 분류기 (Nearest Neighbors (k=4), Linear SVM (Support vector machine), RBF (Radial basis function) SVM (gamma=2), Decision Tree, Random Forest, AdaBoost, Naïve Bayes, LDA (Linear discriminant analysis) and QDA (Quadratic discriminant analysis) 를 시험하였다(Maron, 1961;Keller et al., 1985;Chen et al., 1991;Freund et al., 1997;Mika et al., 1999;Suykens & Vandewalle, 1999;Breiman, 2001;Van Gestel et al., 2002). 전체 데이터를 임의로 70%, 30% 나누어 70% 데이터로 학습하고, 30% 데 이터로 시험하여 정확도를 계산하고, 이를 100회 시 도한 후, 그 평균 값과 분산을 이용하여 분류기 성 능을 확인하였다.

    3 특징 선택

    특징 선택 방법은 임의 선택(random seed=0), 카 이제곱 검정(chi-square test)에 의한 선택, 그리고 주성분분석 특징 기여도(feature contribution by PCA)에 의한 선택(n=10, 성분별 분산비 적용)을 사 용하여 비교하였다.

    결과 및 고찰

    1 주성분분석

    품종 구분 예측모델 구현에 앞서, 전체 데이터의 구조적 특징과 품종 구분 가능성을 거시적으로 검토 하기 위해 주성분분석(PCA, Principle component analysis)를 수행하였다. 11개 품종의 반려견 226두 에 대한 12,561 SNPs 유전자형 결과를 주성분분석 후 산점도로 가시화하였고, 많이 겹친 것으로 보이 는 중앙 영역을 확대하여 표시하였다(Fig. 2). 3가 지 주성분에 대한 분산비는 각각 0.091, 0.056, 0.045이다. 분석 결과, 주성분들의 품종 간 분산 이 품종 내 분산에 비해 커서 본 데이터로 품종 구분 예측 모델을 만들기에 문제는 없는 것으로 확인하였다. MT, PD, ES, BG와 같은 소형견들은 타 품종에 비해 명확하게 분리되지 않는 것으로 보였으나, 해당 영역을 확대하여 관찰하면, 품종 간 차이를 확인할 수 있었다.

    2 전체 유전마커를 이용한 다중범주 분류

    12,561 SNPs 전체 유전마커를 사용했을 때, 반려 견 품종의 정확한 구분이 가능한지 확인하기 위해 9종의 다중클래스 분류기를 시험하였다. 전체 데 이터에서 임의로 70% 선발하여 학습하고, 나머지 30%로 정확도 판정5회 시도하여 9종 분류기의 정 확도를 비교하였다(Fig. 3). Nearest Neighbors와 Linear SVM분류기가 100% 정확도를 보였으며, 그밖의 분류기들은 정확도에 다양한 차이를 나타 냈다. Decision Tree와 Random Forest분류기의 경우, 각 시도마다 정확도에 분산이 존재하였다. 본 결과를 통해, 12,561 SNPs 전체 유전마커를 이 용하여 Nearest Neighbors와 Linear SVM 분류기 를 사용하면, 11종의 품종을 100%로 정확하게 예 측할 수 있음을 확인하였다.

    3 특징 선택 방법 비교

    12,561 SNPs 전체 유전마커 가운데, 품종을 구분 할 수 있는 유의한 마커를 선발하는 것은 본 연구의 주요 목적 가운데 하나이다. 유전마커를 임의로 선 발한 것과, 특정 기준으로 선발한 것과 유의한 차이 가 있는지 확인하기 위해, 5개 유전마커를 무작위로 임의 선발(random seed=0)한 사례(Fig. 4A)와, 주 성분분석 특징 기여도로 선발한 사례를 비교하였다 (Fig. 4B). 유전마커 5개 무작위 선발한 경우, 9종 분류기 모두가 정확도 30%에 못미치는 성능을 나타 냈다. 반면, 주성분분석 특징 기여도로 5개 유전마 커를 선발한 경우, 최대 61.7%의 정확도를 보이는 분류기(Linear Discriminant Analysis)도 확인할 수 있었다. 이를 통하여, 품종구분을 위한 유전마커 선발시 무작위 임의 선발 보다, 특징 선택 방법을 사용하는 것이 품종 구분 정확도를 높일 수 있는 방 법임을 확인하였다.

    4 선발된 유전마커 수에 따른 정확도 비교

    특징 선택 방법을 적용하여, 유전마커 선발시, 몇개의 유전마커를 선발해야 하는가는 품종 확인용 검사키트 설계 등 실용적 목적을 위해 중요하다. 유전마커의 갯수에 따라 분류기별 분류 성능이 어 떻게 변화하는지 확인하기 위하여, 유전마커 갯수 별, 분류기별로 각각 70% 데이터 학습, 30% 데이 터 검증 방법을 100회 반복하고, 그 정확도 분포를 확인하였다. LDA, Nearest Neighbors, Linear SVM 분류기들은 모두 유전마커의 갯수가 30개가 넘어가면, 다중범주 분류 정확도 80% 이상을 유지 하였다. Naïve Bayes 분류기의 경우, 유전마커 갯 수 및 각 시도에 따른 정확도 분산이 크게 나타났 으며, Nearest Neighbors와 Linear SVM 분류기 가 적은 마커수부터 균등하게 정확도가 증가하면서 도, 높은 정확도를 유지하였다(Fig. 5A). Nearest Neighbors, Linear SVM 2개의 분류기의 마커 갯 수에 따른 정확도를 상세하게 살펴보았을 때, 모든 마커 갯수에서 Linear SVM이 다중범주 분류 정확 도가 높았다(Fig. 5B). Linear SVM 분류기는 30개 의 유전마커를 사용하였을 때 정확도 약 88%를 보 였으며, 60개의 유전마커를 사용하였을 때, 약 95% 의 정확도를 나타냈다.

    특징 선택(feature selection) 방법에 따라 다중 범주 분류 정확도의 차이가 있는지 확인하기 위하 여, 카이제곱 검정법에 의한 선택과 주성분분석 특징 기여도에 의한 선택 방법을 비교했을 때, 모 든 유전마커 수에서 주성분분석 특징 기여도 방법 이 카이제곱 검정법에 비해 높은 정확도를 보이 는 것을 확인하였다(Fig. 6). 이상의 결과를 종합 할 때, 주성분분석 특징 기여도 방법으로 특징 선 택하고, Linear SVM 분류기로 학습시 가장 적은 유전마커로 가장 높은 다중범주 분류 정확도를 얻을 수 있음을 확인하였다. 반려견 품종 구분을 위한 경제성을 고려한 유전마커수는 40개이며, 이 때 11개 품종 구분 정확도 90% 이상을 기대할 수 있다. 최종 선발한 반려견 품종 구분용 유전마 커 40개를 Table 2에 정리하였다.

    5 고찰

    본 연구를 통하여, 반려견 11개 품종을 구분할 수 있는 유전마커 셋을 선발하였다. 반려견 226개체, 11개 품종의 12,561개의 유전마커에 대한 다양한 다 중범주 분류기와 특성선택 방법을 확인하였으며, 주 성분분석 특징 기여도 방법으로 유전마커를 선발하 고, Linear SVM 분류기로 학습하였을 때, 30개 유 전마커로 88% 이상, 60개 유전마커로 95% 이상의 정확도로 반려견 11개 품종을 다중범주 분류할 수 있음을 확인하였다. 실용적인 목적을 위해서는 가능 한 적은 유전마커수로 가능한 높은 정확도를 보여야 할 필요가 있으며 90% 이상 정확도를 얻을 수 있는 40개 유전마커가 효과적일 것으로 기대된다(Table 2). 11개 품종의 주성분분석시 MT, PD, ES, BG와 같은 소형견들은 타 품종에 비해 명확하게 분리되지 않는 특징이 있었는데, 이 소형견들에 대한 정확한 품종 예측을 위해 적지 않은 유전 마커가 필요했던 것으 로 추정할 수 있다. 필요시, 이들 소형견을 포괄하 는 그룹을 지정하여 다중범주 분류 하는 방법과, 소 형견 그룹내에서의 유전마커를 별도로 선발하는 방 법을 고려할 수 있다.

    특징 추출 방법으로 카이제곱 검정법과 같은 단 변수(univariate) 특징 추출 방법만을 비교 대상으 로 고려하였는데, 재귀 특징 제거(recursive feature elimination), K-neighbor 방법들은 고밀도 SNPs 유전자칩과 같이 특징 갯수가 매우 많은 경우에는 과도한 계산으로 결과를 확인하기 어렵거나, 낮은 성능을 나타내었다. 유전자칩 분석 결과와 같이 특 징의 수가 매우 많은 데이터에서 효과적으로 특징 추출할 수 있는 추가 연구가 필요하다.

    최종 선발된 반려견 품종 식별 유전마커는 타 질 병 예측 유전마커와 결합하여, 저비용의 유전자 검 사 키트(예, Fluidigm 96 SNP genotyping kit 등) 제작에 활용될 수 있으며, 이는 반려견 품종 및 혈통, 질병 관리 기술로 유용하게 활용될 수 있 을 것이다.

    감사의 글

    본 논문은 농촌진흥청 연구사업(세부과제명: 차 세대 염기서열 결정 기반 반려견 퇴행성 유전질환 조기진단 유전자 마커 개발, 세부과제번호: PJ0128 3301)의 지원과 국립축산과학원의 자료 제공에 의 해 이루어진 것임.

    Figure

    JALS-53-4-93_F1.gif

    Data preprocess for genotype of high-density SNP array.

    JALS-53-4-93_F2.gif

    Principle component analysis (PCA) by genotype of high-density SNP array.

    JALS-53-4-93_F3.gif

    Comparison of multiclass classifiers. Nearest Neighbors and Linear SVM using all SNP markers predict 11 breeds with 100% accuracy.

    JALS-53-4-93_F4.gif

    Comparison of feature selection methods. ((A) 5 SNPs by random, (B) PCA weighted)

    JALS-53-4-93_F5.gif

    Accuracies by classifiers and number of markers. ((A) Comparison of 9 classifiers, (B) Comparison of Nearest Neighbors and Linear SVN according to number of markers)

    JALS-53-4-93_F6.gif

    Comparison by feature selection method including chi-square test based and by PCA weights.

    Table

    Data collection for breed identification

    40 SNP markers for dog breed identification (score is calculated by PCA feature contribution (n=10, weighted by component variance ratio))

    Reference

    1. Berger B , Berger C , Heinrich J , Niederstatter H , Hecht W , Hellmann A , Rohleder U , Schleenbecker U , Morf N , Freire-Aradas A , McNevin D , Phillips C and Parson W. 2018. Dog breed affiliation with a forensically validated canine STR set. Forensic Sci. Int. Genet. 37: 126-134.
    2. Breiman LJMl. 2001. Random forests. Mach. Learn. 45: 5-32.
    3. Carlson CS , Eberle MA , Rieder MJ , Yi Q , Kruglyak L and Nickerson DA. 2004. Selecting a maximally informative set of single-nucleotide polymorphisms for association analyses using linkage disequilibrium. Am. J. Hum Genet. 74: 106-120.
    4. Chen S , Cowan CN and Grant PM. 1991. Orthogonal least squares learning algorithm for radial basis function networks. IEEE Trans Neural Netw. 2: 302-309.
    5. Freund Y , Schapire REJJoc and Sciencess.1997. A decision-theoretic generalization of on-line learning and an application to boosting. J. Comput. Syst. Sci. 55: 119-139.
    6. Glover KA , Hansen MM , Lien S , Als TD , Hoyheim B and Skaala O. 2010. A comparison of SNP and STR loci for delineating population structure and performing individual genetic assignment. BMC Genet. 11: 2.
    7. Ho DSW , Schierding, W , Wake M , Saffery R and O'Sullivan J. 2019. Machine Learning SNP Based Prediction for Precision Medicine. Front Genet. 10: 267.
    8. Holtzman NA , Murphy PD , Watson MS and Barr PA. 1997. Predictive genetic testing: from basic research to clinical practice. Science. 278: 602-605.
    9. Irion DN , Schaffer AL , Famula TR , Eggleston ML , Hughes SS and Pedersen NC. 2003. Analysis of genetic variation in 28 dog breed populations with 100 microsatellite markers. J. Hered. 94: 81-87.
    10. Keller JM , Gray MR and Givens JA. 1985. A fuzzy k-nearest neighbor algorithm. IEEE Trans. Syst., Man, Cybern. 580-585.
    11. Maron MEJJot A. 1961. Automatic indexing: an experimental inquiry. J. ACM. 8: 404-417.
    12. Mika S , Ratsch G , Weston J , Scholkopf B and Mullers KR. 1999. Fisher discriminant analysis with kernels. In Neural networks for signal processing IX: Proceedings of the 1999 IEEE signal processing society workshop.
    13. Ostrander EA , Wayne RK , Freedman AH and Davis BW. 2017. Demographic history, selection and functional diversity of the canine genome. Nat Rev Genet. 18: 705-720.
    14. Parker HG , Dreger DL , Rimbault M , Davis BW , Mullen AB , Carpintero-Ramirez G and Ostrander EA. 2017. Genomic Analyses Reveal the Influence of Geographic Origin, Migration, and Hybridization on Modern Dog Breed Development. Cell Rep. 19: 697-708.
    15. Pontes ML , Fondevila M , Lareu MV and Medeiros R. 2015. SNP Markers as Additional Information to Resolve Complex Kinship Cases. Transfus Med. Hemother. 42: 385-388.
    16. Purcell S , Neale B , Todd-Brown K , Thomas L , Ferreira MA , Bender D , Maller J , Sklar P , de Bakker PI , Daly MJ and Sham PC. 2007. PLINK: a tool set for whole-genome association and population-based linkage analyses. Am. J. Hum. Genet. 81: 559-575.
    17. Ritchie MD , Holzinger ER , Li R , Pendergrass SA and Kim D. 2015. Methods of integrating data to uncover genotype-phenotype interactions. Nat. Rev. Genet. 16: 85-97.
    18. Shearin AL and Ostrander EA. 2010. Leading the way: canine models of genomics and disease. Dis. Model Mech. 3: 27-34.
    19. Suykens JA and Vandewalle JJNpl. 1999. Least squares support vector machine classifiers. 9: 293-300.
    20. Van Gestel T , Suykens JA , Lanckriet G , Lambrechts A , De Moor B and Vandewalle J. 2002. Bayesian framework for least-squares support vector machine classifiers, gaussian processes, and kernel Fisher discriminant analysis. Neural Comput. 14: 1115-1147.
    21. Wang L , Wang Y and Chang Q. 2016. Feature selection methods for big data bioinformatics: A survey from the search perspective. Methods. 111: 21-31.
    오늘하루 팝업창 안보기 닫기