Bugün öğrendim ki: İnsan konuşması ve diliyle bağlantılı olan FOXP2 geni, diğer primatlarda bulunmayan iki özel mutasyon içerir. Bu mutasyonlar son yaklaşık 200.000 yıl içinde ortaya çıkmıştır, ancak karmaşık sembolik dilin açık arkeolojik kanıtları yaklaşık 70.000 yıl öncesine kadar ortaya çıkmamıştır.

Özet

Genom dizileme çalışmaları, tüm insanların protein kodlayan genlerde fonksiyon kaybına (LoF) neden olacağı öngörülen çok sayıda genetik varyant taşıdığını göstermektedir; bu da insan genomunda beklenmedik bir yedeklilik olduğunu düşündürmektedir. Burada, 185 insan genomundan elde edilen 2.951 varsayımsal LoF varyantına katı filtreler uygulayarak bunların gerçek prevalansını ve özelliklerini belirledik. İnsan genomlarının tipik olarak yaklaşık 100 gerçek LoF varyantı ve yaklaşık 20 tamamen inaktive olmuş gen içerdiğini tahmin ediyoruz. Kistik fibrozis ve Duchenne muskuler distrofisi gibi ciddi otozomal resesif hastalıklara neden olduğu bilinen 26 ve şiddetli hastalık nedeni olduğu öngörülen 21 varyant da dahil olmak üzere nadir ve muhtemelen zararlı LoF alellerini ve ayrıca esas olmayan genlerdeki yaygın LoF varyantlarını tanımladık. LoF'a toleranslı ve resesif hastalık genleri arasındaki fonksiyonel ve evrimsel farklılıkları ve bu farklılıkları klinik dizileme çalışmalarında bulunan aday genleri önceliklendirmek için kullanmaya yönelik bir yöntemi açıklıyoruz.

Giriş

Protein kodlayan genleri ciddi şekilde bozan genetik varyantlar, topluca fonksiyon kaybı (LoF) varyantları olarak bilinir ve önemli bilimsel ve klinik ilgi alanıdır. Geleneksel olarak bu tür varyantlar nadir olarak kabul edilmiş ve kistik fibrozis ve Duchenne muskuler distrofisi gibi ciddi Mendel hastalıklarındaki iyi kurulmuş nedensel rolleri temel alınarak zararlı olma olasılığı yüksek olarak görülmüştür. Ancak, görünüşte sağlıklı bireylerin tüm genomlarını inceleyen son çalışmalar, bu bireylerin en az 200 (1, 2) ve hatta belki de 800'e (3) kadar öngörülen LoF varyantı taşıdığını öne sürmüştür. Bu sayılar, insan genomunun gen bozucu mutasyonlara karşı daha önce takdir edilmemiş bir sağlamlığı olduğunu ima eder ve insan genomu dizileme verilerinin klinik yorumlanması için önemli sonuçlar doğurur.

Yayımlanmış genomlar arasındaki bildirilen LoF varyantlarının karşılaştırılması, çalışmalar arasındaki dizileme teknolojisi, varyant çağırma algoritmaları ve gen annotasyon setlerindeki farklılıklardan (4, 5) ve LoF varyantlarının yanlış pozitifler açısından yüksek oranda zenginleşmiş olacağı beklentisinden dolayı karmaşıktır. Bu öngörülen zenginleşmenin temeli, protein kodlayan genleri inaktive eden varyantların çoğuna karşı güçlü negatif doğal seçilimin hareket etmesi beklentisidir; bu da bu bölgelerdeki gerçek varyasyon miktarını genom ortalamasına kıyasla azaltır, oysa dizileme hatasının yaklaşık olarak üniform dağılması beklenir; sonuç olarak, yüksek oranda fonksiyonel olarak kısıtlanmış bölgeler daha düşük düzeyde gözlemlenen polimorfizm ve önemli ölçüde daha yüksek yanlış pozitif oranları göstermelidir (4). Bugüne kadar, yayımlanmış insan genom dizilerinde bildirilen LoF varyantlarını doğrulamak için büyük ölçekli bir girişim yapılmamıştır.

Sağlıklı bireylerde bulunan LoF varyantları birkaç örtüşen kategoriye ayrılacaktır: heterozigot durumda olan ciddi resesif hastalık alelleri; fenotip ve hastalık riski üzerinde etkisi olan ancak yine de daha az zararlı olan aleller; yedekli genlerdeki iyi huylu LoF varyasyonu; gen fonksiyonunu ciddi şekilde bozmayan gerçek varyantlar; ve son olarak, çok çeşitli dizileme ve annotasyon artefaktları. Bu kategoriler arasındaki ayrım, insan genom dizilerinin tam fonksiyonel yorumlanması için çok önemli olacaktır.

Aday LoF varyantlarının elde edilmesi ve filtrelenmesi

2.951 aday LoF varyantını, 1000 Genom Projesi'nin pilot aşamasının bir parçası olarak analiz edilen 185 bireyden elde edilen tüm genom dizileme verilerinden (2) ve tek bir anonim Avrupalı bireyin yüksek kapsama sahip tüm genom dizileme verilerinin ayrıntılı analizinden (6) yararlanarak belirledik. Bireyler üç popülasyon grubunu temsil ediyordu: Ibadan, Nijerya'dan Yoruba bireyleri (YRI), Utah'tan Kuzey ve Batı Avrupalı kökenli 60 birey (CEU) ve Pekin'den 30 Çinli ve Tokyo'dan 30 Japon birey birlikte analiz edildi (CHB+JPT).

Etkilenen transkriptlerin tam fonksiyon kaybıyla ilişkileneceği beklenen LoF varyantları için bir tanım benimsedik: durdurucu kodon oluşturan (nonsense) veya splice bölgesi bozucu tek nükleotid varyantları (SNV'ler), bir transkriptin okuma çerçevesini bozduğu öngörülen insersiyon/delesyon (indel) varyantları veya etkilenen transkriptin ilk ekzonunu veya protein kodlayan sekansının %50'sinden fazlasını ortadan kaldıran daha büyük delesyonlar. Bu varyantları ayrıca etkilenen genin bilinen tüm protein kodlayan transkriptlerini etkilediği öngörülen "tam" LoF varyantları ve bilinen kodlama transkriptlerinin yalnızca bir kısmını etkileyen "kısmi" varyantlar olarak alt bölümlere ayırdık. Tüm annotasyon, Gencode v3b annotasyonuna (7) karşı VAT algoritması (8) kullanılarak yapıldı.

Daha sonra aday listemizi bir dizi katı bilgi işlem ve deneysel doğrulama adımına tabi tuttuk (9). Bilgi işlem filtrelemesi, yerel dizi bağlamına (örneğin, yüksek oranda tekrarlayan dizinin varlığı gibi), gen annotasyonuna (örneğin, kanonik olmayan splice bölgelerini etkileyen veya etkilenen açık okuma çerçevesinin sonuna yakın konumlanmış varyantlar gibi), komşu varyantların etkilerinin analizine (örneğin, aday LoF varyantının öngörülen fonksiyonel etkisini değiştiren komşu SNV'ler gibi) ve dizi okuma eşleme ve kalite ölçümlerine dayanıyordu (Şekil S1). Mümkün olduğunda, filtreleme eşikleri aşağıda belirtilen deneysel doğrulama deneylerinden türetildi.

Diğer filtreler tarafından dışlanmayan ve deney tasarlayabildiğimiz tüm aday LoF SNV'lerini ve indellerini (n = 1.877), mümkün olduğunca 185 örneğin tamamında düşük ve yüksek kapsama sahip 1000 Genom pilot projelerinden çalıştırılan üç Illumina genotipleme dizisi ve 819 özel Sequenom testi kullanılarak deneysel genotipleme ile doğruladık. Daha büyük delesyonlar daha önce kapsamlı doğrulama işleminden geçirilmişti (10) ve NA12878'de tanımlananlar, aynı bireyden elde edilen bağımsız 454 dizileme ve dizi tabanlı verilerle karşılaştırılarak değerlendirildi ve ayrıca yüksek oranda tekrarlayan bölgelerdeki varyantların hedeflenmiş kapiler dizilemesi yapıldı. Son olarak, 786 varyant, annotasyon hatalarını belirlemek ve gen fonksiyonunu derinlemesine etkilemesi olası olmayan varyantları işaretlemek için HAVANA annotasyon hattı (7) kullanılarak deneyimli küratörler tarafından etkilenen 689 gen modelinin eksiksiz manuel yeniden annotasyonuyla yeniden incelendi. NA12878'de tanımlanan tüm 589 aday LoF varyantı, bağımsız genotip doğrulamasına ve eksiksiz gen model yeniden annotasyonuna tabi tutuldu.

Beklendiği gibi, başlangıç aday setindeki olası dizileme ve annotasyon hatalarının oranı yüksekti; incelenen LoF varyantlarının sırasıyla %25,0, %26,8 ve %11,1'lik üst üste binen setleri olası dizileme/eşleme hataları, annotasyon/referans dizi hataları ve gerçek LoF'u derinlemesine etkilemesi olası olmayan varyantlar olarak dışlandı. Filtreleme yoluyla kaldırılan aday LoF varyantları, yüksek güvenilirliğe sahip varyantlara göre daha yaygındı (Şekil 1A). Dizileme hatalarından kaynaklanan yanlış pozitif oranları (Şekil 1B), CHB+JPT ve YRI popülasyonlarında missens ve sinonim varyantlara göre LoF varyantları için daha yüksekti (tüm karşılaştırmalar için P < 10−8) ve CEU'da missens varyantlara göre önemli ölçüde daha yüksekti (P < 0,05). Bir genomdaki varyantların çoğu yaygın olduğundan, yüksek frekanslı LoF varyantları arasındaki nispeten yüksek annotasyon hatası oranı, filtrelemenin birey başına düşen LoF varyantlarında büyük bir azalmaya yol açmasıyla sonuçlandı (Tablo 1).

Tablo 1. Filtrelemeden önce ve sonra LoF varyantlarının sayıları.

filtrelemeden önce filtrelemeden sonra varyant

tip toplam 1000G düşük kapsama

birey başına ortalama NA12878 toplam 1000G düşük kapsama

birey başına ortalama NA12878 CEU CHB+JPT YRI CEU CHB+JPT YRI durdurma 1111 85,7

(21,8) 113,4

(26,7) 109,1

(23,7) 115 (25) 565 26,2

(5,2) 27,4

(6,9) 37,2

(6,3) 23 (2) splice 658 80,5

(29,5) 98,1

(35,6) 89,0

(30,4) 95 (32) 267 11,2

(1,9) 13,2

(2,5) 13,7

(1,9) 12 (1) çerçeve kayması

indel 1040 217,8

(112,1) 225,5

(121,7) 247,2

(118,7) 348 (159) 337 38,2

(9,2) 36,2

(9,0) 44,0

(8,0) 38 (11) büyük

delesyon 142 32,4

(12,2) 31,2

(11,8) 31,4

(9,7) 31 (5) 116 28,3

(6,2) 26,7

(5,9) 26,6

(5,5) 24 (4) toplam 2951 416,4

(175,6) 468,2

(195,8) 476,7

(316,0) 654 (286) 1285 103,9

(22,5) 103,5

(24,3) 121,5

(21,7) 97 (18)

Klinik dizileme projelerinde dikkatle ele alınması gereken birkaç yanlış pozitif LoF annotasyon kaynağı belirledik. Örneğin, bir nonsense veya çerçeve kayması varyantının öngörülen fonksiyonel etkisi, aynı kromozom üzerindeki diğer yakınlardaki varyantlar tarafından değiştirilebilir (Tablo S1; Şekil S2) ve öngörülen splice bozucu SNV'ler ve indeller, yakınlardaki alternatif splice bölgeleri tarafından kurtarılabilir (Şekil S3). Hem nonsense SNV'ler hem de çerçeve kayması indelleri, etkilenen genin 3' ucuna doğru zenginleşmiştir, bu da kodlama sekansının sonuna yakın kesintiye karşı daha fazla tolerans olduğunu düşündürür (Şekil 1C); bu nedenle, kodlama bölgesinin son %5'inde tanımlanan varsayımsal LoF varyantları, bilinen bir LoF indeli hariç (NOD2 geni hariç) sistematik olarak yüksek güvenilirliğe sahip setimizden çıkarılmıştır. Ayrıca, genlerin 5' ucuna yakın belirgin bir zirve bulunmaktadır, bu da bazı bozulmuş transkriptlerin alternatif bir başlangıç kodonunda transkripsiyonel yeniden başlatma ile kurtarıldığını düşündürmektedir (Şekil 1C).

Önemlisi, yüksek güvenilirliğe sahip LoF varyantlarımızın %415'i (32,3) kısmi LoF varyantlarıdır ve etkilenen genin bilinen transkriptlerinin yalnızca bir alt kümesini etkiler, bu da fonksiyonel proteinin hala üretilebileceği anlamına gelir. Bu vakaları göz ardı etmemeyi seçtik, çünkü çoğu gen için farklı transkriptlerin göreceli fonksiyonel önemini değerlendirmek şu anda imkansızdır ve kısmi LoF mutasyonlarının daha önce Mendel hastalıklarında neden olduğu gösterilmiştir (11).

Toplamda, aday LoF varyantlarımızın %43,5'i (1.285/2.951) filtrelemeden kurtuldu. Sonuçlanan yüksek güvenilirliğe sahip LoF varyantları kataloğu tam değildir: 1000 Genom pilot projelerinin aşırı nadir varyantları tespit etme gücü düşüktü (2) ve büyük gen bozan duplikasyonlar, gen ifadesini veya splice düzenlemesini bozan kodlayıcı olmayan varyantlar veya açık bir okuma çerçevesini bariz bir şekilde bozmadan protein fonksiyonunu yok eden kodlayıcı varyantlar (örneğin missens SNV'ler veya çerçeve içi indeller gibi) gibi belirli LoF varyantı sınıflarını tespit edemeyeceğiz. ACTN3 (12) ve CASP12 (13) gibi bilinen LoF varyantı içeren bazı genler "polimorfik psödogenler" olarak etiketlendi; bu, referans genomun genin işlevsiz bir alelini içerdiği, oysa diğer haplotip'lerde genin işlevsel olduğu anlamına gelir (14); bu sınıftan diğer karakterize edilmemiş genlerde LoF varyantlarını kaçırmış olmamız muhtemeldir.

Bununla birlikte, bu katalog, insan protein kodlayan genlerini bozacağı öngörülen en büyük yüksek güvenilirliğe sahip insan varyantları kümesini temsil etmektedir. Burada tanımlanan LoF varyantlarının çoğunun yeni olduğunu belirtiyoruz: yüksek güvenilirliğe sahip LoF SNV'lerinin ve indellerinin %70'i, 1000 Genom pilot projesinden önce dbSNP'de mevcut değildi.

Bireysel genomdaki LoF varyantlarının gerçek sayısı

NA12878'den sistematik olarak küratörlüğü yapılmış varyant listesini kullanarak, bu Avrupalı kökenli anonim bireyin 97 LoF varyantı taşıdığını ve 18'inin homozigot durumda olduğunu tahmin ediyoruz (Tablo 1, S2). Bu sayılar, insanlarda gen inaktivasyonuna karşı beklenmedik bir toleransa işaret etmeye devam etse de ve yalnızca bilinen nonsense SNV'lere dayanan tahminlerden önemli ölçüde yüksek olsa da (15), tüm genom dizilemesine dayanan çoğu önceki tahminden (örneğin, (2, 3, 16)) önemli ölçüde düşüktür ve fonksiyonel gen içeriğindeki bireysel varyasyona ilişkin daha fazla çalışma için bir ölçüt sağlar. Bu analiz ayrıca gen inaktivasyonu üzerindeki farklı varyant sınıfları için sağlam bir tahmin sağlar: örneğin, NA12878 genomunda inaktive olan genlerin %39'unun çerçeve kaydırıcı indellerden kaynaklandığını bulduk; bu, indeller tipik olarak kısa okumalı dizileme yaklaşımlarıyla yetersiz çağrıldığı için potansiyel olarak ciddi bir endişe kaynağıdır (2). NA12878'deki LoF SNV'lerinin ve indellerinin dörtte birinden fazlası (%28,7) etkilenen genlerin bilinen transkriptlerinin yalnızca bir alt kümesini etkilemekte olup, fonksiyonel etkilerin annotasyonunda alternatif splice dikkate alınmasının gerekliliğini vurgulamaktadır.

LoF varyantlarının ve etkilenen genlerin özellikleri

LoF SNV'ler, sinonim ve missens SNV'lere kıyasla şaşırtıcı bir şekilde düşük frekanslı alellere zenginleşmiştir (Şekil 1A), bu da birçok LoF varyantının insan sağlığına zararlı olduğunu ve dolayısıyla arıtıcı doğal seçim tarafından frekanslarının artmasının engellendiğini düşündürmektedir. İlginç bir şekilde, birey başına yüksek güvenilirliğe sahip LoF varyantlarının sayısı YRI (Nijerya) örneğinde Afrika dışı üç popülasyondan %25 daha yüksektir (P = 5,0 × 10−21; Tablo 1), bu da Afrika bireylerinde fonksiyonel gen içeriğinde daha yüksek düzeyde varyasyon olduğunu düşündürmektedir ve bu da onların daha büyük genel genetik çeşitliliği ile uyumludur. Ancak, bu bulguyu doğrulamak ve olası fonksiyonel etkisini değerlendirmek için popülasyonlar arasında daha homojen dizileme kalitesine sahip daha büyük örneklere ihtiyaç duyulacağını uyarıyoruz.

En az bir yüksek güvenilirliğe sahip LoF varyantı içeren genlerin özelliklerini diğer protein kodlayan genlerinkilerle karşılaştırdık. Yüksek güvenilirliğe sahip LoF alelleri içeren genler, insan ve makak arasındaki kodlama bölgelerinde proteinle ilgili ve sessiz ikamelerin oranında daha yüksek bir orana sahip olup (P = 2,8 × 10−52) ve promoter bölgelerinde daha az evrimsel korunmaya (GERP puanı; P = 3,7 × 10−16) sahiptir. Ortalama olarak, diğer genlere göre daha yakın akraba gen ailesi üyelerine (paraloglar) sahiptirler (P = 0,0058) ve paraloglarına daha yüksek dizi özdeşliği gösterirler (P = 0,0068), bu da birçok durumda fonksiyonlarının kısmen yedekli olabileceğini ve ayrıca gen dönüşümü (17) süreciyle LoF varyantlarının kazanılması veya kaybedilmesi olasılığını artırdığını düşündürmektedir, tıpkı hastalık mutasyonları için son zamanlarda bildirildiği gibi (18). Ayrıca, hem protein-protein etkileşiminde (P = 6,8 × 10−6) hem de gen etkileşiminde (P = 4,2 × 10−19) ağlarda daha düşük bağlantılılığa sahiptirler, bu da LoF içeren genlerin genel olarak temel hücresel yollara daha az merkezi olduğunu düşündürmektedir, ancak bu yorumun bazı önemli noktaları vardır (9). LoF içeren genler, koku alma resepsiyonu ile ilgili fonksiyonel kategorilerde güçlü bir şekilde zenginleşmiş ve protein bağlanması, transkripsiyonel düzenleme ve anatomik gelişimde rol oynayan genlerde tükenmiştir (Tablo S8).

Belirli bir genin heterozigot inaktivasyonunun zararlı olma olasılığını (halkada yetmezlik olarak bilinen bir durum) fonksiyonel ve evrimsel parametrelerin bir kombinasyonunu kullanarak tahmin ettik (9, 19). Filtreleme sürecimiz, öngörülen haployetmezlik olasılığı daha yüksek olan aday LoF varyantlarını orantısız bir şekilde kaldırdı, P(HI), yüksek oranda fonksiyonel olarak kısıtlanmış genlerdeki varsayımsal LoF varyantlarının çoğunun artefakt olduğu tutarlıdır (Şekil 2A). Filtrelerimiz tarafından atılan varyantlardan (P = 2,1 × 10−16) veya bilinen haployetmez genlerden (P = 1,8 × 10−73) daha düşük P(HI)'ye sahip olan filtrelemeden kalan yüksek güvenilirliğe sahip LoF varyantları.

Birden fazla aday LoF varyantı içeren 365 gen belirledik. Üç veya daha fazla bağımsız LoF varyantı içeren genlerin çoğu, sistematik dizileme hataları olarak bulundu: örneğin, CDC27 geni, hepsi de insan referans dizisinde bulunmayan inaktif bir gen kopyasına atfedilebilen 10 ayrı aday splice bozucu varyant içeriyordu. Bu varyantların çoğu filtreleme ile kaldırıldı (Tablo S3). Kalan genlerden bazıları popülasyonda inaktivasyona doğru sürükleniyor gibi görünüyor: örneğin, VWDE geni dört ayrı yüksek güvenilirliğe sahip LoF varyantı içeriyor ve dizilenmiş 1000G örneklerinin %42,7'si bu genin en az bir işlevsiz kopyasını taşıyor.

LoF varyantlarının insan fenotipleri ve hastalık riski üzerindeki etkileri

Yüksek güvenilirliğe sahip LoF seti, insan özelliklerini etkilediği bildirilen birçok bilinen LoF varyantını içerir (Tablo S4). Ayrıca fenotipik etkilere sahip olması muhtemel daha önce karakterize edilmemiş LoF varyantları da bulduk. Örneğin, PKD1L3'te üç ayrı LoF varyantı ve PKD2L1'de bir tane tanımladık; bu iki genin protein ürünleri varsayımsal bir ekşi tat reseptör kompleksi oluşturur (20, 21), bu nedenle bu varyantlar insanlar arasındaki ekşi tat hassasiyetindeki varyasyonun altında yatabilir.

Yüksek güvenilirliğe sahip LoF setimiz, ciddi insan hastalığı ile ilgili birçok varyantı içerir. Yüksek güvenilirliğe sahip LoF setimizde 26 bilinen resesif hastalık nedeni olan mutasyon tanımladık; bunlar arasında Leber konjenital amauroz, harlequin iktiyozis, osteogenesis imperfecta ve Tay-Sachs hastalığı gibi ciddi erken başlangıçlı durumlarla ilişkili mutasyonlar bulunmaktadır (Tablo S5). Ayrıca yeni hastalık nedeni olan mutasyonlar için 21 güçlü aday belirledik: yetişkin başlangıçlı muskuler distrofi, Charcot-Marie-Tooth hastalığı ve mukolipidoz ile inandırıcı bir şekilde ilişkilendirilmiş diğer sıfır mutasyonlara sahip genlerin bilinen tüm transkriptlerini etkileyen yüksek güvenilirliğe sahip LoF varyantları (Tablo S6). Tek bir istisna dışında (nakil greft-versus-host hastalığı ile ilişkili bir varyant), bireylerin hiçbiri varsayımsal hastalık nedeni olan aleller için homozigot değildi.

Bilinen zararlı varyantların varlığına dair kanıtlar göz önüne alındığında, LoF varyantlarının da yaygın, karmaşık hastalıkların riski ile ilişkilendirmeye zenginleştirilmiş olabileceğini varsaydık. Bu hipotezi, Crohn hastalığı ve romatoid artrit gibi yedi karmaşık hastalık için toplam 13.241 hastaya ve daha önce genom çapında SNP genotiplemesine tabi tutulmuş 2.938 paylaşılan kontrole, 417 LoF SNV ve indel genotipi için impute ederek araştırdık (22). Crohn hastalığı ile ilişkili NOD2 genindeki daha önce bilinen bir çerçeve kayması indeliğini, genom çapında anlamlı bir impute edilmiş P değeri ile 1,78 × 10−14 olarak doğruladık (en iyi etiket SNP'sinden iki büyüklük mertebesi daha anlamlı). Ancak, başka hiçbir LoF varyantı genom çapında anlamlılığa ulaşamadı ve diğer kodlayıcı varyantlara kıyasla toplu olarak anlamlılık sinyallerinde genel bir fazlalık yoktu (Şekil 2B). Kataloğumuzun %5 veya daha yüksek popülasyon frekansında çoğu gerçek LoF varyantını içerdiği beklendiğinden, bu sonuç yaygın gen bozucu varyantların karmaşık hastalık yatkınlığında küçük bir rol oynadığını göstermektedir.

Yaygın LoF varyantlarının karmaşık hastalık riski ile ilişkili olmamasının bir açıklaması, arıtıcı seçilimdir; bu seçilimin, çoğu ciddi zararlı alelin yüksek popülasyon frekanslarına ulaşmasını engellemesi beklenir; bu, yüksek güvenilirliğe sahip LoF varyantları arasında frekansa göre sola eğilim ile tutarlıdır (Şekil 1A). Ek olarak, homozigot LoF varyantları içeren genler, yalnızca heterozigot LoF varyantları içeren genlere göre daha fazla gen ailesi üyesine sahiptir (medyan 5'e karşı 3; P = 3,76 × 10−3) ve makak ile insan arasında daha az korunmuştur (P = 1,87 × 10−4), bu da yüksek frekanslı fonksiyon kaybından etkilenen genlerde daha fazla yedeklilik olduğunu düşündürmektedir. Benzer şekilde küçük etkilerin karmaşık hastalık riski üzerindeki etkileri daha önce büyük, yaygın kopya sayısı varyasyonları için de bildirilmiştir; bu varyant sınıfı da fonksiyonel etki olasılığı yüksek olan bir sınıftır (23).

Genotip imputasyonu ve vaka-kontrol ilişkilendirme çalışmaları, düşük frekanslı varyantlar için ilişkilendirmeleri tespit etme gücüne sahip değildir, bu nedenle nadir LoF varyasyonunun insan karmaşık bozuklukları üzerindeki etkisini karakterize etmek için büyük hastalık kohortlarında LoF varyantlarının doğrudan genotiplenmesini içeren daha fazla deney gerekecektir.

Nonsense SNV'lerin gen ifadesi üzerindeki etkileri

Doğrulanmış nonsense SNV'lerin gen ifadesi üzerindeki etkisini, iki popülasyondan 119 örneğin lenfoblastoid hücre hatlarından üretilen RNA dizileme verilerini kullanarak inceledik (24, 25). Deneysel olarak genotiplenmiş heterozigot bireylerde LoF ve fonksiyonel alellerin göreceli ifadesinin karşılaştırılması (Şekil 2C; Tablo S7), denenebilecek yeterli dizileme derinliğine sahip varyantların 8/49'unda (%16,3) LoF alelinden gelen ifadede istatistiksel olarak anlamlı bir azalma ortaya koydu. Beklendiği gibi, bu ifade azalması, erken durdurma kodonu içeren transkriptleri parçalayan hücresel bir süreç olan nonsense aracılı mRNA bozunmasını (NMD) tetiklediği öngörülen varyantlar için en yaygındır: öngörülen NMD tetikleyici varyantların 7/28'inde (%25,0) anlamlı bozunma kanıtı görülürken, öngörülen NMD'den kaçınan varyantların 1/21'inde (%4,8) görülmektedir ve öngörülen NMD tetikleyici varyantlar için alternatif alele eşleşen okumaların oranı anlamlı derecede daha düşüktü (medyan 0,352'ye karşı 0,481; P = 0,0023). Ancak, öngörülen NMD tetikleyici varyantların çoğunun RNA ifadesi üzerinde tespit edilebilir bir etkisi yoktur.

Bu sonuçlar, LoF varyantlarının bir azınlığı için gerçek gen fonksiyon kaybının fonksiyonel onayını sağlar. Ek olarak, NMD tahmini için en yaygın kullanılan algoritmanın (26) RNA ifadesi üzerindeki nonsense SNV'lerin etkilerinin mükemmel bir göstergesi olmadığını göstermektedir.

LoF varyantları üzerindeki doğal seçim

LoF varyantlarının bir sınıf olarak, Olson'un (27) önerdiği adaptif gen kaybının "az daha fazladır" hipotezi altında beklendiği gibi, yakın zamanda pozitif seçilim kanıtı gösterip göstermediğini araştırdık. Yüksek güvenilirliğe sahip LoF varyantları ile frekans spektrumu ve haplotip uzunluğu tabanlı testler kullanarak pozitif seçilim potansiyeli gösteren bölgeler arasındaki örtüşmeyi 1000 Genom pilot verileri üzerinde inceledik (2). "Az daha fazladır" hipotezinin aksine, LoF varyantları, frekansla eşleştirilmiş sinonim SNV'ler kadar sıklıkta pozitif olarak seçilmiş bölgelerle örtüşmüyordu. Bununla birlikte, pozitif seçilim için aday bölgelerde 20 yüksek güvenilirliğe sahip LoF varyantı belirledik ve bu varyantlar daha fazla analiz gerektirmektedir (Tablo S10).

Bazı durumlarda, gen inaktivasyonu için seçim, belirli bir LoF alelinin artan sıklığı yerine birden fazla nadir LoF varyantının birikimi yoluyla hareket edebilir. Bunun potansiyel bir örneğini belirledik: Afrikalı popülasyonlarda pozitif seçilimin hedefi olduğu bildirilen CD36 genindeki nispeten yaygın bir nonsense SNV'ye ek olarak, aynı gende iki nadir, yeni splice bozucu SNV belirledik. Bu üç varyantın tümü Yoruban (YRI) popülasyonuna özgüydü, bu da CD36 için birden fazla sıfır alelinin seçim etkisi altında Afrika popülasyonlarında biriktiğini düşündürmektedir.

Yeni varyantların hastalık nedenselliği olasılığını tahmin etmek için LoF'a toleranslı genlerin kullanılması

Bir genin homozigot inaktivasyonu, bir dizi fenotipik etkiye sahip olabilir: spektrumun bir ucunda ciddi resesif hastalık genleri, diğer ucunda ise bariz bir klinik etki olmaksızın inaktive edilebilen, burada LoF'a toleranslı genler olarak adlandırılan genler bulunur. Klinik dizileme projeleri, hastalık nedeni olan mutasyonları belirlemek için, etkilenen genin bu spektrum üzerinde tam olarak nerede bulunduğunu ayırt etmek için iyileştirilmiş yöntemlerden faydalanacaktır.

1000 Genom Projesi örneklerinde homozigot olarak inaktive edilen genlerin, spektrumun LoF'a toleranslı ucuna yakın olma olasılığı yüksektir. Bu genler bu nedenle, bu genleri ciddi resesif hastalık genlerinden ayıran fonksiyonel ve evrimsel özellikleri tanımlamak için kullanılabilecek bir karşılaştırma grubu temsil eder.

En az bir bireyde homozigot olarak bulunan doğrulanmış LoF varyantları içeren 253 geni inceledik. Bu LoF'a toleranslı genler, genom ortalamasından önemli ölçüde daha az korunmuştur ve daha az protein-protein etkileşimi sergiler (Şekil 3A). Ayrıca, çoğunlukla koku alıcı genlerin bu sınıfta zenginleşmesiyle açıklanan kemo-algılama ile ilgili fonksiyonel kategorilerle zenginleşmişlerdir (%13,0'a karşılık %1,4 genom çapında) ve embriyonik gelişim ve hücresel metabolizma ile ilgili genlerde tükenmiştir (Tablo S8).

Daha sonra, aday genleri hastalık/LoF-toleranslı spektrumu boyunca sınıflandırmak için kullanılabilecek parametreler belirledik. Önce koku alıcılarını LoF'a toleranslı kümeden çıkardık, çünkü bu genler çoğu ciddi Mendel hastalığı için aday olarak kolayca hariç tutulabilir, bu da 213 LoF'a toleranslı genin 858 bilinen resesif hastalık geniyle karşılaştırılmasına olanak tanıdı. Bu iki gen kategorisinin, bir dizi özellik açısından belirgin farklılıklar gösterdiği bulundu (Şekil 3A).

Genleri LoF'a toleranslı ve resesif hastalık sınıfları olarak sınıflandırmak için insan-makak korunması ve bir protein-protein etkileşim ağında resesif hastalık genlerine yakınlığa dayalı doğrusal ayırıcı bir model geliştirdik (Şekil 3B, 3C). İki sınıfı kesin olarak ayırt etmek için yetersiz olmasına rağmen, bu algoritma, resesif hastalık hastalarında dizileme ile belirlenen adayları çoğaltma ve fonksiyonel takip için önceliklendirmek amacıyla kullanılabilir. Bu tür analizler için genomdaki her protein kodlayan gen için bir resesif hastalık olasılık puanı hesapladık (9).

Sonuçlar

Burada, insan protein kodlayan genlerinin okuma çerçevesini bozan varyantların katı bir şekilde filtrelenmiş bir kataloğunu, popülasyon frekansı %5 veya daha yüksek olan bu tür varyantların çoğunu içerecek şekilde tanımlıyoruz. Tüm bireylerin genomlarında büyük sayıda aday LoF varyantı bulunmakla birlikte, bunlar çeşitli dizileme ve annotasyon hataları açısından yüksek oranda zenginleştiğinden, hastalarda bulunan yeni gen bozucu varyantlara hastalık nedeni statüsü atamada dikkatli olunması gerekir. Daha güvenilir referans gen setleri yardımcı olacaktır: referans dizi ve otomatik gen annotasyon hataları, derinlemesine karakterize edilmiş bireysel genomumuzdaki aday LoF varyantlarının %44,9'unu oluşturuyordu, ancak bunların çoğu bu proje ve diğer manuel annotasyon çabaları sayesinde artık düzeltilmiştir.

Yüksek kaliteli bir insan genomunda bulunan LoF varyantlarının katı bir şekilde filtrelenmesi, tipik bir "sağlıklı" genomun yaklaşık 100 gerçek LoF varyantı içerdiğini ve çoğunun heterozigot durumda taşındığını göstermektedir. İnsanların (29) ve diğer türlerin (30) genom başına 5'ten az resesif ölümcül alel taşıdığının tahmin edildiği göz önüne alındığında, bireysel bir genomda bulunan LoF varyantlarının çoğunun esas olmayan genlerdeki yaygın varyantlar olması muhtemeldir, ancak bunlar yine de insan fenotipik varyasyonu üzerinde bir etkiye sahip olabilir. Bununla birlikte, LoF varyantlarının bir sınıf olarak güçlü arıtıcı seçilim imzası ve çok sayıda bilinen ve öngörülen ciddi resesif hastalık alelinin keşfi, büyük etkiye sahip birçok LoF alelinin insan popülasyonunda düşük sıklıkta bulunduğunu göstermektedir. Bu varyantların tam spektrumunu ve insan hastalık riski üzerindeki etkilerini ortaya çıkarmak için büyük dizileme ve genotipleme projeleri gerekecektir.

LoF'a toleranslı ve resesif hastalık genlerinin farklı fonksiyonel ve evrimsel özelliklere sahip olduğunu bulduk, bu da bize hasta örneklerinde belirlenen yeni aday resesif hastalık varyantlarını fonksiyonel takip için önceliklendirmek için potansiyel bir yaklaşım geliştirmemizi sağlıyor. Yüksek verimli dizileme çalışmalarından elde edilen LoF'a toleranslı genlerin daha fazla örneği elde edildikçe, bu tür bir sınıflandırma yaklaşımının gücü önemli ölçüde artacaktır.

Son olarak, doğrulanmış LoF varyantları kataloğumuzun, şu anda işlevsel annotasyonları az veya hiç olmayan binlerce insan protein kodlayan geni için doğal olarak oluşan "nokavt" alellerinin bir listesini oluşturduğunu belirtiyoruz. Bu varyantlar için homozigot olan bireylerin tanımlanması ve sistematik olarak fenotipleştirilmesi, birçok kötü karakterize edilmiş insan geninin işlevi hakkında değerli bilgiler sağlayabilir.

Ek Materyal

Teşekkürler

T. Shah, yoğunluk kümelerine dayalı genotip manuel ataması için kullanılan Pyvoker yazılımını sağladı, S. Edkins Sequenom doğrulamasına katıldı ve Illumina, Wellcome Trust Sanger Enstitüsü ve The Broad Institute of Harvard ve MIT'deki genotipleme grupları, genotip doğrulama için kullanılan üç Illumina dizisi için ham yoğunluk verilerini sağladı. Wellcome Trust Sanger Enstitüsü'nde yapılan çalışma, Wellcome Trust hibe 098051 ile desteklendi; DM, Avustralya Ulusal Sağlık ve Tıp Araştırma Konseyi'nden bir bursla desteklendi; GL, Wellcome Trust tarafından (090532/Z/09/Z); ETD ve SBM, İsviçre Ulusal Bilim Vakfı, Louis Jeantet Vakfı ve NIH-NIMH GTEx fonu tarafından; KY, NWO VENI hibe 639.021.125 tarafından; ve HZ, YL ve JW, Çin Ulusal Temel Araştırma Programı (973 program no. 2011CB809200), Çin Ulusal Doğa Bilimleri Vakfı (30725008; 30890032; 30811130531), Çin 863 programı (2006AA02A302;2009AA022707), Shenzhen Belediye Hükümeti (hibeler JC200903190767A; JC200903190772A; ZYC200903240076A; CXB200903110066A; ZYC200903240077A; ve ZYC200903240080A) ve Danimarka Doğa Bilimleri Araştırma Konseyi'nden Ole Rømer hibesi ile Shenzhen Belediye Hükümeti ve Shenzhen Yantian Bölgesi Yerel Hükümeti'nden alınan fonlarla desteklenmiştir. JKP, 23andMe'nin bilimsel danışma kurulundadır ve RAG, Life Technologies'de ortak yatırıma sahiptir. 1000 Genom pilot projelerinin ham dizi verileri www.1000genomes.org adresinden ve bu makalede açıklanan kayıp fonksiyonu varyantlarının küratörlü bir listesi Çevrimiçi Ek Materyalde sağlanmıştır.

Referanslar ve notlar

1.Ng PC, ve diğerleri. PLoS Genet. 2008;4:e1000160. doi: 10.1371/journal.pgen.1000160. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

2.1000 Genom Projesi Konsorsiyumu Nature. 2010;467:1061. [Google Scholar]

3.Pelak K, ve diğerleri. PLoS Genet. 2010;6:e1001111. doi: 10.1371/journal.pgen.1001111. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

4.MacArthur DG, Tyler-Smith C. Hum. Mol. Genet. 2010;19:R125. doi: 10.1093/hmg/ddq365. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

5.Balasubramanian S, ve diğerleri. Genes Dev. 2011;25:1. doi: 10.1101/gad.1968411. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

6.DePristo MA, ve diğerleri. Nat. Genet. 2011;43:491. doi: 10.1038/ng.806. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

7.Harrow J, ve diğerleri. Genome Biol. 2006;7(Suppl 1):1. doi: 10.1186/gb-2006-7-s1-s3. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

8. http://vat.gersteinlab.org/

9.Science online'da destekleyici materyale bakınız.

10.Mills RE, ve diğerleri. Nature. 2011;470:59. doi: 10.1038/nature09708. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

11.Uzumcu A, ve diğerleri. J. Med. Genet. 2006;43:e5. doi: 10.1136/jmg.2005.032904. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

12.MacArthur DG, ve diğerleri. Nat. Genet. 2007;39:1261. doi: 10.1038/ng2122. [DOI] [PubMed] [Google Scholar]

13.Xue Y, ve diğerleri. Am. J. Hum. Genet. 2006;78:659. doi: 10.1086/503116. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

14.Zhang ZD, Frankish A, Hunt T, Harrow J, Gerstein M. Genome Biol. 2010;11:R26. doi: 10.1186/gb-2010-11-3-r26. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

15.Yngvadottir B, ve diğerleri. Am. J. Hum. Genet. 2009;84:224. doi: 10.1016/j.ajhg.2009.01.008. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

16.Lupski JR, ve diğerleri. N. Engl. J. Med. 2010;362:1181. doi: 10.1056/NEJMoa0908094. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

17.Chen JM, Cooper DN, Chuzhanova N, Ferec C, Patrinos GP. Nature Reviews Genetics. 2007;8:762. doi: 10.1038/nrg2193. [DOI] [PubMed] [Google Scholar]

18.Casola C, Zekonyte U, Phillips AD, Cooper DN, Hahn MW. Genome Res. 2011;22 doi: 10.1101/gr.127738.111. doi:10.1101/gr.127738.111. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

19.Huang N, Lee I, Marcotte EM, Hurles ME. PLoS Genet. 2010;6:e1001154. doi: 10.1371/journal.pgen.1001154. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

20.Ishimaru Y, ve diğerleri. Proc. Natl. Acad. Sci. U. S. A. 2006;103:12569. doi: 10.1073/pnas.0602702103. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

21.Huang AL, ve diğerleri. Nature. 2006;442:934. doi: 10.1038/nature05084. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

22.Wellcome Trust Vaka Kontrol Konsorsiyumu Nature. 2007;447:661. [Google Scholar]

23.Conrad DF, ve diğerleri. Nature. 2010;464:704. doi: 10.1038/nature08516. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

24.Montgomery SB, ve diğerleri. Nature. 2010;464:773. doi: 10.1038/nature08903. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

25.Pickrell JK, ve diğerleri. Nature. 2010;464:768. doi: 10.1038/nature08872. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

26.Nagy E, Maquat LE. Trends Biochem. Sci. 1998;23:198. doi: 10.1016/s0968-0004(98)01208-0. [DOI] [PubMed] [Google Scholar]

27.Olson MV. Am. J. Hum. Genet. 1999;64:18. doi: 10.1086/302219. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

28.Fry AE, ve diğerleri. Hum. Mol. Genet. 2009;18:2683. doi: 10.1093/hmg/ddp192. [DOI] [PMC ücretsiz makale] [PubMed] [Google Scholar]

29.Bittles AH, Neel JV. Nat. Genet. 1994;8:117. doi: 10.1038/ng1094-117. [DOI] [PubMed] [Google Scholar]

30.McCune AR, ve diğerleri. Science. 2002;296:2398. doi: 10.1126/science.1071757. [DOI] [PubMed] [Google Scholar]