Le panel de référence d'haplotypes SWine IMputation (SWIM) permet la cartographie génétique de la résolution des nucléotides chez les porcs

Communications Biology volume 6, Article number: 577 (2023) Citer cet article

192 accès

2 Altmétrique

Détails des métriques

La cartographie génétique pour identifier les gènes et les allèles associés à ou causant une variation de trait quantitatif économiquement importante chez les animaux d'élevage tels que les porcs est un objectif majeur de l'amélioration génétique animale. Malgré les progrès récents des technologies de génotypage à haut débit, la résolution de la cartographie génétique chez les porcs reste médiocre en partie à cause de la faible densité de sites variants génotypés. Dans cette étude, nous avons surmonté cette limitation en développant un panel d'haplotypes de référence pour les porcs basé sur 2259 animaux séquencés au génome entier représentant 44 races de porcs. Nous avons évalué les combinaisons de logiciels et la composition des races pour optimiser la procédure d'imputation et obtenu un taux de concordance moyen supérieur à 96 %, un taux de concordance sans référence de 88 % et un r2 de 0,85. Nous avons démontré dans deux études de cas que l'imputation de génotype à l'aide de cette ressource peut considérablement améliorer la résolution de la cartographie génétique. Un serveur Web public a été développé pour permettre à la communauté de la génétique porcine d'utiliser pleinement cette ressource. Nous nous attendons à ce que cette ressource facilite la cartographie génétique et accélère l'amélioration génétique chez les porcs.

Le porc domestique (Sus scrofa) est une espèce d'élevage importante et un organisme modèle pour la recherche biomédicale1. Historiquement, la domestication et la sélection artificielle intense ont créé de nombreuses races de porcs génétiquement et phénotypiquement distinctes les unes des autres et de leurs parents sauvages2,3,4. Plus récemment, les technologies de séquençage et de génotypage de l'ADN à haut débit5 ont facilité l'amélioration génétique des porcs. Par exemple, des centaines d'études d'association à l'échelle du génome et de cartographie des locus de traits quantitatifs (QTL) ont identifié de nombreuses régions génomiques associées à divers phénotypes de production, physiologiques et comportementaux6. Ces études sont importantes pour comprendre la base génétique et biologique de traits économiquement et biomédicalement importants tels que la croissance7, la fertilité8 et la résistance aux maladies9.

La résolution de la cartographie génétique chez les porcs reste médiocre en partie à cause de la faible densité des réseaux de génotypage de polymorphisme nucléotidique unique (SNP). Une approche éprouvée et rentable pour surmonter la limite de résolution consiste à imputation de génotype, en tirant parti du déséquilibre de liaison pour déduire des génotypes à des locus polymorphes non observés. Avec de grands panels de référence d'haplotypes créés par séquençage du génome entier, l'imputation a le potentiel de fournir des génotypes au niveau de la séquence11. Chez les animaux d'élevage, où l'identification des QTL et la prédiction génétique sont deux objectifs majeurs, et où le déséquilibre de liaison est important, l'imputation du génotype au niveau de la séquence a été appliquée avec succès avec un nombre relativement faible d'haplotypes de référence mais une précision décente12, 13. Chez les porcs, en particulier, au moins deux serveurs d'imputation publics sont disponibles14, 15. Cependant, soit ils contenaient un nombre très limité d'animaux dans le panel de référence14, soit ils manquaient d'une bonne représentation des principales races commerciales15, limitant leurs applications. De plus, bien que de nombreuses études aient démontré une amélioration de la résolution de cartographie16 et de la précision des prédictions génomiques17, aucune d'entre elles n'est accessible au public.

Dans cette étude, nous avons produit des données de séquence du génome entier de 1530 porcs nouvellement séquencés et les avons combinées avec 729 animaux supplémentaires provenant de bases de données publiques pour appeler des variantes et développer de loin le panel de référence d'haplotypes chez les porcs le plus vaste et le plus diversifié à ce jour. Cette augmentation substantielle du nombre de génomes disponibles nous a permis d'imputer rapidement et avec précision les génotypes de la matrice SNP aux séquences du génome entier. Nous avons évalué l'exactitude de l'imputation et démontré l'utilité de ce panel de référence d'haplotype dans la cartographie d'association à l'échelle du génome. Nous introduisons un nouveau serveur Web public (swimgeno.org) où les utilisateurs peuvent soumettre des génotypes de tableau et récupérer des génotypes imputés au niveau de la séquence du génome entier. Cette ressource améliorera considérablement l'accès à l'imputation génotypique de haute précision, facilitant potentiellement la cartographie génétique de résolution des nucléotides chez les porcs.

Nous avons consolidé les données de séquence du génome entier d'animaux nouvellement séquencés (n = 1530) et les données accessibles au public (Données supplémentaires 1 et 2) pour un total de 2259 porcs, représentant 44 races différentes (Données supplémentaires 1). La majorité des animaux étaient Landrace (n = 651), Yorkshire (n = 543) et Duroc (n = 485), trois principales races commerciales. La profondeur de la séquence alignée de manière unique était d'environ 12, 86 X en moyenne sur tous les animaux (données supplémentaires 1). Nous avons appelé des variantes à l'aide du pipeline GATK et des scores de qualité de variantes calibrés avec des ensembles de variantes connus compilés à partir de matrices SNP commerciales. Après filtrage des variants de faible qualité et d'hétérozygotie et d'absence excessives, il restait 47,86 M de variants autosomiques. Le sous-échantillonnage d'animaux a indiqué que l'augmentation du nombre de variantes découvertes a rapidement diminué (Fig. 1a). Plus de 95% de toutes les variantes ont pu être récupérées en utilisant seulement 1000 animaux sélectionnés au hasard.

a Nombre de variants découverts en fonction du nombre d'animaux dans la cohorte découverte. La courbe est générée en sous-divisant aléatoirement la population et en comptant les variants d'ADN qui restent polymorphes. Le nombre de variantes découvertes en utilisant 1000 et l'ensemble des 2259 animaux sont marqués. b Déséquilibre de liaison par paires chez quatre races domestiques et sangliers de trois régions. Le r2 moyen est tracé en fonction de la distance entre les variantes. La LD a été calculée après suppression des variants à basse fréquence (MAF < 0,05) et des parents proches (GRM > 0,5) chez 435 Durocs, 522 Landraces, 493 Yorkshires, 36 Meishans, 24 sangliers européens et 27 sangliers asiatiques. c Nuage de points des deux premiers composants principaux de la matrice génotypique pour les variantes communes (MAF > 0,05) et élaguées LD. Les points sont codés par couleur en fonction de leurs informations sur la race déclarées. Une analyse préliminaire en composantes principales a été effectuée pour inspecter visuellement et éliminer les valeurs aberrantes claires des grappes, ce qui indiquait des erreurs dans les informations sur la race. d Les ancêtres des porcs ont été estimés avec des nombres variables (K = 2, 4, 6) de populations ancestrales postulées à l'aide du logiciel ADMIXTURE. Les ancêtres estimés ont été tracés sous forme de graphiques à barres empilées avec des races annotées en haut. En plus des annotations au-dessus du graphique à barres, les grands emplacements géographiques sont également annotés sous le graphique à barres pour K = 6.

Le déséquilibre de liaison (LD) entre les variantes de cette population était important mais différait selon la race (Fig. 1b). La LD chez les sangliers a diminué plus rapidement à mesure que la distance entre les variantes augmentait que chez les races domestiques, ce qui correspond au niveau élevé de consanguinité parmi les races domestiques sélectionnées de manière intensive (Fig. 1b). La variation génétique présente dans le génome du porc sépare les races en groupes distincts qui représentent la différenciation géographique (Fig. 1c, d). La première composante principale des génotypes séparait les races asiatiques et les sangliers de leurs homologues européens, tandis que la seconde séparait les Durocs des autres races (Fig. 1c). Les ancêtres estimés des races ont également indiqué des grappes clairement séparées en fonction de leurs emplacements géographiques (Fig. 1d). Pris ensemble, la variation génétique diversifiée et riche dans les 2259 génomes porcins inclus dans cette étude fournit une base solide pour l'imputation du génome entier.

Nous nous sommes concentrés sur les ~ 34 M variants autosomiques (30 489 782 SNP et 4 125 579 indels) ségrégeant à une fréquence d'allèle mineur (MAF)> 0, 005 pour construire le panel de référence d'haplotype. Pour étudier les facteurs qui influencent la précision de l'imputation, nous avons envisagé différentes combinaisons de logiciels de phasage et d'imputation couramment utilisés, notamment SHAPEIT4/IMPUTE5, Beagle5.2/Beagle5.2 et Eagle2.4/Minimac4. Nous avons défini la précision de l'imputation à l'aide de trois mesures, le taux de concordance global entre les génotypes imputés et observés, le taux de concordance sans référence résumant la précision pour les génotypes sans référence uniquement et la corrélation au carré (r2) entre les génotypes imputés et observés. Nous nous sommes concentrés sur Landrace comme ensemble cible car il contient le plus grand nombre d'animaux dans l'ensemble de données. Nous avons retenu 100 porcs Landrace séquencés à une couverture élevée (> 15X) et comparé les génotypes observés avec les génotypes imputés à partir de génotypes basés sur le séquençage sur des sites sur un réseau SNP 50 K (GeneSeek GGP). Quelle que soit la composition de la race dans le panel de référence d'haplotypes de taille fixe, SHAPEIT4/IMPUTE5 a surpassé Beagle5.2/Beagle5.2 et Eagle2.4/Minimac4 dans les trois mesures (Fig. 2a – c). SHAPEIT4/IMPUTE5 a donc été choisi pour toutes les analyses ultérieures.

a Taux de concordance, taux de concordance sans référence et r2 des génotypes imputés par rapport aux génotypes observés en utilisant différentes combinaisons de logiciels avec 550 Landraces comme panel de référence. b Même analyse mais dans un panel de référence composé de 250 Landraces, 150 Durocs et 150 Yorkshires. c Même analyse mais dans un panel de référence composé de 250 Landraces et 300 autres races (hors Duroc ou Yorkshire).

Chez les bovins, l'imputation à l'aide de panels de référence multi-races s'est avérée plus précise que l'utilisation d'un panel mono-race12,18. Cependant, les panels multi-races sont confondus par des échantillons de plus grande taille. Nous avons demandé si l'imputation à l'aide de panels de référence de même taille provenant d'une seule race et d'un mélange de plusieurs races faisait une différence (Fig. 3a, comparer L, DLY et LO). Cette question était importante car elle indique s'il faut utiliser un panel de référence multi-races ou spécifique à une race pour obtenir une précision optimale. Nous avons de nouveau considéré 100 animaux Landrace comme ensemble cible en raison de sa taille d'échantillon relativement plus grande. Nous avons constaté que la précision d'imputation mesurée par les trois mesures était remarquablement similaire (Fig. 3b – d) lorsque la taille du panel de référence était égale. Le panel de référence dérivé de la même race que l'ensemble cible avait un très léger avantage (Fig. 3b – d). Cependant, les panels multi-races sont utiles car la référence de la même race seule (mais avec une taille d'échantillon plus petite) n'a pas été en mesure d'atteindre la même précision (Fig. 3, comparer L-250 avec d'autres). Étant donné que la grande majorité des porcs Landrace provenaient d'une seule population, la précision de l'imputation peut ne pas refléter un scénario réaliste lorsque de nouveaux ensembles cibles sont dérivés d'autres populations. Nous avons évalué la précision de l'imputation en utilisant 550 animaux comme ensemble de référence mais 41 porcs Landrace de la SRA comme ensemble cible, représentant ainsi une situation où les ensembles cibles sont éloignés de la référence. Les précisions d'imputation étaient plus faibles et le panel multi-races semblait détenir un petit avantage (Fig. 1 supplémentaire). L'extension du panel de référence à 2218 animaux a considérablement augmenté la précision (Fig. 2 supplémentaire). Les précisions inférieures peuvent être dues à une combinaison du petit nombre d'animaux cibles ainsi qu'à une distance génétique supplémentaire par rapport au panel de référence. Pris ensemble, bien que la comparaison entre les panels multi-races et spécifiques à une race de même taille dépende de situations spécifiques, un panel de référence multi-race est souhaité par opposition à un panel de référence spécifique à une race dans la plupart des cas car il maximise la taille du panel de référence .

a Conception expérimentale pour étudier l'effet de la composition raciale du panel de référence d'haplotypes sur la précision de l'imputation. Trois panels de référence ont été testés, dont 'L' : 550 animaux Landrace ; « DLY » : 550 porcs de races Duroc, Landrace et Yorkshire ; « LO » : 550 porcs de Landraces et autres races non Duroc ou Yorkshire ; 'L-250' : 250 animaux Landrace uniquement. Cent Landraces ont été utilisées comme ensemble cible. Taux de concordance (b), taux de concordance sans référence (c) et r2 (d) des génotypes imputés par rapport aux génotypes observés en utilisant différentes compositions de races du panel de référence d'haplotypes.

Nous avons comparé notre ressource Swine IMputation (SWIM) en utilisant le panel de référence multi-races avec un serveur d'imputation pour les porcs (PHARP) qui utilisait 1006 animaux publiquement disponibles dans le SRA15. Nous avons évalué la précision de l'imputation parmi les variantes présentes dans les deux panels de référence. PHARP contenait relativement peu de races commerciales majeures, dont 115 Yorkshires, 85 Durocs et 48 Landraces. Nous avons considéré les ensembles cibles de Landrace, Duroc et Yorkshire, dans lesquels la grande majorité des GWAS sont menées (Fig. 4a). Lors de l'évaluation de la précision de l'imputation, nous avons retenu 100 animaux comme ensemble cible et utilisé le reste (n = 2159) comme panel de référence d'haplotype. Alors que le taux de concordance global était uniformément élevé (> 94, 24%), l'imputation à l'aide du panel SWIM développé dans la présente étude était systématiquement supérieure à celle du PHARP au sein de chaque race (Fig. 4b). L'amélioration était beaucoup plus prononcée si l'on considère le taux de concordance sans référence et r2, deux mesures qui reflètent plus fidèlement la précision, en particulier à basse fréquence (Fig. 4c, d). La différence entre SWIM et PHARP pourrait simplement être une différence de taille d'échantillon, en particulier pour les races évaluées. Le panel final d'haplotypes de référence composé de tous les 2259 animaux devrait atteindre un taux de concordance supérieur à 95,84 %, un taux de concordance sans référence de 88,26 % et un r2 de 0,85.

a Composition des panels de référence d'haplotypes, y compris différents scénarios de SWIM et PHARP, et ensemble d'objectifs. SWIM-100Y, SWIM-100D et SWIM-100L tiennent respectivement 100 Yorkshires, 100 Durocs et 100 Landraces comme objectif. Pour le panel de référence PHARP, les mêmes 100 Yorkshires, 100 Durocs et 100 Landraces sont utilisés pour évaluer la précision de l'imputation. b Taux de concordance des génotypes imputés par rapport aux génotypes observés à l'aide de différents panels de référence d'haplotypes. Le taux de concordance moyen pour toutes les variantes est également indiqué sur le graphique pour chaque panel de référence. c Taux de concordance sans référence des génotypes imputés par rapport aux génotypes observés à l'aide de différents panels de référence d'haplotypes. Le taux moyen de concordance sans référence pour toutes les variantes est également indiqué sur le graphique pour chaque panel de référence. d r2 des génotypes imputés par rapport aux génotypes observés à l'aide de différents panels de référence d'haplotypes. Le r2 moyen pour toutes les variantes est également indiqué sur le graphique pour chaque panel de référence.

Nous avons également évalué les performances de différentes puces SNP de départ, notamment GeneSeek GGP 50K, Affymetrix Wens 55K et Affymetrix Axiom PigHD 660K. Ces puces ont été choisies car les Wens 55K et GGP 50K ont un nombre similaire de SNP mais partagent moins de SNP, et l'Axiom PigHD représente une densité plus élevée. Les précisions d'imputation ont été évaluées dans 100 Durocs et en utilisant 2159 animaux comme référence (Fig. 3a supplémentaire). Après suppression des SNP dont les sondes ne correspondaient pas uniquement au génome de référence ou étaient monomorphes, 39 491, 48 337 et 561 111 SNP chevauchaient le panel de référence d'haplotype pour le GeneSeek GGP, Wens et Axiom PigHD, respectivement (Fig. 3b supplémentaire). Comme prévu, une densité plus élevée de SNP a conduit à une plus grande précision d'imputation (Fig. 3c – e supplémentaire) dans les trois mesures, la puce Affymetrix PigHD 660K SNP atteignant une précision remarquablement élevée à un taux de concordance global de 99,50 % (Fig. 3c supplémentaire), 98,63 % de taux de concordance sans référence (Fig. 3d supplémentaire) et 0,98 r2 (Fig. 3e supplémentaire).

Pour démontrer l'utilité de l'imputation du génotype au niveau de la séquence dans la cartographie génétique, nous avons effectué des études d'association à l'échelle du génome (GWAS) pour deux traits de croissance importants chez les porcs, en utilisant à la fois des puces SNP et des génotypes imputés. Les deux traits, l'épaisseur du gras dorsal et la longueur du corps, ont été choisis parce que les gènes et les mutations causales putatifs ont déjà été bien caractérisés. Notre objectif était de voir si le GWAS basé sur l'imputation était capable de trouver des gènes et des variants fonctionnels précédemment validés.

L'épaisseur de lard dorsal (BF) est l'un des traits économiques les plus importants chez les porcs et a été intensivement interrogée pour sa base génétique. Les héritabilités génomiques estimées à l'aide de SNP de matrice ou de SNP imputés étaient similaires et indiquaient un trait modérément héréditaire (Fig. 5a). Les allèles de plusieurs gènes, dont IGF219,20, MC4R21 et LEPR22, ont été systématiquement associés à la variation de BF chez les porcs. En particulier, une mutation faux-sens du gène MC4R (chr1:160773437:G>A) a été suggérée comme mutation causale21 et largement répliquée dans plusieurs contextes génétiques23. De plus, les mutations de MC4R sont fortement associées à l'obésité précoce chez l'homme24, et son rôle dans la régulation de l'homéostasie énergétique est bien établi25. Il est important de noter que la mutation causale putative dans MC4R a été incluse dans l'une des puces de génotypage SNP disponibles dans le commerce, la puce Geneseek GGP Porcine 50K SNP (Neogen, Lincoln, NE). Cependant, le même SNP n'est pas présent dans la puce Illumina PorcineSNP60 plus largement utilisée. Pour voir si l'imputation du génotype a pu imputer correctement les génotypes de ce SNP, nous avons exclu le SNP MC4R et imputé les génotypes du génome entier d'une population de 3769 porcs Duroc génotypés à l'aide des puces GGP Porcine 50K SNP. Remarquablement, le taux de concordance et le r2 entre les génotypes imputés et MC4R SNP étaient de 99,71 % et 0,9916, respectivement. Nous avons effectué GWAS en utilisant des génotypes de tableau et imputés ; les deux ont montré un pic majeur sur le chromosome 1 (Fig. 5a, données supplémentaires 3 et 4) et une nette déviation de la distribution de la valeur P par rapport au zéro (Fig. 4a supplémentaire). En utilisant les génotypes imputés, le hit le plus élevé des SNP imputés (chr1: 161511936: T> C, P = 2, 98 × 10−13) expliquait 2, 85% de la variance phénotypique totale (Fig. 5a). Sous ce pic dans une région de 4 Mb (158,5–162,5 Mb), il y avait 7138 variantes dans 22 gènes. Le déséquilibre de liaison dans cette région était important, avec 1050 variantes en LD fort (r2> 0, 8) avec le top hit, y compris le SNP MC4R (Fig. 5b). Le hit le plus élevé était un SNP intronique dans le gène CCBE1 (Fig. 5b). Cependant, la LD étendue dans cette région rend difficile l'identification d'une mutation causale par les seules données génétiques. Des informations fonctionnelles supplémentaires et des données génétiques qui cassent le LD sont nécessaires pour mieux cartographier les gènes et les mutations responsables. Néanmoins, la capacité à identifier le SNP causal putatif MC4R comme l'une des principales variantes associées dans une longue étendue de région à LD élevée a clairement démontré l'amélioration de la résolution à l'aide de génotypes imputés. Dans notre analyse, le SNP MC4R a été initialement supprimé et serait autrement invisible sans l'imputation, comme ce serait le cas si les puces Illumina PorcineSNP60 étaient utilisées.

une parcelle Manhattan d'études d'association à l'échelle du génome (GWAS) pour l'épaisseur du gras dorsal. Les points gris (foncés et clairs) sur le fond proviennent de GWAS utilisant des génotypes imputés, tandis que les points bleus (clairs et foncés) proviennent de GWAS utilisant des puces SNP. Les héritabilités génomiques calculées à l'aide de tableaux et de génotypes imputés sont indiquées. Les SNP les plus significatifs de GWAS utilisant des génotypes imputés et des tableaux sont indiqués par des cercles et des flèches. b Association dans la région 158,5–162,5 Mb du chromosome 1, où se trouvent les meilleurs résultats dans GWAS. Les points indiquent -log10 (valeur P) le long du chromosome en utilisant les génotypes imputés et les SNP où les tableaux ont également des génotypes marqués par des croix. Les principaux SNP de GWAS utilisant des génotypes imputés et des tableaux sont marqués par des cercles et des flèches. r2 entre les SNP et le SNP supérieur (chr1:161511936:T > C) est indiqué par un dégradé de couleur bleue. Les emplacements des gènes sont indiqués dans la case sous le tracé, où les cases bleues et les noms de gènes avec une pointe de flèche gauche (<) indiquent les gènes transcrits sur le brin inverse, et les cases rouges et les noms de gènes avec une pointe de flèche droite (>) indiquent les gènes transcrits à partir de le brin avant. Les gènes qui ne sont pas marqués n'ont pas de symboles de gène. Les emplacements des gènes sont basés sur l'annotation Ensembl Release 98.

Nous avons ensuite considéré la longueur du corps. Nous avons imputé les génotypes d'une puce SNP Affymetrix 55K (Wens55K) à une séquence génomique complète à l'aide de notre plate-forme d'imputation et effectué GWAS dans une population de 1694 verrats du Yorkshire (Fig. 6a). Le trait a une héritabilité modérément élevée, telle qu'estimée à l'aide des génotypes matriciels (h2 ~ 0, 32) et imputés (h2 ~ 0, 34) (Fig. 6a). En utilisant GWAS (Fig. S4b supplémentaire), nous avons trouvé un pic hautement significatif sur le chromosome 17 (Fig. 6a, Données supplémentaires 5 et 6) où la variante principale était un SNP intergénique en amont du gène BMP2 (chr17: 15643342: C> T , P = 3,45 × 10−39). Remarquablement, cette variante expliquait 13, 65% de la variance phénotypique totale et les animaux homozygotes C / C mesuraient en moyenne 4, 01 cm de plus que les homozygotes T / T (Fig. 6b, c). Il a été démontré à plusieurs reprises que la BMP2 est associée à des traits de croissance chez les porcs. Une étude récente a impliqué un variant régulateur en amont du gène BMP2 et validé son impact fonctionnel à l'aide de gènes rapporteurs26. Cette variante réglementaire était le troisième SNP le plus important sous ce pic dans notre analyse. Il reste à déterminer si l'un ou les deux de ces variants potentiellement régulateurs sont les mutations responsables. Compte tenu de la forte association, du MAF élevé de ces SNP et de la LD moins étendue dans cette région, il est peu probable que ces variants régulateurs aient marqué des variantes codant pour des protéines et des variantes moins courantes du gène BMP2. En plus du soutien génétique de cette population du Yorkshire, l'allèle C augmentant la longueur du corps était beaucoup plus répandu chez Landrace que chez les autres races. Une caractéristique de la race Landrace est sa longue taille corporelle; ainsi, la variation régulatrice du gène BMP2 peut être un contributeur majeur à la différenciation phénotypique entre les races porcines. En revanche, bien que la puce SNP ait pu identifier largement cette région, le SNP le plus significatif (chr17:15827832:T>G, P = 1,58 × 10−25) dans un GWAS à base de puce SNP était à environ 184 kb du plomb SNP et a expliqué une variance sensiblement plus faible (8,22 % contre 13,65 %).

un diagramme de Manhattan d'études d'association à l'échelle du génome (GWAS) pour la longueur du corps. Les points gris (foncés et clairs) sur le fond proviennent de GWAS utilisant des génotypes imputés, tandis que les points bleus (clairs et foncés) proviennent de GWAS utilisant des puces SNP. Les héritabilités génomiques calculées à l'aide de tableaux et de génotypes imputés sont indiquées. b Association dans la région 15,3–16,3 Mb du chromosome 17, où se trouvent les meilleurs résultats dans GWAS. Les points indiquent -log10 (valeur P) le long du chromosome en utilisant les génotypes imputés et les SNP où les tableaux ont également des génotypes marqués par des croix. Les principaux SNP de GWAS utilisant des génotypes imputés et des tableaux sont marqués par des cercles et des flèches. r2 entre les SNP et le SNP supérieur (chr17:15643342:C>T) sont indiqués par un dégradé de couleur bleue. Les emplacements des gènes sont indiqués dans la case sous le tracé et selon l'annotation Ensembl Release 98. Les trois gènes sont colorés en rouge et transcrits à partir du brin avant. Le seul gène avec un symbole dans cette région est BMP2. c Diagrammes de dispersion et en boîte de la longueur du corps (en cm) pour les trois génotypes du SNP chr17:15643342:C>T. Les limites inférieure et supérieure de la boîte sont, respectivement, les quantiles 25 % et 75 % des données, la ligne médiane et les moustaches minimum et maximum. d Fréquences alléliques du SNP chr17:15643342:C>T dans différentes races.

Pour permettre à la vaste communauté de recherche d'utiliser efficacement les ressources développées dans cette étude, nous avons développé un serveur Web public Swine IMputation (SWIM) (https://www.swimgeno.org et https://swim.scau.pigselection.com/ swim), sur lequel les utilisateurs peuvent télécharger des génotypes de puces SNP et récupérer des génotypes imputés. L'interface utilisateur est extrêmement simple, ce qui oblige uniquement les utilisateurs à télécharger les génotypes au format ped/map gzippé et à laisser leurs adresses e-mail. Contrairement à d'autres serveurs, tels que PHARP, la correspondance et le retournement d'allèles sont effectués côté serveur, ce qui simplifie davantage le processus côté utilisateur. Le statut d'imputation peut être surveillé et les résultats peuvent être téléchargés à partir d'un lien dynamique sans avoir à créer un compte. Le serveur est configuré pour accueillir plusieurs utilisateurs en même temps tout en limitant plusieurs tâches du même utilisateur. Nos tests ont indiqué qu'un travail typique avec 2000 individus et des génotypes de puces SNP 50K peut être complété en environ 12 h pour tous les chromosomes.

Nous présentons ici le développement du plus grand panel d'haplotypes de référence chez les porcs et un serveur Web d'accompagnement permettant au public d'utiliser cette ressource pour l'imputation du génotype. Le niveau élevé de diversité et le grand nombre d'animaux dans le panel nous ont permis d'obtenir une précision d'imputation très élevée avec un taux de concordance, un taux de concordance sans référence et un r2 supérieur à 95,84 %, 88,26 % et 0,85, respectivement, à partir de Matrices SNP 50K (Fig. 2). Les précisions étaient comparables à celles obtenues avec des puces SNP de densité moyenne au sein de populations généalogiques27. Compte tenu de la grande précision et de la facilité d'accès sans exigence de pedigree, nous nous attendons à ce que cette ressource publique démocratise considérablement l'imputation au niveau de la séquence chez les porcs et accélère les découvertes génétiques. Le serveur SWIM ne prend actuellement en charge que l'imputation basée sur la puce SNP. L'imputation basée sur le séquençage à faible couverture est beaucoup plus difficile à gérer sur un serveur Web en raison de ses besoins en ressources de calcul massives. Néanmoins, les utilisateurs peuvent mettre en œuvre leur imputation basée sur le séquençage à faible couverture en utilisant le panel de référence d'haplotype que nous partageons.

Les réseaux de génotypage à haut débit ont grandement simplifié le génotypage et de nombreux nouveaux QTL ont été cartographiés par cartographie d'association, généralement au sein d'une race et avec des centaines, voire des milliers d'individus6. Cependant, alors que la résolution s'est améliorée avec les puces SNP, les gènes responsables et les mutations restent extrêmement insaisissables, en partie parce que les puces SNP donnent la priorité à la faisabilité du dosage, à l'espacement homogène et aux SNP communs5.

Nos évaluations ont indiqué que Shapeit4/Impute5 surpassait les autres combinaisons logicielles, une densité plus élevée de puces SNP entraînait une plus grande précision d'imputation et des panels de référence d'haplotypes multi-races maximisant la taille de l'échantillon étaient préférés. Il est important de noter que les animaux qui étaient génétiquement plus proches du panel de référence d'haplotype pouvaient être imputés avec une plus grande précision. Cela renforce encore l'importance du partage de données pour augmenter la représentation dans le panel de référence d'haplotype.

Comme nous l'avons montré avec les exemples ci-dessus, l'imputation devrait grandement améliorer la résolution de la cartographie génétique. Compte tenu du grand nombre d'études d'association à l'échelle du génome existantes chez les porcs6, nous nous attendons à ce que cette ressource soit très utilisée et percutante. En effet, plus de 130 000 génomes ont été imputés au cours de la première année depuis que le serveur est devenu public, y compris une étude récente qui a révélé que les génomes imputés par SWIM détectaient des SNP plus importants par rapport aux autres plateformes28. Toutes les études existantes utilisant des matrices SNP peuvent être améliorées par une simple imputation suivie de GWAS sans données supplémentaires. La méta-analyse devient également possible car un ensemble commun de SNP peut être obtenu. Néanmoins, la résolution de la cartographie génétique dépend non seulement de la densité de SNP, mais également de la conception expérimentale et de la structure génétique de la population cartographiée. L'imputation au niveau de la séquence n'identifie pas nécessairement les mutations causales en une seule étape16. La disponibilité de cette ressource permettra des conceptions appropriées d'études de cartographie pour atteindre la résolution la plus élevée possible dans des circonstances spécifiques et potentiellement la résolution des nucléotides.

Nous avons consolidé les données WGS provenant de plusieurs sources. Un total de 1530 animaux sont signalés pour la première fois dans cette étude à l'aide des plates-formes Illumina (n = 863) et BGI (n = 667) avec des lectures appariées de 150 pb. Parmi eux, 610 Landrace, 413 Duroc, 391 Yorkshire, 18 Taiwanhei et 17 Lichahei provenaient de Wen's Food Group Co., Ltd. (Yunfu, Guangdong, Chine), 21 Dahuabai, 21 Lantanghei, 20 Guangdong Xiaoerhua et 19 Yuedonghei de Guangdong Gene Bank of Livestock and Poultry (Guangzhou, Guangdong, Chine). De plus, les séquences de 729 animaux ont été téléchargées à partir de l'archive de lecture de séquences (SRA). Une ventilation complète, y compris les numéros d'accession, la taille des échantillons et la couverture de séquençage moyenne, peut être trouvée dans les données supplémentaires 1 et 2.

Nous avons aligné les lectures de séquences sur le génome de référence du porc (Sscrofa11.1, un porc Duroc)29 à l'aide de BWA-MEM-0.7.1730 et avons appelé des variantes (au format GVCF) à l'aide de GATK-4.1.8.1 HaplotypeCaller31 après plusieurs étapes de traitement post-alignement, notamment suppression des doublons à l'aide de PicardTools-2.23.331 et recalibrage de la qualité de base à l'aide de GATK. Un VCF de population a été généré en combinant les GVCF de tous les échantillons. Les variantes présentant une hétérozygotie excessive ("ExcessHet > 54,69") ont été supprimées. Le recalibrage du score de qualité variable (VQSR) sur les SNP a été effectué avec des ensembles de SNP de vérité compilés à partir de matrices SNP commerciales, y compris des puces SNP 50K, 60K et 80K (avant = 15,0) sur la plate-forme Illumina et le 660K (avant = 12,0), SowPro90 ( prior = 15.0) Puces SNP de la plateforme Affymetrix. Les SNP ont été filtrés avec un niveau de filtre de sensibilité à la vérité à 99,0. Sans un ensemble de vérité d'indels, nous leur avons appliqué un filtrage dur en excluant les indels avec QD < 2,0, QUAL < 50,0, FS > 100,0, ReadPosRankSum < −20,0, comme recommandé par les meilleures pratiques de GATK. De plus, nous avons filtré les animaux avec un taux manquant > 0,20, une hétérozygotie > 0,20 et conservé des sites bi-alléliques avec un taux manquant < 0,2 et une profondeur de séquençage moyenne entre 5 et 500. Le filtrage a été effectué à l'aide d'une combinaison de VCFtools 0.1.1332 et Commandes BCFtools 1.1333.

Le déséquilibre de liaison a été calculé à l'aide de PopLDdecay34 sur des individus d'une même race après suppression des parents proches (GRM > 0,5) et des variantes à basse fréquence (MAF < 0,05). Pour comprendre la structure génétique de la population, nous avons conservé les variantes avec MAF> 0, 05 et taux manquant <0, 1 et les SNP élagués avec LD (r2 <0, 3, -indep-pairwise 50 10 0,3) en utilisant PLINK 1,935. L'analyse en composantes principales (ACP) a été effectuée sur la liste filtrée de 1 223 882 variantes en utilisant GCTA 1.93.236 pour tous les individus. Les ancêtres ont été estimés à l'aide d'ADMIXTURE 1.337 sur 185 individus sélectionnés au hasard en fonction de la représentation de la race dans l'ensemble de données ou d'au moins quatre individus par race. Le sous-échantillonnage était nécessaire pour bien visualiser la structure de la population.

Nous avons en outre filtré les variants avant de mettre en phase les haplotypes dans la population de référence. Les variantes avec un taux manquant > 0,1 et un MAF < 0,005 ont été supprimées. De plus, les variantes avec une valeur P du test d'équilibre Hardy – Weinberg < 10−10 mises en œuvre séparément dans PLINK chez les trois porcs Duroc, Landrace et Yorkshire ont été supprimées. Seuls les variants autosomiques ont été retenus pour l'imputation.

Nous avons extrait 100 porcs Landrace avec la profondeur de séquençage la plus élevée (17,42 X profondeur de séquençage moyenne, allant de 14,98 à 63,11 X) et désigné ces individus comme population cible pour évaluer la précision de l'imputation. Pour tester l'effet de la composition raciale de la population de référence, nous avons construit quatre panels d'haplotypes de référence en utilisant différents ensembles d'individus, y compris All (n = 2159) : tous les individus sauf les 100 Landraces ; L (n = 550) : Porcs Landrace uniquement ; DLY (n = 550) : 250 Landraces + 150 Durocs + 150 Yorkshires ; et LO (n = 550) : 250 Landraces + 300 porcs sélectionnés au hasard autres que Durocs et Yorkshires. La mise en phase a été effectuée indépendamment dans ces ensembles de référence. De plus, nous avons également testé l'imputation à l'aide du serveur Web PHARP (http://alphaindex.zju.edu.cn/PHARP/index.php), qui contient des haplotypes de référence construits à partir de 1006 individus de la SRA.

Nous avons testé trois combinaisons de logiciels pour le phasage et l'imputation, y compris SHAPEIT 4.238 + IMPUTE5 1.1.539, Beagle 5.240 + Beagle 5.2 et Eagle 2.441 + Minimac 442. Tous les outils logiciels ont été exécutés avec des options par défaut et une carte de liaison non informative (1 cM par 1 Mo), mais la taille effective de la population a été fixée à 100. Les génotypes imputés ont été appelés par ceux dont la probabilité de génotype postérieur était la plus élevée. Cependant, les utilisateurs du serveur Web d'imputation reçoivent également des probabilités de génotype.

Nous avons pris en compte trois mesures couramment utilisées de l'exactitude de l'imputation, du taux de concordance, du taux de concordance sans référence43 et de r2. Le taux de concordance est défini comme la proportion d'individus dont les génotypes imputés concordent avec les génotypes observés. Le taux de concordance sans référence est similaire au taux de concordance mais est limité aux seuls individus qui ne sont pas homozygotes pour l'allèle de référence. r2 est le carré du coefficient de corrélation de Pearson entre les génotypes observés et imputés. Nous avons mesuré les taux de concordance et r2 par SNP et les avons moyennés sur les SNP dans les bacs MAF ou sur l'ensemble du génome.

Pour démontrer l'utilité de l'imputation dans la cartographie génétique, nous avons collecté des phénotypes et des génotypes pour trois populations de porcs, qui étaient gérées par trois principales fermes d'élevage de Wen's Food Group Co., Ltd. (Yunfu, Guangdong, Chine), toutes sous gestion standard. les pratiques. Pour l'épaisseur du lard dorsal, les phénotypes ont été collectés sur 3769 porcs Duroc de 2013 à 2018, et le génotypage SNP a été réalisé à l'aide de la puce Geneseek GGP Porcine 50K SNP (Neogen, Lincoln, NE, USA). L'épaisseur du lard dorsal a été mesurée entre les 10e et 11e côtes à l'aide d'un échographe Aloka 500 V SSD B (Corometrics Medical Systems, USA) lorsque le poids vif des porcs atteignait environ 100 kg (100 ± 5 kg). Pour la longueur corporelle, les phénotypes d'un total de 1694 verrats du Yorkshire ont été collectés de 2012 à 2018, et le génotypage SNP a été effectué à l'aide de la puce SNP Affymetrix PorcineWens55K (Affymetrix, Santa Clara, CA, États-Unis). La longueur du corps a été mesurée de la base de l'oreille à la base de la queue chez des porcs pesant environ 100 kg (100 ± 5 kg). Tous les échantillons ont été prélevés conformément aux directives pour le soin et l'utilisation des animaux de laboratoire approuvées par le ministère de l'Agriculture et des Affaires rurales de la République populaire de Chine. Le comité d'éthique de l'Université agricole de Chine du Sud a spécifiquement approuvé l'utilisation des animaux dans cette étude.

Nous avons utilisé GCTA 1.92.1 pour effectuer une analyse d'association basée sur un modèle linéaire mixte (MLM). Le modèle statistique suivant a été utilisé : \(y=\mu +{xb}+g+e\) (Equation 1), où y est le vecteur des valeurs phénotypiques pour tous les animaux, \(\mu\) est l'ordonnée à l'origine , \(x\) est la matrice de conception codant les génotypes et les autres incidences des effets fixes, \(b\) est le vecteur des effets fixes incluant l'effet SNP et des covariables supplémentaires telles que le sexe, l'enclos, les effets année-saison selon les traits , et \(g\) est le vecteur des effets aléatoires polygéniques avec covariance dictée par la matrice de relation génomique, et \(e\) est le vecteur des résidus aléatoires. Nous avons utilisé des SNP sur la puce GeneSeek GGP 50 K SNP (pour l'épaisseur de la graisse dorsale) et la puce Affymetrix Wens 55K SNP (pour la longueur du corps) pour calculer la matrice de relation génomique. Nous avons utilisé un seuil de signification à l'échelle du génome de P = 5 × 10−8 pour déclarer la signification. La variance expliquée par un seul SNP significatif a été estimée en ajustant un modèle linéaire mixte avec la matrice de relation génomique déterminée par un seul SNP.

Toutes les analyses statistiques sont effectuées à l'aide de progiciels tels que décrits ou dans R 4.2.2. Nous fournissons tous les scripts, y compris ceux pour générer des chiffres dans un GitHub (https://github.com/qgg-lab/swim-public) ainsi qu'un dépôt Zenodo44 (https://doi.org/10.5281/zenodo.7900470 ). La taille de l'échantillon pour l'ensemble du panel de référence d'haplotypes SWIM est de 2259, avec des sous-ensembles sélectionnés pour les différentes conceptions afin de répondre à des questions spécifiques. La taille des échantillons pour l'épaisseur de gras dorsal et la longueur du corps GWAS était de 3769 et 1694, respectivement.

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports sur le portefeuille Nature lié à cet article.

Les données de séquence brutes de 512 animaux ont été déposées auprès de la SRA (PRJNA842867). D'autres animaux séquencés étaient des propriétés exclusives de Wen's Food Group Co., Ltd. et Guangdong Gene Bank of Livestock and Poultry. Ils peuvent être demandés en contactant respectivement [email protected] et [email protected]. Les données de séquence brutes pour un sous-ensemble d'animaux (n = 729) utilisés dans cette étude ont été téléchargées à partir de SRA (données supplémentaires 1 et 2). L'imputation utilisant l'ensemble de données complet est fournie en tant que service Web (https://www.swimgeno.org et https://swim.scau.pigselection.com/swim) et est accessible au public. Les haplotypes phasés de tous les individus accessibles au public, y compris cette étude (n = 1241), sont disponibles sous forme de fichiers VCF sur https://quantgenet.msu.edu/swim/statistics.php. Les données sources sous-jacentes aux Figs. 1a, b, 2, 3, 4 et 6c sont fournis dans les données supplémentaires 7, 8, 9, 10, 11 et 12, respectivement.

Tous les codes informatiques, y compris toutes les analyses effectuées dans cette étude et les codes du serveur Web SWIM, sont disponibles sur https://github.com/qgg-lab/swim-public et sur un référentiel Zenodo44 (https://doi.org /10.5281/zenodo.7900470).

Lunney, JK et al. Importance du porc comme modèle biomédical humain. Sci. Trad. Méd. 13, eabd5758 (2021).

Article CAS PubMed Google Scholar

Groenen, MAM et al. Les analyses de génomes porcins donnent un aperçu de la démographie et de l'évolution porcines. Nature 491, 393–398 (2012).

Article CAS PubMed PubMed Central Google Scholar

Li, M. et al. Les analyses génomiques identifient des schémas de sélection distincts chez les porcs domestiques et les sangliers tibétains. Nat. Genet. 45, 1431-1438 (2013).

Article CAS PubMed Google Scholar

Bosse, M. et al. L'analyse génomique révèle une sélection de gènes asiatiques chez des porcs européens suite à une introgression à médiation humaine. Nat. Commun. 5, 4392 (2014).

Article CAS PubMed Google Scholar

Ramos, AM et al. Conception d'un test de génotypage de SNP à haute densité chez le porc à l'aide de SNP identifiés et caractérisés par la technologie de séquençage de nouvelle génération. PLoS ONE 4, e6524 (2009).

Article PubMed PubMed Central Google Scholar

Hu, Z.-L., Park, CA et Reecy, JM Construire une base de connaissances sur la génétique et la génomique du bétail grâce au développement intégré de Animal QTLdb et CorrDB. Nucleic Acids Res. 47, D701–D710 (2019).

Article CAS PubMed Google Scholar

Onteru, SK et al. Études d'association du génome entier de l'apport alimentaire résiduel et des traits associés chez le porc. PLoS ONE 8, e61756 (2013).

Article CAS PubMed PubMed Central Google Scholar

Sell-Kubiak, E. et al. Une étude d'association à l'échelle du génome révèle de nouveaux loci pour la taille de la portée et sa variabilité dans une population de porcs Large White. BMC Genomics 16, 1049 (2015).

Article CAS PubMed PubMed Central Google Scholar

Boddicker, NJ et al. Association à l'échelle du génome et prédiction génomique pour la réponse de l'hôte à l'infection par le virus du syndrome reproducteur et respiratoire porcin. Genet. Sél. Évol. 46, 18 (2014).

Article PubMed PubMed Central Google Scholar

Marchini, J. & Howie, B. Imputation de génotype pour les études d'association à l'échelle du génome. Nat. Révérend Genet. 11, 499–511 (2010).

Article CAS PubMed Google Scholar

Das, S. et al. Service et méthodes d'imputation de génotype de nouvelle génération. Nat. Genet.48, 1284–1287 (2016).

Article CAS PubMed PubMed Central Google Scholar

Daetwyler, HD et al. Le séquençage du génome entier de 234 taureaux facilite la cartographie des caractères monogéniques et complexes chez les bovins. Nat. Genet. 46, 858–865 (2014).

Article CAS PubMed Google Scholar

van den Berg, S. et al. Imputation à la séquence du génome entier à l'aide de plusieurs populations de porcs et son utilisation dans des études d'association à l'échelle du génome. Genet. Sél. Évol. 51, 2 (2019).

Article PubMed PubMed Central Google Scholar

Yang, W. et al. Animal-ImputeDB : une base de données complète avec plusieurs panels de référence d'animaux pour l'imputation de génotypes. Nucleic Acids Res. 48, D659–D667 (2020).

Article PubMed Google Scholar

Wang, Z. et al. PHARP : un panel de référence d'haplotypes porcins pour l'imputation des génotypes. Sci. Rep. 12, 12645 (2022).

Article CAS PubMed PubMed Central Google Scholar

Yan, G. et al. Une approche GWAS basée sur la séquence du génome entier imputé identifie les mutations causales pour les traits complexes dans une population porcine spécifique. Sci. China Life Sci. 65, 781–794 (2022).

Article CAS PubMed Google Scholar

Ros-Freixedes, R. et al. Prédiction génomique avec des données de séquence du génome entier dans des lignées porcines intensément sélectionnées. Genet. Sél. Évol. 54, 65 (2022).

Article CAS PubMed PubMed Central Google Scholar

Rowan, TN et al. Un panel de référence multi-races et des variantes rares supplémentaires maximisent la précision de l'imputation chez les bovins. Genet. Sél. Évol. 51, 77 (2019).

Article CAS PubMed PubMed Central Google Scholar

Nezer, C. et al. Un QTL imprimé ayant un effet majeur sur la masse musculaire et le dépôt de graisse correspond au locus IGF2 chez les porcs. Nat. Genet. 21, 155-156 (1999).

Article CAS PubMed Google Scholar

Van Laere, A.-S. et coll. Une mutation régulatrice d'IGF2 provoque un effet QTL majeur sur la croissance musculaire chez le porc. Nature 425, 832–836 (2003).

Article PubMed Google Scholar

Kim, KS, Larsen, N., Short, T., Plastow, G. & Rothschild, MF Une variante faux-sens du gène porcin du récepteur de la mélanocortine-4 (MC4R) est associée à des traits d'adiposité, de croissance et d'apport alimentaire. Mamm. Génome 11, 131–135 (2000).

Article CAS PubMed Google Scholar

OVilo, C. et al. Test des gènes candidats de position pour la composition corporelle sur le chromosome 6 du porc. Genet. Sél. Évol. 34, 465–479 (2002).

Article PubMed Google Scholar

Gozalo-Marcilla, M. et al. Architecture génétique et principaux gènes de l'épaisseur du lard dorsal dans les lignées porcines de diverses origines génétiques. Genet. Sél. Évol. 53, 76 (2021).

Article CAS PubMed PubMed Central Google Scholar

Farooqi, IS et al. Héritage dominant et récessif de l'obésité morbide associée à un déficit en récepteur de la mélanocortine 4. J.Clin. Investir. 106, 271-279 (2000).

Article CAS PubMed PubMed Central Google Scholar

Krashes, MJ, Lowell, BB & Garfield, AS Homéostasie énergétique régulée par les récepteurs de la mélanocortine-4. Nat. Neurosci. 19, 206-219 (2016).

Article CAS PubMed PubMed Central Google Scholar

Li, J. et al. Identification et validation d'une mutation régulatrice en amont du gène BMP2 associée à la longueur de carcasse chez le porc. Genet. Sél. Évol. 53, 94 (2021).

Article CAS PubMed PubMed Central Google Scholar

Whalen, A. & Hickey, JM AlphaImpute2 : généalogie rapide et précise et imputation basée sur la population pour des centaines de milliers d'individus dans les populations de bétail. Préimpression sur bioRxiv https://doi.org/10.1101/2020.09.16.299677 (2020).

Sun, J. et al. Étude d'association à l'échelle du génome sur les traits de reproduction à l'aide de données de séquence du génome entier basées sur l'imputation chez les porcs du Yorkshire. Gènes 14, 861 (2023).

Article CAS PubMed PubMed Central Google Scholar

Warr, A. et al. Une séquence améliorée du génome porcin de référence pour permettre la recherche en génétique et génomique porcine. Gigascience 9, giaa051 (2020).

Article PubMed PubMed Central Google Scholar

Li, H. & Durbin, R. Alignement de lecture rapide et précis avec la transformée de Burrows-Wheeler. Bioinformatique 25, 1754–1760 (2009).

Article CAS PubMed PubMed Central Google Scholar

DePristo, MA et al. Un cadre pour la découverte de variations et le génotypage à l'aide de données de séquençage d'ADN de nouvelle génération. Nat. Genet. 43, 491–498 (2011).

Article CAS PubMed PubMed Central Google Scholar

Danecek, P. et al. Le format d'appel de variante et VCFtools. Bioinformatique 27, 2156–2158 (2011).

Article CAS PubMed PubMed Central Google Scholar

Danecek, P. et al. Douze ans de SAMtools et BCFtools. Gigascience 10, giab008 (2021).

Article PubMed PubMed Central Google Scholar

Zhang, C., Dong, S.-S., Xu, J.-Y., He, W.-M. & Yang, T.-L. PopLDdecay : un outil rapide et efficace pour l'analyse de la décroissance du déséquilibre de liaison basé sur des fichiers au format d'appel de variantes. Bioinformatique 35, 1786–1788 (2019).

Article CAS PubMed Google Scholar

Chang, CC et al. PLINK de deuxième génération : relever le défi de jeux de données plus grands et plus riches. Gigascience 4, 7 (2015).

Article PubMed PubMed Central Google Scholar

Yang, J., Lee, SH, Goddard, ME & Visscher, PM GCTA : un outil pour l'analyse des traits complexes à l'échelle du génome. Suis. J. Hum. Genet. 88, 76–82 (2011).

Article CAS PubMed PubMed Central Google Scholar

Alexander, DH, Novembre, J. & Lange, K. Estimation rapide basée sur un modèle de l'ascendance chez des individus non apparentés. Génome Res. 19, 1655-1664 (2009).

Article CAS PubMed PubMed Central Google Scholar

Delaneau, O., Zagury, J.-F., Robinson, MR, Marchini, JL & Dermitzakis, ET Estimation précise, évolutive et intégrative des haplotypes. Nat. Commun. 10, 5436 (2019).

Article PubMed PubMed Central Google Scholar

Rubinacci, S., Delaneau, O. & Marchini, J. Imputation de génotype à l'aide de la transformation positionnelle de Burrows Wheeler. PLoS Genet. 16, e1009049 (2020).

Article CAS PubMed PubMed Central Google Scholar

Browning, BL, Tian, X., Zhou, Y. & Browning, SR Mise en phase rapide en deux étapes de données de séquence à grande échelle. Suis. J. Hum. Genet. 108, 1880–1890 (2021).

Article CAS PubMed PubMed Central Google Scholar

Loh, P.-R., Palamara, PF & Price, AL Mise en phase à longue portée rapide et précise dans une cohorte de la biobanque britannique. Nat. Genet. 48, 811–816 (2016).

Article CAS PubMed PubMed Central Google Scholar

Howie, B., Fuchsberger, C., Stephens, M., Marchini, J. & Abecasis, GR Imputation rapide et précise du génotype dans les études d'association à l'échelle du génome par préphasage. Nat. Genet. 44, 955–959 (2012).

Article CAS PubMed PubMed Central Google Scholar

Li, JH, Mazur, CA, Berisa, T. & Pickrell, JK Le séquençage passe-bas augmente la puissance de GWAS et diminue l'erreur de mesure des scores de risque polygénique par rapport aux tableaux de génotypage. Génome Res. 31, 529-537 (2021).

Article PubMed PubMed Central Google Scholar

qgg-lab. qgg-lab/swim-public : swim-public-v1. Zénodo. https://doi.org/10.5281/zenodo.7900470 (2023).

Télécharger les références

Ce travail est soutenu par un projet USDA-NIFA (2021-67021-34149 à WH, CG, JS et R.Sc.), un projet USDA-NIFA Hatch (MICL 02560 à WH), un projet de la Natural Science Foundation of China (31972540 à JY), un projet de la Fondation des sciences naturelles de la province du Guangdong (2018B030313011 à ZW) et un projet du programme de R&D des technologies clés de la province du Guangdong (2022B0202090002 à ZW). Le serveur Web (https://www.swimgeno.org) est pris en charge par le USDA Swine Genome Coordinator Fund (NRSP8).

Rodrigo Savegnago

Adresse actuelle : Genus IntelliGen Technologies, De Forest, Wisconsin, États-Unis

Suxu Tan

Adresse actuelle : Collège des sciences de la vie, Université de Qingdao, Qingdao, Shandong, Chine

Collège des sciences animales et Centre national de recherche en ingénierie pour l'industrie porcine d'élevage, Université agricole de Chine du Sud, Guangzhou, Guangdong, Chine

Rongrong Ding, Gengyuan Cai, Zhanwei Zhuang, Jie Wu, Ming Yang, Yibin Qiu, Donglin Ruan, Jianping Quan, Enqin Zheng, Huaqiang Yang, Zicong Li, Jie Yang et Zhenfang Wu

Département des sciences animales, Michigan State University, East Lansing, Michigan, États-Unis

Rongrong Ding, Rodrigo Savegnago, Jinding Liu, Jianping Quan, Suxu Tan, Mohammed Bedhane, Juan Steibel, Cédric Gondro et Wen Huang

Sous-centre de Yunfu du laboratoire de Guangdong pour l'agriculture moderne de Lingnan, Yufu, Guandong, Chine

Rongrong Ding, Cheng Tan et Zhenfang Wu

Académie des études interdisciplinaires avancées, Université agricole de Nanjing, Nanjing, Jiangsu, Chine

Jinding Liu

Institute for Cyber-Enabled Research, Michigan State University, East Lansing, Michigan, États-Unis

Nanye Long

Guangdong Zhongxin Breeding Technology Co., Ltd, Guangzhou, Guangdong, Chine

Cheng Tan et Genyuan Cai

Guangdong Provincial Key Laboratory of Agro-animal Genomics and Molecular Breeding, South China Agricultural University, Guangzhou, Guangdong, Chine

Zicong Li et Jie Yang

Division des sciences animales, Université du Missouri, Columbia, Missouri, États-Unis

Robert Schnabel

Department of Fisheries and Wildlife, Michigan State University, East Lansing, Michigan, États-Unis

Jean Stebel

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

WH, ZW, JY et RD : conceptualisation et conception ; RD, R.Sa., NL et WH : pipeline développé et optimisé ; RD, ST et MB : données analysées ; JL et WH : serveur Web développé ; R.Sc., CT, GC, ZZ, JW, MY, YQ, DR, JQ, EZ, HY, ZL, JS et CG : outils et données fournis ; RD et WH : ont rédigé l'article, avec la contribution de tous les auteurs.

Correspondance avec Jie Yang, Wen Huang ou Zhenfang Wu.

CT et GC sont des employés de Guangdong Zhongxin Breeding Technology Co., Ltd. Tous les autres auteurs ne déclarent aucun intérêt concurrent.

Communications Biology remercie les relecteurs anonymes pour leur contribution à la relecture par les pairs de ce travail. Rédacteur en chef principal : George Inglis. Un dossier d'examen par les pairs est disponible.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Ding, R., Savegnago, R., Liu, J. et al. Le panel de référence d'haplotypes SWine IMputation (SWIM) permet la cartographie génétique de la résolution des nucléotides chez les porcs. Commun Biol 6, 577 (2023). https://doi.org/10.1038/s42003-023-04933-9

Télécharger la citation

Reçu : 24 novembre 2022

Accepté : 12 mai 2023

Publié: 30 mai 2023

DOI : https://doi.org/10.1038/s42003-023-04933-9

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.