CFD dans les prévisions statistiques du marché des machines industrielles, segmentation géographique jusqu'en 2030
Apr 29, 2023Quelle entreprise a le plus réduit le carbone
Jun 14, 2023Les entreprises devraient penser « circulaire » pour réduire les déchets, les coûts et les émissions
Mar 16, 2023Les recettes d'Annabel Langbein : Trois quiches
Dec 31, 2023Sous
Dec 26, 2023Ensemble
Rapports scientifiques volume 12, Numéro d'article : 5556 (2022) Citer cet article
2518 accès
1 Citations
7 Altmétrique
Détails des métriques
Le sorgho (Sorghum bicolor L. (Moench)) est la cinquième céréale la plus importante au monde sur le plan économique et constitue un aliment de base, en particulier dans les régions tropicales semi-arides d'Afrique et d'Asie. Les gains génétiques de cette culture peuvent bénéficier de parents sauvages tels que Sorghum halepense. Les séquences génomiques, y compris celles de cette espèce sauvage, peuvent stimuler l'étude de la variation à l'échelle du génome et intraspécifique pour disséquer la base génétique et améliorer les traits importants du sorgho. Le reséquençage du génome entier réalisé dans ce travail sur un panel de 172 populations de lignées avancées S. bicolor et S. bicolor × S. halepense (SbxSh) a généré un total de 567 046 841 SNP, 91 825 474 indels, 1 532 171 SV et 4 973 961 CNV. De toute évidence, SbxSh a accumulé plus de variantes et de mutations avec des effets puissants sur la différenciation génétique. Un total de 5 548 gènes privés de SbxSh cartographiés sur les termes d'enrichissement GO du processus biologique ; 34 de ces gènes ont été cartographiés pour le développement du système racinaire (GO : 0022622). Deux des gènes spécifiques aux racines, à savoir ROOT PRIMORDIUM DEFECTIVE 1 (RPD1; GeneID: 8054879) et RETARED ROOT GROWTH (RRG, GeneID: 8072111), ont exercé un effet direct sur la croissance et le développement des racines. Il s'agit du premier rapport sur le reséquençage du génome entier d'un panel de sorgho qui comprend le génome de S. halepense. L'exploitation des variantes et des gènes privés de cette espèce sauvage peut fournir des informations capables de stimuler l'amélioration génétique du sorgho, en particulier le caractère de pérennité conforme aux pratiques agroécologiques, à l'agriculture durable et à la résilience au changement climatique.
Le sorgho (Sorghum bicolor L. (Moench), 2n = 2x = 20) est la cinquième céréale la plus importante au monde sur le plan économique1 ; c'est un aliment de base en particulier dans les tropiques semi-arides d'Afrique et d'Asie, représentant 6,5 millions de kilomètres carrés dans plus de 55 pays, et abritant plus de 2 milliards de personnes dont 600 millions sont considérées comme pauvres2. Le sorgho devient maintenant populaire dans l'industrie alimentaire mondiale, en raison de l'augmentation de la demande de céréales de spécialité sans gluten riches en composés bénéfiques pour la santé et stabilisateurs d'oxydation alimentaire3,4. En effet, les grains de sorgho, en particulier les variétés rouges, présentent les valeurs les plus élevées de capacité antioxydante totale (400-500 μmol de Trolox équiv/g) parmi plusieurs cultures (par exemple, blé, riz, avoine, orge, maïs, pomme de terre)3,5 et sources alimentaires végétales d'antioxydants naturels6,7. En plus de l'alimentation humaine, le sorgho est également utilisé à plusieurs autres fins, notamment l'énergie et la nutrition animale8 ; il est également résistant aux stress biotiques et abiotiques, adapté à divers environnements, nécessite peu d'intrants agricoles, ce qui en fait une culture importante pour améliorer la sécurité alimentaire et des produits de base dans le monde9,10,11.
La séquence du génome de S. bicolor a été publiée pour la première fois en 200912 et la version actuelle 3.1.1 a une taille de 732,2 mégabases (Mb) et rapporte plus de 34 000 gènes annotés dont plusieurs peuvent être utilisés dans les introgressions génétiques et l'amélioration assistée par la génomique des rendements et de la qualité des produits de cette culture13. Le génome de référence du sorgho devrait faciliter les expériences de reséquençage et les investigations génétiques sur le sorgho cultivé et son patrimoine génétique sauvage. Dans ce travail, nous avons reséquencé le génome entier et présenté les informations comparatives des lignées consanguines recombinantes S. bicolor et S. bicolor × S. halepense ; à notre connaissance, aucune étude de reséquençage n'a été rapportée qui rendait compte de ces populations à l'époque.
Le sorgho, comme toute autre culture, peut être génétiquement amélioré en introgressant des facteurs génétiques provenant de parents sauvages14. Les sélectionneurs de sorgho ont montré de l'intérêt pour les croisements interspécifiques entre Sorghum bicolor et Johnsongrass [Sorghum halepense (L.) Pers.] qui est une espèce sauvage allotétraploïde naturelle (2n = 4x = 40) qui serait née de l'hybridation spontanée entre S. bicolor et S. propinquum (Kunth) Hitchc., suivi d'un doublement chromosomique15. Les preuves disponibles montrent que l'herbe de Johnson peut conférer une forte pérennité et hiverner dans le contexte génétique de S. bicolor14,16,17,18,19. La ploïdie de Sorghum halepense implique que son hybridation avec S. bicolor nécessite que ce dernier soit soit tétraploïde induit soit diploïde mâle stérile génétiquement cytoplasmique ; dans les deux cas, une descendance principalement tétraploïde est générée19,20, mais des cas de descendants diploïdes ont été observés21,22. L'importance de l'introgression de la pérénité dans les cultures s'explique par la recherche de fonctions agroécologiques d'un cultivar pérenne comme couvert pérenne. Les cultures de couverture sont respectueuses de l'environnement, aident à éviter les sols nus, améliorent la santé des sols, réduisent les intrants agricoles, favorisent la biodiversité, ce qui peut rendre la production agricole plus résistante aux adversités du changement climatique23,24. Les sols nus représentent l'un des principaux échecs de l'intensification agricole conventionnelle car ils provoquent la perte de nutriments du sol et des plantes principalement par l'érosion et la lixiviation. Les cultures pérennes créent une couverture permanente du sol, recyclent et arrêtent la perte de nutriments provenant des engrais, permettant une réduction drastique des taux d'application d'engrais et améliorant la santé du sol. De plus, en recouvrant en permanence le sol, les cultures pérennes limitent la perte d'humidité du sol par évaporation, garantissent un niveau élevé de matière organique du sol et une biologie active du sol, ce qui améliore les propriétés chimiques et physiques du sol, et contribue à neutraliser les émissions de gaz à effet de serre notamment par séquestration du carbone et, par conséquent, atténue le changement climatique25.
Comme dans d'autres études de ce type26, le reséquençage des populations de sorgho décrit dans ce travail permet de capturer la variation naturelle à travers le pool génétique grâce à l'identification de millions de variants parmi les accessions relatives de S. halepense cultivées et sauvages. Ces polymorphismes de haute confiance seront utilisés dans des études de génétique directe et de déséquilibre de liaison pour démêler la base génétique de caractéristiques végétales complexes d'importance agronomique, et le développement de cultivars résistants au changement climatique.
Les sélectionneurs de sorgho travaillant sur l'introgression de la pérennité dans un fond autrement annuel de S. bicolor sélectionnent l'aspect général de la plante bicolore du sorgho en plus du caractère d'hivernage. Nous avons également observé à partir de notre expérience de ces dernières années14 que les rétrocroisements sont les plus attractifs car ils présentent des caractéristiques étroitement comparables au sorgho domestiqué27 (forme et compacité de la panicule, grosses et grosses graines, absence d'éclatement des graines, etc.) que les simples, doubles , ou croix à trois voies. Nous avons donc utilisé les données produites dans cette étude et les études précédentes de notre laboratoire pour étudier la contribution du sorgho halepense dans les hybridations contrôlées S. bicolor × S. halepense avec un intérêt particulier pour les rétrocroisements impliquant deux doses de S. bicolor comme parent récurrent. Dans ce travail, nous décrivons la première étude de reséquençage du génome entier, évaluant simultanément S. bicolor et la descendance des croisements S. bicolor × S. halepense ; nous avons effectué une caractérisation structurelle et fonctionnelle complète de 172 lignées, dont 19 étaient des lignées consanguines recombinantes qui ont hérité de différentes proportions de S. bicolor et S. halepense. Nous avons interrogé l'ensemble du génome de ces populations et produit un vaste ensemble de variantes robustes et de haute confiance qui soutiendront la sélection et d'autres recherches génétiques et génomiques sur le sorgho, y compris la sélection assistée par la génomique.
Cent soixante-douze lignées de sorgho évaluées dans cette étude regroupées dans deux populations différentes de 153 génotypes de S. bicolor et 19 lignées consanguines recombinantes de S. bicolor × S. halepense (Fig. 1). Le Fstatistique (Fst) mesurant la structure génétique et le niveau de différenciation génétique28,29 était significativement et modérément élevé (Fst = 0,31, p = 0,01) ; Les premières valeurs vont de 0 en cas de panmixie à 1 si les populations ne partagent aucune diversité génétique. Les deux premières dimensions des coordonnées principales expliquent 70,9 % de la diversité génétique totale existant dans les populations étudiées. Les cent soixante-douze lignées de sorgho ont été reséquencées sur le génome entier et un nombre correspondant (172) de bibliothèques de séquençage appariées construites chacune avec une taille d'insert d'environ 300 paires de bases. Le reséquençage a produit 22,88 milliards de lectures appariées, ce qui a donné 3,43 billions de bases (nucléotides) et 2,6 To de données brutes de haute qualité. En fin de compte, un total de 21,70 milliards et 3,25 billions de lectures et de bases appariées propres ont été produites, respectivement. Dans l'ensemble, 94,54 % du total des lectures propres ont montré une valeur de qualité Q20 ≥ 94,54 %, ce qui indique une qualité élevée des données. Sorghum bicolor (Sb) et S. bicolor × S. halepense (SbxSh) ont montré une qualité de lectures nettes comparable (Q20 = 96,17–96,38 % et Q30 = 87,91–88,22 %), nombre de lectures nettes (125,7–126,19 × 106) et bases (18,82–18,89 × 109), et le ratio bases propres : bases brutes (94,64–94,89%). Cependant, le taux de guanine-cytosine (GC) était plus élevé dans SbxSh par rapport à Sb (43,42 % a contre 43,26 % b) dans les données propres.
Analyse de différenciation génétique dans les populations Sb et SbxSh. Les ellipses sont dessinées en tenant compte de l'intervalle de confiance à 95 % et de la distance euclidienne du centre "o". Les génotypes en dehors des ellipses sont des valeurs aberrantes74.
Les lectures de séquences ont été alignées sur le génome de référence de Sorghum bicolor (BTx623) dont la taille était de 732 200 000 pb, tandis que la taille effective était de 675 973 270 pb (base N exclue) et la teneur en GC de 41,82 %. Le taux de cartographie c'est-à-dire le pourcentage de couverture de la référence par les lectures des échantillons de sorgho variait de 89,15 à 95,18% avec une moyenne de 92%. Le pourcentage de lectures mappées et celui de bases mappées étaient identiques et variaient de 82,65 à 99,92 % avec une moyenne de 99,40 %. La profondeur de cartographie effective, c'est-à-dire LN/G, où L est la longueur de lecture, N est le nombre de lectures et G est la longueur du génome haploïde, était comprise entre 23,17X et 34,38X. Dans ce travail, SbxSh et Sb ont montré des lectures cartographiées comparables (99,04–99,45%), des bases cartographiées (99,04–99,45%), une profondeur de séquençage après cartographie (26,54X–26,64X), tandis que SbxSh a montré un taux de couverture en pourcentage plus élevé statistiquement significatif (94,87 a contre 91,62b), pourcentage encore plus faible de bases d'accès uniques (81,96a contre 77,58b) et de lectures d'accès uniques (82,39a contre 78,31b).
L'alignement des séquences des lignées de sorgho cibles sur le génome de référence BTx623, les modèles de gènes et les informations dérivées du génome de référence ont permis d'identifier un grand nombre de SNP, InDels, CNV et SV (tableau 1 ; Fig. 2). Un total de 567 046 841 SNP a été découvert à partir de ces génomes de sorgho. En moyenne, 10 515 367,4 SNP ont été observés par individu, dont 1 855 062 étaient localisés dans les régions géniques. L'analyse statistique a montré que SbxSh avait plus de SNP totaux et hétérozygotes, synonymous_CDS, nonsyn_CDS, exoniques, géniques, introniques, ARNm, pseudogéniques, transcrits et ARNt, tandis que Sb présentait plus de SNP homozygotes. Parmi les SNP synonymes et non synonymes cartographiés dans les régions codantes de l'une ou l'autre des populations, les SNP synonymes représentaient respectivement 49 % et 54 % des populations Sb et SbxSh. La population SbxSh contenait respectivement 81 % et 78 % de tous les SNP synonymes et non synonymes. Contrairement aux mutations synonymes, les mutations non synonymes provoquent une variation des acides aminés codants et sont considérées comme jouant un rôle important dans la modification du phénotype des organismes. En outre, les mutations non synonymes sont également de bons candidats pour expliquer la diversité phénotypique entre les différents individus d'une population.
Distribution chromosomique des informations WGRS dans les lignées Sb et BC1 SbxSh, et données GWAS des populations évaluées74. L'axe des abscisses correspond à la coordonnée génomique. Pistes 1 à 4 : visualisez la densité génomique des régions (définie comme la fraction d'une fenêtre génomique couverte par les régions génomiques). Pistes 5, 8 : les SNP et les gènes candidats significatifs sont affichés en fonction de leurs coordonnées génomiques (axe des abscisses), tandis que les valeurs y ont été définies dans le seul but d'améliorer la résolution (lisibilité) des SNP et des gènes candidats correspondants.
Nous avons en outre analysé la distribution des SNP à effet important, c'est-à-dire ceux susceptibles de désactiver les fonctions des gènes26,30. Dans ce travail, les SNPS à effet important comprenaient un codon stop prématuré, un codon stop à codon non stop, un codon start à un codon non start et des sites d'épissage. Il a été constaté que parmi les 10 140 SNP participant à la terminaison prématurée des codons, 2 970 SNP perturbent l'épissage des sites donneurs ou accepteurs du génome, 13 976 SNP sont liés à l'altération des résidus de méthionine d'initiation et 1 144 SNP remplacent les terminateurs par certains résidus d'acides aminés qui conduisent à une durée plus longue. ORF. Les statistiques sont représentées sur la figure 3, où SbxSh a montré un nombre plus élevé de SNP à effet important que Sb. Dans la population SbxSh, il a été trouvé une moyenne de 1967, 500, 370 et 700 SNP censés induire un codon stop prématuré, un codon stop à un codon non stop, un codon start à un codon non start et des sites d'épissage, respectivement, alors que dans Sb, il a été trouvé un maximum de 1183, 340, 100 et 340, respectivement. Dans les deux populations, les SNP induisant un codon stop prématuré étaient les plus représentés par rapport aux autres SNP à effet important.
Statistiques de différents types de SNP à grand effet. Les entrées re-séquencées sont représentées sur l'axe des x, les chiffres en haut de chaque barre représentent le nombre de SNP74.
Un total de 91 825 474 indels a été identifié dont 24 % et 76 % résidaient respectivement dans Sb et SbxSh ; les insertions individuelles moyennes (211 283,62 contre 649 218,63) et les suppressions (221 602,78 contre 697 826,37) étaient statistiquement plus élevées dans la population SbxSh par rapport à la population Sb. La distribution à l'échelle du génome des InDels courts (1 à 10 pb) a montré un nombre inférieur de ces variants dans les gènes et les régions codantes par rapport aux pseudogènes et à l'ARNm, par exemple (tableau 1). Nos résultats montrent que les indels qui ne sont pas des multiples de 3 pb et produisent des mutations de décalage de cadre sont particulièrement rares dans les régions codantes. La mutation par décalage de cadre dans la région CDS, la mutation par décalage 3X dans la région CDS, la mutation par décalage 3X dans la phase 0 de la région CDS et la mutation par décalage 3X dans la phase 0 de la région CDS étaient statistiquement plus élevées dans SbxSh que dans Sb, c'est-à-dire 16 544, 19 780,74, 6301,53, 13 479,21 contre 5954,58, 6684,15, 2114,42, 4569,73, respectivement. Une mutation par décalage de cadre résulte d'une insertion ou d'une suppression d'un nombre de nucléotides qui n'est pas un multiple de trois. Le changement de cadre de lecture modifie chaque acide aminé après le point de mutation et aboutit à une protéine non fonctionnelle. Les effets comparatifs du décalage de cadre (par exemple, 1-, 2-, 4-, 5-, 7-, 8-, 10-bp.) sans décalage de cadre (par exemple, 3-, 6-, 9-bp ) montre que les anciens InDels courts fournissent une explication très puissante de la différence de traits entre les individus30.
Dans cette étude, un total de 1 532 171 SV a été identifié et trouvé statistiquement comparablement distribué entre les deux populations. Parmi les SV observés, Sb et SbxSh ont montré des nombres moyens individuels statistiquement comparables de suppressions (4202 contre 4119), d'autres SV (4699 contre 4594), mais SbxSh a affiché plus d'insertions que Sb, c'est-à-dire 72,47 contre 21,01 nombre moyen individuel de SV. Un total de 4 973 961 CNV a été généré à partir de l'ensemble de la population, SbxSh produisant un nombre statistiquement plus élevé de CNV que Sb (41 296,21 contre 27 381,26), une régulation à la hausse de la CNV (16 650,26 contre 10 567,82) et une régulation à la baisse (24 214,95 contre 16 345,06).
L'une de nos hypothèses de travail était que certaines des variations génétiques identifiées pourraient contribuer à la différenciation phénotypique entre S. bicolor et S. bicolor × S. halepense, ce qui nous a poussés à concentrer notre analyse sur les SNP dans les régions géniques. Les sélectionneurs de sorgho travaillant sur l'introgression de la pérennité dans un fond autrement annuel de S. bicolor sélectionnent l'aspect général de la plante bicolore du sorgho en plus du caractère d'hivernage. Nous avons également observé à partir de notre expérience de ces dernières années14 que les rétrocroisements sont les plus attractifs car ils présentent des caractéristiques étroitement comparables au sorgho domestiqué (forme de la panicule, taille des graines, etc.) que les croisements simples, doubles ou triples. Nous avons donc utilisé les données produites dans cette étude et dans les études précédentes de notre laboratoire pour étudier la contribution de Sorghum halepense dans les hybridations contrôlées SbxSh. Comme le montre la figure 2, la lignée de rétrocroisement SbxSh9 a plus de gènes et plus de SNP, de CNV et d'indels que S. bicolor Sb1 ; néanmoins, les deux lignées affichaient un nombre comparable de SV. Le même schéma a été observé dans toutes les populations. La densité des gènes, des SNP, des indels et des SV augmente de la région péricentromérique vers les télomères, les SNP/gènes et les indels courts présentant un schéma de distribution similaire. Dans les deux populations, la distribution des CNV était homogène des centromères aux télomères dans tous les chromosomes. De plus, la biomasse du sorgho a associé des SNP importants et des gènes candidats récemment découverts8 dans ces populations, à savoir les gènes Dw (Dw1, Dw2, Dw3, Dw4), les gènes Ma (Ma1, Ma2, Ma3, Ma5, Ma6), les gènes associés à la gibbérelline (GA). (SbGA2ox1, SbGA3ox1, SbGA2ox7), les gènes impliqués dans le contrôle de la date d'épiaison (SbZCN8) 1,31 et la signalisation GA et la régulation de la hauteur des plantes (SbSLR11) étaient principalement localisés vers les extrémités distale et proximale des chromosomes d'intérêt (Fig. 2).
L'analyse des gènes hébergeant des SNP a montré que plus de gènes (18 785) étaient partagés entre les croisements Sb et BC1, avec relativement moins de gènes, c'est-à-dire 109, 230 et 291 étant privés des trois lignées respectives Sb1, SbxSh50 et SbxSh9 (Fig. 4) . L'analyse de l'enrichissement en GO des processus biologiques (BP) associé aux gènes SbxSh a montré 33 693 et 5 548 gènes dans l'ensemble de données du génome de référence du sorgho bicolore et dans l'ensemble de gènes hybrides SbxSh9/SbxSh5 qui correspondaient aux termes GO (soit directement, soit par héritage), respectivement (tableau 2). Les termes les plus granulaires comprenaient l'enrichissement en gènes associés à l'organisation de la paroi cellulaire de type végétal (GO: 0009664), le développement des racines (GO: 004836), le processus métabolique des polysaccharides de la paroi cellulaire (GO: 0010383), le processus métabolique du glutathion (GO: 0006749) , processus catabolique du peroxyde d'hydrogène (GO:0042744), morphogenèse de la structure anatomique (GO:0009653), réponse au stress oxydatif (GO:0006979), processus catabolique des protéines protéasomales (GO:0010498), réponse au composé contenant de l'oxygène (GO:1901700 ), génération de métabolites précurseurs et d'énergie (GO:0006091), traduction (GO:0006412), voie de signalisation à médiation hormonale (GO:0009755), réponse à un stimulus abiotique (GO:0009628), transport à médiation vésiculaire (GO:0,016,192 ), biogenèse du complexe ribonucléoprotéique (GO:0022613), organisation des sous-unités complexes contenant des protéines (GO:0043933), transport intracellulaire (GO:0046907), assemblage de composants cellulaires (GO:0022607), localisation des protéines (GO:0008104), organisation des organelles (GO:0006996), transport de composés azotés (GO:0071705), transport de substances organiques (GO:0071702), processus métabolique de petites molécules (GO:0044281), régulation de la transcription, modèle ADN (GO:0006355), contenant des nucléobases processus métabolique composé (GO:0006139), régulation positive de la traduction (GO:0045727).
Nombre de gènes partagés et privés entre Sb1 (IESV 99 091 DL) et deux RIL pérennes sœurs (SbxSh9 et SbxSh50) dérivés du croisement SbxSh rétrocroisé (2 doses parentales récurrentes : Tx623*2/Gypse 9 ; BC1) avec S. bicolor74.
To root development GO term (GO:004836) mapped 34 genes: GeneID:8080001, GeneID:8064680, GeneID:8054879, GeneID:8075742, GeneID:8059541, GeneID:8078975, GeneID:8081609, GeneID:8055737, GeneID:8055874, ID de gène :8063307, ID de gène :8058361, ID de gène :8084663, ID de gène :8064471, ID de gène :8079326, ID de gène :8079141, ID de gène :8060669, ID de gène :8063006, ID de gène :8060622, ID de gène :8080905, ID de gène :8077286, gène ID : 8060000, ID de gène : 8058075, GeneID:8074440, GeneID:8082391, GeneID:8065800, GeneID:8080849, GeneID:8085583, GeneID:8071472, GeneID:8084890, GeneID:8072111, GeneID:8063311, GeneID:8054193, GeneID: 8059201, ID de gène : 8082281.
Le développement du sorgho pérenne initié en 2015 dans notre programme de sélection ; les performances morpho-agronomiques antérieures des matériaux évalués ont été rapportées dans nos précédents travaux14. Selon notre expérience et la littérature disponible19, la production de rhizomes est la condition sine qua non pour que les lignées SbxSh restent pérennes sous des climats tempérés comme les conditions qui prévalent dans nos stations expérimentales italiennes14. L'une des découvertes les plus intéressantes des études récentes est l'absence de compromis négatif entre le développement des rhizomes et le rendement en graines et le rendement en biomasse aérienne. Cela devrait permettre le développement d'idéotypes à haut rendement de biomasse, de céréales et de sorgho à double usage exprimant des structures souterraines pérennes14,19. Les lignées pérennes Sorghum bicolor × S. halepense ont montré une compétitivité par rapport aux hybrides commerciaux en termes de production de biomasse aérienne et de rendements en grains ; cependant, la plupart des lignées dérivées de rétrocroisements ont montré un aspect général de la plante27 et des traits de domestication tels qu'un rendement élevé en graines, de grandes caryopses, une résistance à l'éclatement des graines, une inflorescence compacte et une résistance de la tige plus proche de S. bicolor que d'autres croisements14,20.
Le rendement en grains était significativement corrélé avec la maturité, le rendement en masse sèche, la fraction de masse sèche de matière fraîche, le nombre de chaumes, le développement des rhizomes, l'hémicellulose et la survie des rhizomes, mais des coefficients de corrélation importants ont été observés pour la maturité, le nombre de chaumes et le développement des rhizomes. Les caractères qui ont montré une corrélation significative moyenne à élevée32 avec le rendement en masse sèche aérienne comprenaient la hauteur de la plante, la fraction de masse sèche du matériau frais, le nombre de chaumes, la fibre détergente neutre.
Dans ce travail, nous avons réalisé la première analyse de reséquençage du génome entier d'un panel unique composé de populations de Sorghum bicolor et S. bicolor × S. halepense. Notre reséquençage s'est concentré sur les lignées consanguines recombinantes (RIL) de S. bicolor × S. halepense au lieu de S. halepense en soi et cela peut s'expliquer par nos efforts pour aligner l'expérience de reséquençage avec notre programme de sélection pour développer des cultivars de sorgho pérennes14. Les RIL SbxSh ont été développés par croisement et sélection pour minimiser la traînée de liaison associée à S. halepense, par exemple, l'éclatement des graines, les grains de petite taille, les talles et les rhizomes excessifs, et la compacité et la forme indésirables de l'inflorescence dans nos populations reproductrices. Le reséquençage devait donc expliquer les contributions des lignées parentales à la composition génomique des combinaisons hybrides pérennes. L'utilisation de parents sauvages dans les introgressions génétiques s'accompagne généralement d'une traînée de liaison associée à l'introduction de caractères défavorables en plus des caractères favorables33, ce qui nécessite un effort de sélection important et chronophage pour récupérer le phénotype domestiqué, en particulier lorsque le produit primaire est le grain18,34. Cette expérience de reséquençage est importante dans la sélection végétale, en particulier dans le sorgho. De nouvelles variantes seront utilisées pour la découverte de gènes, tandis qu'un grand nombre de polymorphismes de haute qualité découverts seront exploités dans le processus de sélection génomique, d'études d'association à l'échelle du génome et de sélection assistée par marqueurs. Comme il s'agit de populations fondatrices pour l'ensemble de notre programme de sélection, une telle opportunité offerte par le reséquençage ne peut être surestimée35, en particulier en termes d'augmentation des prédictions génomiques et de la précision de la cartographie des locus de caractères quantitatifs. De plus, aucune plate-forme de génotypage, par exemple des puces, des puces, comme celles utilisées dans d'autres espèces de cultures, par exemple la tomate, la pomme de terre ou le poivron, n'a été développée jusqu'à présent dans le sorgho pour le génotypage à haut débit des traits du sorgho, en particulier ceux associés à la pérennité26. L'objectif principal de ce travail était donc de développer un large répertoire d'informations génomiques et d'ensembles de données de polymorphisme pouvant être utilisés pour la découverte et la validation de gènes, et comme source de marqueurs pour construire des plateformes de génotypage à des fins de sélection appliquée.
Dans ce travail, un total de 21,70 milliards et 3,25 billions de lectures et de bases appariées propres ont été produites, respectivement. Dans l'ensemble, 94,54 % du total des lectures propres ont montré une valeur de qualité Q20 ≥ 94,54 % ; cette valeur de qualité dépassait 96 % lorsqu'elle était calculée séparément pour S. bicolor et S. bicolor × S. halepense, ce qui indique une qualité élevée des données. Le taux de cartographie, c'est-à-dire le pourcentage de couverture de la référence par les lectures des échantillons de sorgho, variait de 89,15 % à 95,18 % avec une moyenne de 92 %, tandis que le pourcentage de lectures cartographiées variait de 82,65 % à 99,92 % avec une moyenne de 99,40 %. , indiquant une grande précision de séquençage et l'absence d'ADN contaminant. La profondeur de cartographie effective était comprise entre 23,17X et 34,38X, ce qui était largement suffisant (Zheng et al. 2011) pour aligner la plupart des séquences des échantillons cibles, et témoignait de la haute qualité du génome de référence. La profondeur de cartographie obtenue dans cette étude était plus élevée que dans la plupart des expériences de cartographie précédentes qui montraient des valeurs autour de 10X36,37, et englobait toute la longueur du génome de référence dans un schéma homogène dans toutes les accessions. Le taux de cartographie et le pourcentage de lectures cartographiées réalisés dans cette étude étaient meilleurs que ceux rapportés dans les travaux précédents et confirment la haute qualité de la séquence de référence utilisée. Par exemple, Gramazio et al.26 ont rapporté un taux de cartographie moyen de 85,4 % avec une fourchette de 76,9 à 88,7 %. D'autre part, chez certaines espèces modèles, les taux moyens de lectures non cartographiées étaient plus élevés, par exemple 3 à 5 % dans la tomate38,39 et 10 à 15 % dans le riz40,41. Les différences dans les expériences de cartographie peuvent être attribuées à une variété de facteurs, y compris les différences dans : (1) la progression de l'assemblage de la séquence, (2) les niveaux d'éléments répétitifs, (3) la divergence génétique entre les échantillons séquencés et le génome de référence, et (4) les niveaux de variantes de polymorphismes38,41.
Les populations de Sorghum bicolor × S. halepense et S. bicolor ont montré des lectures cartographiées comparables, des bases cartographiées, une profondeur de séquençage après la cartographie, tandis que Sorghum bicolor × S. halepense a montré un taux de couverture en pourcentage plus élevé statistiquement significatif (94,87a contre 91,62b), mais unique inférieur bases de pourcentage d'accès (81,96a contre 77,58b) et lectures uniques en pourcentage d'accès (82,39a contre 78,31b). Étant donné que Sorghum bicolor (Sb) et S. bicolor × S. halepense ont montré une qualité de lectures nettes comparable (Q20 et Q30), et le nombre de lectures nettes et de bases, le taux de couverture plus élevé observé dans S. bicolor × S. halepense peut être attribué aux taux inférieurs de lectures cartographiées de manière unique et donc à l'existence de lectures cartographiées à plusieurs locus génomiques de référence avec un faible niveau de similarité de séquence avec la séquence cible. L'existence de lectures multi-cartographiées dans S. bicolor × S. halepense peut s'expliquer par cette population produisant un nombre statistiquement plus élevé d'indels courts, d'insertions de fragments longs (au moins 50 pb), de CNV, de régulations positives et négatives de CNV que S. bicolor42. Un niveau relativement plus faible de similarité de séquence était attendu entre la séquence de référence de S. bicolor et S. bicolor × S. halepense en raison de la distance génétique qui existait entre les deux génomes (Fig. 1) dérivant principalement de S. halepense. Dans de telles circonstances, plusieurs auteurs39 ont souligné la nécessité de séquencer et d'assembler plusieurs génomes de référence de parents sauvages de cultures pour éviter des analyses de reséquençage biaisées et pour améliorer le taux de lectures cartographiées de manière unique. Cependant, étant donné que la dynamique des gains et des pertes de gènes au cours de l'évolution des plantes et en particulier lors de l'hybridation interploïde entre S. bicolor et S. halepense n'est pas encore entièrement comprise, d'autres raisons peuvent expliquer la couverture génomique plus élevée de S. bicolor × S. halepense.
La population SbxSh a montré un plus grand degré d'hétérozygotie (tableau 1), ce qui est cohérent avec les analyses génétiques précédentes34 et peut s'expliquer par l'histoire génétique de S. bicolor qui a subi le goulot d'étranglement de la domestication, entraînant un rétrécissement de la base génétique avec par rapport aux espèces sauvages, alors que la nature tétraploïde de S. halepense et de sa descendance peut avoir joué un rôle majeur dans l'hétérozygotie observée dans la population SbxSh ; la fixation des allèles nécessite un nombre de générations plus élevé chez les polyploïdes, et l'hétérozygotie diminue lentement même en présence de cycles répétés d'autofécondation43. De plus, les lectures de reséquençage du génome entier ont été alignées sur le génome de référence de S. bicolor13 ; l'alignement des séquences d'un allotétraploïde SbxSh vers un génome diploïde peut entraîner une surestimation des loci hétérozygotes en raison de l'alignement des homéologues. Chez S. halepense, les homéologues dérivés d'orthologues dans les génomes de ses ancêtres ( S. bicolor et S. propinquum ) sont conservés, mais après l'hybridation S. bicolor × S. halepense, il devient difficile de prédire le sort de ces homéologues à travers les générations en raison de différentes possibilités d'appariement des chromosomes et d'assortiment indépendant lors de la méiose44. On s'attend néanmoins à ce qu'au moins certaines des paires de chromosomes homéologues puissent être maintenues et contribuer à augmenter l'hétérozygotie des lignées consanguines recombinantes.
Notre étude a identifié un large ensemble de polymorphismes, composé de 665 378 447 variantes de haute qualité, notamment des SNP, des indels, des SV et des CNV ; Les SNP représentaient 85,22 % de toutes les variantes, ce qui est en accord avec les travaux antérieurs26. L'identification de plus de SNP dans le panel actuel de sorgho représente une bonne opportunité de sélection car ces marqueurs sont moins chers et faciles à automatiser pour le génotypage à haut débit par rapport aux autres marqueurs45,46. Le reséquençage du génome entier réalisé dans ce travail est donc le point de départ pour développer un grand nombre de marqueurs non seulement chez S. bicolor mais aussi chez des parents sauvages de Sorghum comme Sorghum halepense, pour lesquels le manque d'informations a ralenti leur utilisation dans programmes de sélection39,47. Il existe des exemples de réussite sur l'opportunité d'exploiter des variantes de polymorphismes à partir de parents sauvages de cultures, par exemple dans le soja37,48, le riz41, la tomate39,49 et l'aubergine26. Dans notre étude, la population SbxSh a produit plus de variantes que la population Sb, ce qui a confirmé les résultats des travaux précédents montrant que les parents sauvages des cultures produisent plus de variations par rapport aux variétés locales ou aux accessions cultivées. Notre étude met donc en évidence la possibilité d'une introgression contrôlée de la variation de S. halepense pour élargir la base génétique de S. bicolor ; des introgressions similaires ont été réalisées dans d'autres cultures, par exemple le riz, la tomate et le blé50. À notre connaissance, notre étude représente le premier effort pour exploiter le précieux bassin de diversité génétique de S. halepense en utilisant le reséquençage du génome entier. Des panels similaires ont été évalués dans des études précédentes mais s'appuyaient sur des plateformes de génotypage par séquençage qui présentaient des limitations techniques particulièrement associées à une très faible profondeur de séquençage (~ 1,5X) et à une faible couverture8,34. Des exemples de telles enquêtes antérieures basées sur le génotypage par séquençage comprennent des études de déséquilibre de liaison sur la biomasse et les traits liés à la biomasse dans le sorgho8, les traits antioxydants dans le sorgho34 et l'architecture des plantes de sorgho51. En outre, Habyarimana et Lopez ont utilisé des SNP de génotypage par séquençage pour effectuer une prédiction et une sélection génomiques dans le sorgho52,53. Les informations produites dans ce travail et les variantes identifiées à partir de S. halepense devraient accélérer l'introgression de la pérennité et d'autres régions génomiques utiles de cette espèce productrice de rhizomes18 pour développer des cultivars de sorgho supérieurs conformes aux pratiques climatiques/résilientes et agroécologiques. Un grand nombre de polymorphismes à haut niveau de confiance ont également été identifiés dans la population de S. bicolor et seront exploités pour le génotypage à haut débit d'espèces de sorgho cultivées ou sauvages à l'aide de plates-formes de génotypage à haut débit, par exemple des matrices ou des puces. Dans ce travail, les génotypes ont été appelés individuellement pour chaque échantillon pour toutes les variantes, mais, pour les SNP, nous avons également effectué un génotypage conjoint entre les échantillons afin de produire un ensemble d'appels VCF multi-échantillons pour des investigations plus approfondies. L'ensemble d'appels VCF multi-échantillons a produit des fichiers vcf de 33 et 6 Mo de SNP et d'indels, respectivement, avec une bonne couverture et une bonne profondeur de séquençage. Ces matrices seront utilisées pour fournir plus d'informations et améliorer les études précédentes, en particulier dans la domestication, les prédictions génomiques, les études d'association à l'échelle du génome et la phylogénétique26.
La statistique Fst qui est une métrique de la structure de la population, a confirmé des études antérieures8 montrant que Sb et SbxSh forment deux populations distinctes. De plus, la différenciation entre les deux populations est étayée par le nombre plus élevé de variants observés dans la population SbxSh, en particulier les SNP, les SNP à grand effet, les CNV, les SV, les indels et les mutations de décalage de cadre. Le Fst obtenu dans ce travail était supérieur ou comparable aux rapports précédents8,54 ; les écarts Fst observés peuvent être attribués à des différences dans le nombre de marqueurs utilisés, la diversité génétique des populations et dans les approches d'échantillonnage mises en œuvre dans ces travaux. Une valeur aberrante (SbxSh102) a été identifiée qui est génétiquement plus proche de la population de S. bicolor. Le SbxSh102 se compose de deux doses de S. bicolor parent récurrent (Tx623) dans le croisement contrôlé S. bicolor × S. halepense (Gypse 9) et ce RIL vivace présente des intérêts génétiques et de sélection futurs dans le développement d'idéotypes pérennes de Sorghum bicolor.
Notre étude a produit des gènes et des variants avec une densité plus élevée qui couvraient mieux des longueurs entières de chromosomes individuels que dans les travaux précédents52,55,56. La densité des gènes, des SNP et des indels a montré un modèle de distribution chromosomique similaire, augmentant de la région péricentromérique vers les télomères. On s'attend à ce que ce meilleur modèle de distribution de variantes stimule la découverte de nouveaux gènes et de marqueurs majeurs. Dans des travaux antérieurs8,31,57, les SNP significatifs découverts et les gènes candidats étaient principalement localisés vers les extrémités distale et proximale des chromosomes d'intérêt. Notre travail de reséquençage du génome entier a produit une haute densité de variants de marqueurs couvrant l'ensemble du génome et offre donc la possibilité de découvrir de nouveaux variants de marqueurs majeurs et des gènes dans les régions péricentromériques qui présentent actuellement peu d'informations de ce type. L'analyse des processus biologiques d'enrichissement en GO associés aux gènes SbxSh a montré 5 548 gènes privés qui correspondaient aux termes GO importants ; 34 de ces gènes ont été cartographiés pour le développement du système racinaire (GO:0022622) dont deux (GeneID:8054879 et GeneID:8072111) ont été signalés comme gouvernant les propriétés des racines58,59. Des études menées sur Arabidopsis thaliana ont montré que ROOT PRIMORDIUM DEFECTIVE 1 (RPD1; GeneID:8054879) est nécessaire au maintien de la prolifération cellulaire active et joue un rôle essentiel dans le développement des racines58, tandis que le RETARDED ROOT GROWTH (RRG, GeneID:8072111) Le gène est principalement exprimé dans le méristème racinaire et code pour une protéine localisée dans les mitochondries qui est nécessaire à la division cellulaire dans le méristème racinaire (Xiaojing Zhou et al.). Les variantes et les analyses fonctionnelles menées dans ce travail ont montré que l'exploitation des variantes et des gènes privés de SbxSh peut fournir des informations sur les facteurs génétiques contrôlant les caractéristiques des plantes capables de stimuler l'amélioration génétique du sorgho, en particulier le caractère de pérennité qui est conforme aux pratiques agroécologiques, à l'agriculture durable et au climat. changer la résilience.
Ce travail a généré la première carte du génome entier des SNP, des indels, des SV et des CNV dans un panel de sorgho qui comprend le génome de S. halepense, qui peut être utilisé comme cadre pour de futures recherches en génomique fonctionnelle et en sélection assistée par le génome. Le sorgho est la cinquième céréale la plus importante au monde sur le plan économique et constitue un aliment de base, en particulier dans les régions tropicales semi-arides d'Afrique et d'Asie. et les biocarburants de troisième génération. Les variants (SNP, indels, SV et CNV) découverts ici stimuleront les études génomiques, par exemple la prédiction et la sélection génomiques, les analyses de liaison et de déséquilibre de liaison, la base moléculaire de plusieurs caractéristiques de plantes de sorgho, qui peuvent toutes créer des percées pour réaliser des gains génétiques significatifs dans récolte de sorgho.
Cent soixante-douze génotypes de sorgho, dont 19 lignées consanguines avancées de S. bicolor × S. halepense (SbxSh) et 153 lignées de S. bicolor (Sb), ont été reséquencés sur l'ensemble du génome. Les génotypes de sorgho bicolore étaient composés de variétés locales tropicales, de lignées améliorées à partir de celles-ci et de lignées de sélection tempérées. Les lignées SbxSh étaient à différents niveaux (F4–F7) de descendance filiale générée à partir de croisements impliquant des génotypes annuels/pérennes (A/P) et des rétrocroisements A/P avec des parents récurrents annuels (A*2/P ; BC1), vivaces/vivaces hybrides (P/P) et annuelles/vivaces//vivaces (A/P//P) suivies de cycles de sélection. Les lignées parentales annuelles étaient diploïdes standard (2n = 20), tétraploïdes induits (2n = 40), cytoplasmiques-génétiques mâles stériles et génétiques mâles stériles consanguines de sorgho. Les lignées parentales pérennes consistaient en une plante S. halepense et des lignées tétraploïdes issues de l'hybridation contrôlée de plantes de sorgho tétraploïdes induites avec S. halepense. Ces populations ont été décrites dans Habyarimana et al.8,14. Des techniques d'hybridation interspécifique entre Sb et Sh ont été récemment décrites par Hodnett et al.60.
L'ADN génomique total a été extrait de semis de sorgho étiolés âgés de 10 jours et cultivés dans des conditions standard de serre, selon la méthode au bromure de cétyl triméthylammonium61, avec des modifications mineures. L'intégrité de l'ADN a été évaluée par électrophorèse sur gel d'agarose, la qualité de l'ADN évaluée à l'aide des rapports 260/280 et 260/230 nm du spectrophotomètre NanoDrop ND-1000 (NanoDrop Technologies, Wilmington, Delaware, États-Unis) et la concentration mesurée avec un fluoromètre Qubit® 2.0 (Thermo Fisher Scientific, Waltham, MA, États-Unis). Des échantillons d'ADN de haute qualité ont été expédiés à BGI Tech Solutions (Hongkong) Co., Limited pour la construction de bibliothèques et le reséquençage du génome entier. Des bibliothèques appariées ont été préparées avec une taille d'insert d'environ 300 pb et séquencées sur la plate-forme Illumina DNB-SEQ PE150 selon le protocole du fournisseur, produisant une profondeur de séquençage 20X résultant en 15 bases G par échantillon. Les séquences du génome de référence du sorgho BTx623 ont été téléchargées à partir du site Web Phytozome du Joint Genome Institute62,63.
Les séquences brutes ont été traitées avec le filtre SOAPnuke interne du fournisseur pour obtenir des lectures propres en éliminant les lectures avec plus de 50 % de séquence d'adaptateur, les lectures de faible qualité pour lesquelles plus de 50 % des bases affichent un score Phred inférieur à 20 et les lectures avec 2 % ou plusieurs bases "N", c'est-à-dire n'importe quelle base. Les lectures traitées ont ensuite été cartographiées sur le génome de référence de S. bicolor (BTx623) version 3.1.113 à l'aide de Burrows-Wheeler Aligner (BWA)64. BWA a montré de bonnes performances en alignant des séquences de nucléotides relativement courtes par rapport à une longue référence et en produisant des résultats précis et rapides avec de faibles taux d'erreur. Il fournit une configuration flexible des paramètres et la sortie de l'alignement est présentée au format SAM65. Picard-tools (v1.118)66 est utilisé pour trier les fichiers SAM par coordonnées, les convertir en fichiers BAM et marquer les lectures dupliquées à rejeter par la boîte à outils d'analyse du génome (GATK) lors des analyses en aval. Les fichiers BAM ont ensuite été traités pour la réparation des informations sur les paires de partenaires, l'ajout d'informations sur les groupes de lecture et l'étiquetage des lectures en double ; ces fichiers BAM post-traités sont facilement utilisés pour la détection des variations. Les polymorphismes mononucléotidiques (SNP) et les petites insertions/suppressions (InDels) sont détectés par GATK67, BreakDancer68 est utilisé pour les appels de variantes de structure (SV) et SOAPcnv69 pour les appels de variantes de nombre de copies (CNV). Les génotypes ont été appelés individuellement pour chaque échantillon pour toutes les variantes, mais, en plus, pour les SNP, nous avons également effectué un génotypage conjoint entre les échantillons pour produire un ensemble d'appels VCF (Variant Call Format) multi-échantillons pour les futures prédictions génomiques et les analyses de déséquilibre de liaison.
Pour détecter des SNP de haute qualité, nous avons d'abord calculé la probabilité du génotype de chaque échantillon à l'aide de SOAPsnp70 et le génotype avec la probabilité la plus élevée a été sélectionné comme génotype de l'individu séquencé au locus spécifique. Ensuite, nous avons sélectionné un locus polymorphe contre la séquence de référence en utilisant la séquence consensus cible, et sur la base des données de reséquençage de 172 échantillons, nous avons déterminé les SNP situés dans des sites efficaces avec une qualité suffisante, c'est-à-dire répondant aux critères suivants : 3 ≤ profondeur ≤ 50 , avec une profondeur calculée à l'aide des données de chaque individu, des sites cartographiables moyens <1,5 et une qualité moyenne pour le nouvel allèle> 20. Les SNP ont été localisés dans les sites d'épissage, les codons de départ, les codons d'arrêt, les régions codantes et non codantes et d'autres acides nucléiques molécules basées sur des modèles de gènes annotés dans la base de données de référence du génome de S. bicolor13.
Pour identifier l'indel court, nous avons mappé les lectures appariées à la séquence de référence permettant des écarts allant jusqu'à 10 pb, fusionné ces paires redondantes et les écarts pris en charge par au moins trois lectures appariées non redondantes ont été extraits. Un indel potentiel a été identifié lorsque le nombre de lectures non interrompues qui traversaient un indel potentiel n'était pas supérieur au double de celui des lectures interrompues. Les indels finaux de haute qualité ne comprenaient que ceux identifiés sur les deux brins par des lectures appariées.
La variation de structure (SV) comprend la suppression, l'insertion, la duplication, l'inversion et la transposition d'un long fragment (au moins 50 pb) dans le génome. Dans cette étude, nous avons utilisé SOAPsv64 pour détecter les SV sur la base du principe de l'extrémité appariée64, c'est-à-dire que l'une des deux lectures de l'extrémité appariée doit s'aligner sur la chaîne avant, tandis que l'autre doit être alignée sur la chaîne négative (inverse). . De plus, la distance entre les deux lectures après l'alignement doit correspondre à la taille de l'insert, et les paires de deux lectures doivent avoir une orientation normale et une portée appropriée lorsqu'elles sont alignées sur le génome. Si l'orientation ou l'étendue des paires de deux lectures n'est pas conforme aux attentes d'alignement, des variations structurelles peuvent être impliquées dans cette région. Les alignements appariés anormaux sont analysés par regroupement et le résultat comparé avec des types SV prédéfinis. Un seuil de 3 lectures de fin appariées anormales est requis pour soutenir l'existence de SV, tandis que les SV qui ont été pris en charge par au moins six lectures de fin appariées ont été considérés comme de haute qualité et identifiés comme les SV finaux dans ce travail.
Nous avons détecté les CNV par les étapes suivantes : (i) les séquences d'ADN ont été séparées en fragments en fonction de la profondeur de chaque base à partir des résultats d'alignement ; (ii) nous avons calculé la valeur P pour chaque fragment pour estimer sa probabilité d'être un CNV ; et (iii) les fragments qui répondaient aux critères (longueur de fragment supérieure à 2 kb, Pvalue ≤ 0,35, profondeur moyenne inférieure à 0,5 ou supérieure à 2,0) ont été conservés en tant que CNV. La valeur P a été calculée comme la probabilité de chaque profondeur observée (d) sous la distribution d'un ensemble de données distribuées de Poisson simulé dont la valeur attendue (E(d)) est égale à la profondeur moyenne observée. Si d < E(d), la P-value = P(x ≤ d) × 2, sinon P-value = P(x ≥ d) × 2. La crédibilité d'une CNV est inversement proportionnelle à la P-value.
L'ontologie des gènes et une étude génétique moléculaire approfondie ont été menées sur une lignée Sb à double usage dérivée d'une variété tropicale améliorée (IESV 99091 DL) et deux RIL vivaces sœurs (SbxSh9 et SbxSh50) dérivées d'un croisement SbxSh à rhizome (2 doses parent : Tx623*2/Gypse 9 ; BC1) au parent Sb récurrent mâle stérile cytoplasmique, à plus de six générations d'autofécondation. Un ensemble de 12 484 gènes contenant un polymorphisme nucléotidique unique identifiés dans les deux RIL sœurs SbxSh mais pas dans IESV 99091 DL ont été sélectionnés comme ensemble de gènes candidats associés à S. halepense (Fig. 4). Ces gènes ont été cartographiés dans l'ontologie des gènes (GO)26 pour évaluer leurs caractéristiques, à l'aide des outils PANTHER Gene List Analysis71. PANTHER prend un ensemble de gènes et compare la fréquence des termes GO dans l'ensemble d'échantillons avec la fréquence du même ensemble de termes GO dans l'ensemble de référence pour identifier les termes qui sont sur- ou sous-représentés dans l'ensemble d'échantillons. Dans ce travail, nous avons effectué un test de surreprésentation PANTHER à l'aide de la base de données GO Ontology https://doi.org/10.5281/zenodo.4735677 publiée le 01 mai 2021. La liste de référence se composait de Sorghum bicolor (tous les gènes dans la base de données), tandis que l'annotation les ensembles de données étaient "Fonction moléculaire GO complète", "Processus biologique GO complet" et "Composant cellulaire GO complet", qui sont les ensembles de données avec les annotations GO complètes et à jour. Le test binomial72 a été utilisé et la correction de Bonferroni appliquée pour tenir compte des tests multiples (un pour chaque parcours, ou chaque terme d'ontologie) en même temps. Seuls les résultats corrigés de Bonferroni avec un niveau de probabilité P < 0,05 ont été considérés comme significatifs, c'est-à-dire que plus la valeur P est faible, moins le résultat obtenu est susceptible d'être expliqué par une distribution aléatoire.
Les informations de Habyarimana et al.8 ont été utilisées dans ce travail pour la cartographie physique génomique des SNP liés à la biomasse, des gènes candidats et des gènes connus pour sous-tendre la hauteur et la maturité des plantes de sorgho. Les transcrits de gènes connus ont été identifiés sur phytozome63. Dans leur travail Habyarimana et al.8, une étude d'association à l'échelle du génome a été réalisée à l'aide du progiciel de génétique statistique Genome Association and Prediction Integrated Tool (GAPIT)73 dans l'environnement R74. De plus, deux algorithmes GWAS multi-locus ont été utilisés pour identifier les locus de traits quantitatifs (QTL) significatifs pour les traits liés à la biomasse : BLINK (Bayesian-information and Linkage disequilibrium Iteratively Nested Keyway)75,76 et SUPER (Settlement of MLM Under Progressively Relation exclusive)77.
Les inférences statistiques pour séparer les moyennes, par exemple les statistiques de séquençage, ont été effectuées à l'aide d'une analyse de la variance et du test Tukey HSD au niveau de signification de 5 %. La diversité génétique a été évaluée à l'aide de la statistique F et de l'analyse des coordonnées principales78. Les inférences statistiques et la visualisation des données ont été réalisées à l'aide du logiciel R74.
Les ensembles de données générés pendant et/ou analysés pendant l'étude actuelle ne sont pas accessibles au public en raison d'une utilisation future prévue, mais sont disponibles auprès du premier auteur correspondant sur demande raisonnable.
Ordonio , R. , Ito , Y. , Morinaka , Y. , Sazuka , T. & Matsuoka , M. Chapitre cinq : Sélection moléculaire du sorgho bicolore , une nouvelle culture énergétique . Dans Revue Internationale de Biologie Cellulaire et Moléculaire Vol. 321 (éd. Jeon, KW) 221–257 (Academic Press, 2016).
Google Scholar
Plan stratégique de l'ICRISAT jusqu'en 2020 : Développement inclusif axé sur le marché pour les petits exploitants agricoles des zones arides tropicales. (Institut international de recherche sur les cultures des zones tropicales semi-arides, 2010).
Alfieri, M., Balconi, C., Cabassi, G., Habyarimana, E. & Redaelli, R. Activité antioxydante dans un ensemble de variétés locales et de lignées de sorgho. Maydica 62, 1–7 (2017).
Google Scholar
Bekele, EK, Nosworthy, MG, Tyler, RT & Henry, CJ Capacité antioxydante et teneur totale en composés phénoliques des collations à base de pois chiches et de sorgho à expansion directe. J. Processus alimentaire. Conserv. 45, e15439 (2021).
CAS Google Scholar
Dykes, L. Composés phénoliques dans les céréales et leurs bienfaits pour la santé. Cereal Food World 52, 105–111 (2007).
CAS Google Scholar
Dicko, MH, Gruppen, H., Traoré, AS, van Berkel, WJH & Voragen, AGJ Évaluation de l'effet de la germination sur les composés phénoliques et les activités antioxydantes des variétés de sorgho. J. Agric. Chimie alimentaire. 53, 2581-2588 (2005).
CAS PubMed Google Scholar
Wu, Y. et al. La présence de tanins dans les grains de sorgho est conditionnée par différents allèles naturels de Tannin1. Proc. Natl. Acad. Sci. États-Unis 109, 10281–10286 (2012).
ADS CAS PubMed PubMed Central Google Scholar
Habyarimana, E., De Franceschi, P., Ercisli, S., Baloch, FS et Dall'Agata, M. Étude d'association à l'échelle du génome pour les traits liés à la biomasse dans un panel de populations de Sorghum bicolor et S. bicolor × S. halepense . Devant. Usine Sci. 11, 1796 (2020).
Google Scholar
Awika, JM & Rooney, LW Les composés phytochimiques du sorgho et leur impact potentiel sur la santé humaine. Phytochimie 65, 1199-1221 (2004).
CAS PubMed Google Scholar
Dykes, composés phytochimiques de L. Sorghum et leur impact potentiel sur la santé humaine. Méthodes Mol. Biol. 1931, 121-140 (2019).
CAS PubMed Google Scholar
Przybylska-Balcerek, A., Frankowski, J. & Stuper-Szablewska, K. Composés bioactifs dans le sorgho. Euro. Rés alimentaire. Technol. 245, 1075-1080 (2019).
CAS Google Scholar
Paterson, AH et al. Le génome de Sorghum bicolor et la diversification des graminées. Nature 457, 551-556 (2009).
ADS CAS PubMed Google Scholar
McCormick, RF et al. Le génome de référence de Sorghum bicolor : assemblage amélioré, annotations de gènes, atlas du transcriptome et signatures de l'organisation du génome. Plant J. 93, 338–354 (2018).
CAS PubMed Google Scholar
Habyarimana, E. et al. Vers une culture de sorgho à biomasse pérenne : étude comparative des rendements en biomasse et de l'hivernage des lignées Sorghum bicolor x S. halepense par rapport aux essais à long terme de S. bicolor dans le nord de l'Italie. Biomasse Bioénergie 111, 187–195 (2018).
Google Scholar
Paterson, AH Génomique du sorgho. Int. J. Plante Génome. 2008, 1–6 (2008).
Google Scholar
Cox, TS et al. Sélection de cultures céréalières pérennes. Crit. Rév. Usine Sci. 21, 59–91 (2002).
Google Scholar
Cox, TS et al. Progrès dans la sélection des céréales pérennes. Culture Pâturage Sci. 61, 513–521 (2010).
Google Scholar
Cox, S., Nabukalu, P., Paterson, AH, Kong, W. & Nakasagga, S. Développement du sorgho à grains vivaces. Durabilité 10, 172 (2018).
Google Scholar
Piper, J. & Kulakow, P. Rendement en graines et répartition de la biomasse dans les générations Sorghum bicolor et F1 et rétrocroisement des hybrides S bicolor X S. halepense. Peut. J.Bot. 72, 468–474 (2011).
Google Scholar
Nabukalu, P. & Cox, TS Réponse à la sélection dans les premières étapes d'un programme de sélection de sorgho pérenne. Euphytica 209, 103–111 (2016).
CAS Google Scholar
Cox, S. et al. Forte proportion d'hybrides diploïdes produits par hybridation interspécifique diploïde × tétraploïde Sorgho. Genet. Resour. Culture Évol. 65, 387–390 (2018).
CAS Google Scholar
Dweikat, I. Un hybride diploïde, interspécifique et fertile du sorgho cultivé, Sorghum bicolor, et de la mauvaise herbe commune johnsongrass Sorghum halepense. Mol. Race. 16, 93-101 (2005).
Google Scholar
Batello, C. et al. Cultures pérennes pour la sécurité ALIMENTAIRE (FAO, 2014).
Google Scholar
Hallam, A., Anderson, IC & Buxton, DR Analyse économique comparative des cultures vivaces, annuelles et intercalaires pour la production de biomasse. Biomasse Bioénergie 21, 407–424 (2001).
Google Scholar
Moore, KJ et al. Régénérer les paysages agricoles avec un couvre-sol pérenne pour une production agricole intensive. Agronomie 9, 458 (2019).
Annonces CAS Google Scholar
Gramazio, P. et al. Le reséquençage du génome entier de sept accessions d'aubergines (Solanum melongena) et d'un parent sauvage (S. incanum) fournit de nouvelles informations et de nouveaux outils de sélection pour l'amélioration des aubergines. Devant. Usine Sci. 10, 1220 (2019).
PubMed PubMed Central Google Scholar
IBPGR et ICRISAT. Descripteurs du sorgho [Sorghum bicolor (L.) Moench]. (Conseil international des ressources phytogénétiques, 1993).
Wright, S. La structure génétique des populations. Anne. Eugène 15, 323–354 (1951).
MathSciNet CAS PubMed MATH Google Scholar
Wright, S. L'interprétation de la structure de la population par les statistiques F avec une attention particulière aux systèmes d'accouplement. Évolution 19, 395–420 (1965).
Google Scholar
Zheng, L.-Y. et coll. Modèles de variation génétique à l'échelle du génome dans le sorgho sucré et à grains (Sorghum bicolor). Génome Biol. 12, R114 (2011).
CAS PubMed PubMed Central Google Scholar
Ordonio, RL et al. La carence en gibbérelline induit de manière pléiotrope la courbure des chaumes du sorgho: un aperçu de la sélection semi-naine du sorgho. Sci. Rep. 4, 5287 (2014).
CAS PubMed PubMed Central Google Scholar
Gomez, KA & Gomez, AA Procédures statistiques pour la recherche agricole 2e éd. (Wiley-Interscience, 1984).
Google Scholar
Singh, M. & Kumar, S. Élargir la base génétique des céréales à grains. Springer Inde https://doi.org/10.1007/978-81-322-3613-9 (2016).
Article Google Scholar
Habyarimana, E., Dall'Agata, M., De Franceschi, P. & Baloch, FS Cartographie d'association à l'échelle du génome de la capacité antioxydante totale, des phénols, des tanins et des flavonoïdes dans un panel de Sorghum bicolor et S. bicolor × S. populations halepense à l'aide de modèles multi-locus. PLoS ONE 14, e0225979 (2019).
CAS PubMed PubMed Central Google Scholar
Pascual, L. et al. Potentiel d'une population MAGIC de tomate pour déchiffrer le contrôle génétique des traits quantitatifs et détecter les variantes causales à l'ère du reséquençage. Biotechnologie Végétale. J. 13, 565-577 (2015).
CAS PubMed Google Scholar
Guo, S. et al. Le projet de génome de la pastèque (Citrullus lanatus) et le reséquençage de 20 accessions diverses. Nat. Genet. 45, 51-58 (2013).
CAS PubMed Google Scholar
Zhou, Z. et al. Le reséquençage de 302 accessions sauvages et cultivées identifie des gènes liés à la domestication et à l'amélioration du soja. Nat. Biotechnol. 33, 408–414 (2015).
CAS PubMed Google Scholar
Causse, M. et al. Le reséquençage du génome entier de la tomate révèle des variations associées aux événements d'introgression et de reproduction. BMC Génom. 14, 791 (2013).
Google Scholar
Aflitos, S. et al. Exploration de la variation génétique dans le clade de la tomate (Solanum section Lycopersicon) par séquençage du génome entier. Plant J. 80, 136–148 (2014).
Google Scholar PubMed
Subbaiyan, GK et al. Polymorphismes d'ADN à l'échelle du génome chez les lignées de riz indica d'élite découverts par séquençage du génome entier. Biotechnologie Végétale. J. 10, 623–634 (2012).
CAS PubMed Google Scholar
Xu, X. et al. Le reséquençage de 50 accessions de riz cultivé et sauvage donne des marqueurs permettant d'identifier des gènes agronomiquement importants. Nat. Biotechnol. 30, 105-111 (2012).
CAS Google Scholar
Deschamps-Francoeur, G., Simoneau, J. & Scott, MS Gestion des lectures multi-cartographiées dans l'ARN-seq. Calcul. Structure. Biotechnol. J. 18, 1569-1576 (2020).
CAS PubMed PubMed Central Google Scholar
Kellogg, EA Histoire évolutive des graminées1. Physique Végétale. 125, 1198-1205 (2001).
CAS PubMed PubMed Central Google Scholar
Rakshit, S., Ganapathy, KN et Visarada, K. Cytogénétique du sorgho. Crit. Tour. Usine Sci. https://doi.org/10.1007/978-3-319-47789-3_3 (2016).
Article Google Scholar
Kim, C. et al. Application de la technologie de génotypage par séquençage à une variété de programmes de sélection de cultures. Usine Sci. 242, 14-22 (2016).
CAS PubMed Google Scholar
Yan, J. et al. Génotypage SNP à haut débit avec le test GoldenGate chez le maïs. Mol. Race. 25, 441-451 (2010).
Annonces CAS Google Scholar
Brozynska, M., Furtado, A. & Henry, RJ Génomique des espèces sauvages apparentées aux cultures : élargissement du pool génétique pour l'amélioration des cultures. Biotechnologie Végétale. J. 14, 1070-1085 (2016).
CAS PubMed Google Scholar
Lam, H.-M. et coll. Le reséquençage de 31 génomes de soja sauvage et cultivé identifie des modèles de diversité et de sélection génétiques. Nat. Genet. 42, 1053-1059 (2010).
CAS PubMed Google Scholar
Gao, L. et al. Le pan-génome de la tomate révèle de nouveaux gènes et un allèle rare régulant la saveur des fruits. Nat. Genet. 51, 1044-1051 (2019).
CAS PubMed Google Scholar
Dempewolf, H. et al. Utilisation passée et future de parents sauvages dans la sélection végétale. Culture Sci. 57, 1070-1082 (2017).
Google Scholar
Kong, W. et al. Cartographie des traits quantitatifs de l'architecture des plantes dans deux populations BC1F2 de Sorghum bicolor × S. halepense et comparaisons avec deux autres populations de sorgho. Théor. Appl. Genet. 134, 1185-1200 (2021).
CAS PubMed Google Scholar
Habyarimana, E. & Lopez-Cruz, M. Sélection génomique pour la production d'antioxydants dans un panel de lignées Sorghum bicolor et S. bicolor × S. halepense. Gènes 10, 841 (2019).
CAS PubMed Central Google Scholar
Habyarimana, E., Lopez-Cruz, M. & Baloch, FS Sélection génomique pour un indice optimal avec rendement en biomasse sèche, fraction de masse sèche de matière fraîche et hauteur de la plante dans la biomasse Sorgho. Gènes 11, 61 (2020).
CAS PubMed Central Google Scholar
McClean, PE et al. Structure de la population et différenciation génétique parmi la collection de base du haricot commun de l'USDA (Phaseolus vulgaris L.). Genet. Resour. Culture Évol. 59, 499-515 (2012).
Google Scholar
Rhodes, DH et al. Étude d'association à l'échelle du génome des concentrations de polyphénols de grains dans le germoplasme mondial du sorgho [Sorghum bicolor (L.) Moench]. J. Agric. Chimie alimentaire. 62, 10916–10927 (2014).
CAS PubMed Google Scholar
Rhodes, D., Gadgil, P., Perumal, R., Tesso, T. & Herald, TJ Étude de la variation naturelle et de l'association à l'échelle du génome des antioxydants dans une collection diversifiée de sorgho. Céréales Chim. J. 94, 190-198 (2017).
CAS Google Scholar
Ordonio, R., Ito, Y., Morinaka, Y., Sazuka, T. & Matsuoka, M. Sélection moléculaire du sorgho bicolore, une nouvelle culture énergétique. Int. Rév. Cellule Mol. Biol. Rév. 321, 221–257 (2016).
CAS PubMed Google Scholar
Konishi, M. & Sugiyama, M. Un nouveau gène spécifique à une plante, ROOT PRIMORDIUM DEFECTIVE 1, est nécessaire au maintien de la prolifération cellulaire active. Physique Végétale. 140, 591–602 (2006).
CAS PubMed PubMed Central Google Scholar
Zhou, X. et al. Le gène RETARDED ROOT GROWTH d'Arabidopsis code pour une protéine localisée dans les mitochondries nécessaire à la division cellulaire dans le méristème racinaire1[W]. Physique Végétale. 157, 1793–1804 (2011).
CAS PubMed PubMed Central Google Scholar
Hodnett, GL, S. Ohadi, NA Pugh, MV Bagavathiannan et Rooney, WL L'hybridation interspécifique Sorghum bicolor x S. halepense est influencée par la fréquence des gamètes 2n chez S. bicolor. Sci. Rep. 9, 17901 (2019).
ADS PubMed PubMed Central Google Scholar
Tiwari, KL, Jadhav, SK & Gupta, S. Technique CTAB modifiée pour l'isolement de l'ADN de certaines plantes médicinales. Rés. J. Med. Usine 6, 65–73 (2012).
CAS Google Scholar
Informations sur le phytozome : S. bicolor v3.1.1. https://phytozome-next.jgi.doe.gov/info/Sbicolor_v3_1_1.
Goodstein, DM et al. Phytozome : Une plateforme comparative pour la génomique des plantes vertes. Nucleic Acids Res. 40, D1178–D1186 (2012).
CAS PubMed Google Scholar
Li, H. & Durbin, R. Alignement de lecture rapide et précis avec la transformée de Burrows-Wheeler. Bioinformatique 25, 1754–1760 (2009).
CAS PubMed PubMed Central Google Scholar
Format SAM/BAM/CRAM. Analyse NGS https://learn.gencore.bio.nyu.edu/ngs-file-formats/sambam-format/ (2017).
Outils Picard : Par Broad Institute. http://broadinstitute.github.io/picard/.
Li, H. et al. Le format Sequence Alignment/Map et SAMtools. Bioinformatique 25, 2078-2079 (2009).
PubMed PubMed Central Google Scholar
McKenna, A. et al. La boîte à outils d'analyse du génome : un cadre MapReduce pour analyser les données de séquençage d'ADN de nouvelle génération. Génome Res. 20, 1297-1303 (2010).
CAS PubMed PubMed Central Google Scholar
Chen, K. et al. BreakDancer : Un algorithme pour la cartographie à haute résolution de la variation structurelle génomique. Nat. Méthodes 6, 677–681 (2009).
CAS PubMed PubMed Central Google Scholar
Li, R. et al. Détection SNP pour le reséquençage massivement parallèle du génome entier. Génome Res. 19, 1124-1132 (2009).
CAS PubMed PubMed Central Google Scholar
Murugesan, S., Goldberg, EB, Dou, E. & Brown, WJ Identification de divers motifs de ciblage de gouttelettes lipidiques dans la famille PNPLA des lipases triglycérides. PLoS ONE 8, e64950 (2013).
ADS CAS PubMed PubMed Central Google Scholar
Mi, H., Muruganujan, A., Casagrande, JT et Thomas, PD Analyse de la fonction génique à grande échelle avec le système de classification PANTHER. Nat. Protocole 8, 1551-1566 (2013).
PubMed PubMed Central Google Scholar
Tang, Y. et al. GAPIT Version 2 : Un outil intégré amélioré pour l'association et la prédiction génomique. Génome végétal https://doi.org/10.3835/plantgenome2015.11.0120 (2016).
Article PubMed Google Scholar
Équipe, RC R : Un langage et un environnement pour le calcul statistique (2014).
Liu, L. et al. Recherche originale : Une étude d'association cas-témoins à l'échelle du génome identifie des modificateurs génétiques de l'hémoglobine fœtale dans la drépanocytose. Exp. Biol. Méd. 241, 706–718 (2016).
CAS Google Scholar
Huang, Y.-F., Pologne, JA, Wight, CP, Jackson, EW et Tinker, NA Utilisation du génotypage par séquençage (GBS) pour la découverte génomique dans l'avoine cultivée. PLoS ONE 9, e102448 (2014).
ADS PubMed PubMed Central Google Scholar
Wang, Q., Tian, F., Pan, Y., Buckler, ES & Zhang, Z. Une méthode SUPER puissante pour l'étude d'association à l'échelle du génome. PLoS ONE 9, e107684 (2014).
ADS PubMed PubMed Central Google Scholar
Gower, JC Certaines propriétés de distance des méthodes de racine latente et de vecteur utilisées dans l'analyse multivariée. Biometrika 53, 325–338 (1966).
MathSciNet MATHGoogle Scholar
Télécharger les références
Institut international de recherche sur les cultures des tropiques semi-arides, Patancheru, 502 324, Telangana, Inde
Ephrem Habyarimana & Sunita Gorthy
Faculté des sciences et technologies agricoles, Université des sciences et technologies de Sivas, Sivas, Turquie
Faheem S. Baloch
Département d'horticulture, Faculté d'agriculture, Université Atatürk, 25240, Erzurum, Turquie
Sezai Ercisli
Département de biotechnologie, Université nationale de Chonnam, Chonnam, République de Corée
Gyuhwa Chung
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
EH : conceptualisation, méthodologie, enquête, conservation des données, logiciel, supervision, administration de projet, acquisition de financement, rédaction - préparation du projet original, visualisation. SG, EH, SE, FSB et GC : analyse formelle et rédaction—révision et édition. Tous les auteurs ont lu et accepté la version publiée du manuscrit.
Correspondance à Ephrem Habyarimana ou Gyuhwa Chung.
Les auteurs ne déclarent aucun intérêt concurrent.
Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.
Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.
Réimpressions et autorisations
Habyarimana, E., Gorthy, S., Baloch, FS et al. Le reséquençage du génome entier des lignées Sorghum bicolor et S. bicolor × S. halepense offre de nouvelles perspectives pour améliorer les caractéristiques agroécologiques des plantes. Sci Rep 12, 5556 (2022). https://doi.org/10.1038/s41598-022-09433-0
Télécharger la citation
Reçu : 02 novembre 2021
Accepté : 23 mars 2022
Publié: 01 avril 2022
DOI : https://doi.org/10.1038/s41598-022-09433-0
Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :
Désolé, aucun lien partageable n'est actuellement disponible pour cet article.
Fourni par l'initiative de partage de contenu Springer Nature SharedIt
En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.