Commit c452782f authored by Bertrand  NÉRON's avatar Bertrand NÉRON

replace info_replicon.dat by info_syst_annot.dat which contain new field "description"

parent 80662566
# Nouveautes:
Les 2 nouvelles colonnes "Gene-name" et "Description" sont à afficher dans le tableau.
J'ai constaté une erreur dans la colonne "Match": la valeur sctD2 n'existe plus, elle est remplacée par une valeur déjà existante. Par ailleurs j'ai changé les noms de gènes dans "Match", désormais ils commencent tous par une majusucule au lieu d'une minuscule. En effet la convention veut que les noms de protéines commencent par une majuscule.
J'ai annoté la ligne avec les noms de colonne, et le gène anormalement long que l'on avait constaté chez RHPP001p02.
# Ancien README_mobyle
Ci-joints deux fichiers de donnees a combiner pour avoir l'information pour chaque page statique. Ci-joints deux fichiers de donnees a combiner pour avoir l'information pour chaque page statique.
Ces deux fichiers sont tabules, la tabulation servant de separateur de champs. Un "header" démarre chaque fichier, les champs seront désignés par la suite par les noms de colonne correspondant précédé d'un "$". Je ne sais pas à ce stade à quel point je dois vous détailler ceci... J'ai filé le texte de description avec des questions sur les fonctionnalités que j'aurais souhaité implémenter. N'hésitez pas si vous avez des idées/propositions pour améliorer ça ! Ces deux fichiers sont tabules, la tabulation servant de separateur de champs. Un "header" demarre chaque fichier, les champs seront designes par la suite par les noms de colonne correspondant precede d'un "$". Je ne sais pas a ce stade a quel point je dois vous detailler ceci... J'ai file le texte de description avec des questions sur les fonctionnalites que j'aurais souhaite implementer. N'hesitez pas si vous avez des idees/propositions pour ameliorer ca !
La colonne $Replicon des deux fichiers sert a faire le lien entre les systemes detectes (dans "info_syst.dat") et les informations relatives a chaque genome correspondant (dans le fichier "info_replicon.dat"). La colonne $Replicon des deux fichiers sert a faire le lien entre les systemes detectes (dans "info_syst.dat") et les informations relatives a chaque genome correspondant (dans le fichier "info_replicon.dat").
Une page statique correspondra à un systeme detecte (valeurs differentes de la colonne $System-code de "info_syst.dat"). Une page statique correspondra a un systeme detecte (valeurs differentes de la colonne $System-code de "info_syst.dat").
Description des fichiers: Description des fichiers:
...@@ -20,30 +31,30 @@ Replicon type: $Replicon_type ...@@ -20,30 +31,30 @@ Replicon type: $Replicon_type
Replicon code: $Replicon Replicon code: $Replicon
""" """
Question1: Est-ce que l'on peut envisager de faire des champs "requetables"? Par exemple de faire des recherches sur le nom de la souche ($Strain) ? L'ideal serait que tous les champs précédents le soient, puis que la requete sorte une liste de liens vers les pages correspondantes? Question1: Est-ce que l'on peut envisager de faire des champs "requetables"? Par exemple de faire des recherches sur le nom de la souche ($Strain) ? L'ideal serait que tous les champs precedents le soient, puis que la requete sorte une liste de liens vers les pages correspondantes?
1) "info_syst.dat" 1) "info_syst.dat"
Ce fichier comporte les resultats de la recherche du systeme de secretion de type III (T3SS) dans tous les genomes de notre methode de detection. Les données sont classées par nom de $Replicon, puis de gène $Gene-code qui correspond aussi à leur ordre le long des génomes analysés. Ce fichier comporte les resultats de la recherche du systeme de secretion de type III (T3SS) dans tous les genomes de notre methode de detection. Les donnees sont classees par nom de $Replicon, puis de gene $Gene-code qui correspond aussi a leur ordre le long des genomes analyses.
L'information relative à un système détecté (comme un système correspond à plusieurs gènes à coté, sauf quelques cas) sera donc trouvé dans des lignes consécutives et qui portent le meme $System-code. L'information relative a un systeme detecte (comme un systeme correspond a plusieurs genes a cote, sauf quelques cas) sera donc trouve dans des lignes consecutives et qui portent le meme $System-code.
On souhaiterait donc la creation d'une page statique par valeur possible de $System-code. On souhaiterait donc la creation d'une page statique par valeur possible de $System-code.
Chaque ligne de ce fichier correspond à un gène (d'identifiant unique $Gene-code, mais on a aussi l'identifiant unique de Refseq $Gene-Id) faisant partie, ou aux bords d'un T3SS. La taille $Protein-length, le sens de transcription $Strand et la position génomique (quand elle est connue) $Begin et $End (de début et fin) de ce gène sont indiqués. Chaque ligne de ce fichier correspond a un gene (d'identifiant unique $Gene-code, mais on a aussi l'identifiant unique de Refseq $Gene-Id) faisant partie, ou aux bords d'un T3SS. La taille $Protein-length, le sens de transcription $Strand et la position genomique (quand elle est connue) $Begin et $End (de debut et fin) de ce gene sont indiques.
Si ce gène a eu un hit avec un de nos profils HMMer, les colonnes suivantes indiquent quel profil de gène a "matché" $Match, puis des valeurs de score et statistiques de Hmmer sont données. Enfin, chaque sytème détecté s'est vu phylogénétiquement attribué une famille de T3SS, c'est la colonne $T3SS-family Si ce gene a eu un hit avec un de nos profils HMMer, les colonnes suivantes indiquent quel profil de gene a "matche" $Match, puis des valeurs de score et statistiques de Hmmer sont donnees. Enfin, chaque syteme detecte s'est vu phylogenetiquement attribue une famille de T3SS, c'est la colonne $T3SS-family
Comme nous l'avons discuté, nous aimerions que ces donnees soient affichées: Comme nous l'avons discute, nous aimerions que ces donnees soient affichees:
- sous forme graphique (représentation graphique des résultats de détection le long du génome) - sous forme graphique (representation graphique des resultats de detection le long du genome)
- sous forme de tableau (présentation détaillée des résultats de Hmmer, des valeurs statistiques obtenues,...) - sous forme de tableau (presentation detaillee des resultats de Hmmer, des valeurs statistiques obtenues,...)
Je continue ma description d'une page type: Je continue ma description d'une page type:
Il faudrait donc faire apparaitre de façon graphique les resultats de la recherche, sous forme de rectangles contigus afin de représenter les gènes le long du génome (lignes successives d'un meme système). Pour certains des gènes (en fait pour tous sauf ceux de deux organismes) nous disposons du sens du gène (colonne $Strand). Dans le cas ou cette information serait disponible, serait-il possible de représenter le gène par un rectangle-flèche? Pour la valeur "D" (pour direct), cela correspondrait à une flèche allant de gauche à droite, tandis que pour la valeur "C" (complementary), à une flèche allant de droite à gauche. Il faudrait donc faire apparaitre de facon graphique les resultats de la recherche, sous forme de rectangles contigus afin de representer les genes le long du genome (lignes successives d'un meme systeme). Pour certains des genes (en fait pour tous sauf ceux de deux organismes) nous disposons du sens du gene (colonne $Strand). Dans le cas ou cette information serait disponible, serait-il possible de representer le gene par un rectangle-fleche? Pour la valeur "D" (pour direct), cela correspondrait a une fleche allant de gauche a droite, tandis que pour la valeur "C" (complementary), a une fleche allant de droite a gauche.
Attention, pour certains systèmes, tous les gènes d'un système ne sont pas contigus... (ce sont ceux dont le nom de système $System-code se termine par "p"). Dans ce cas les numéros (comptés de 10 en 10) contenus dand le champ $Gene-code ou $Gene-Id ne se suivent pas. Pourrait-on faire apparaitre graphiquement cela? Dans ce cas on pourrait soit ajouter un signe (comme "//") pour indiquer la césure dans les positions génomiques, ou encore imaginer de revenir à la ligne pour chaque "ilot" de gènes contigus. Attention, pour certains systemes, tous les genes d'un systeme ne sont pas contigus... (ce sont ceux dont le nom de systeme $System-code se termine par "p"). Dans ce cas les numeros (comptes de 10 en 10) contenus dand le champ $Gene-code ou $Gene-Id ne se suivent pas. Pourrait-on faire apparaitre graphiquement cela? Dans ce cas on pourrait soit ajouter un signe (comme "//") pour indiquer la cesure dans les positions genomiques, ou encore imaginer de revenir a la ligne pour chaque "ilot" de genes contigus.
Question2: Ce serait aussi intéressant de pouvoir attribuer une couleur par gène du système différent (valeur $Match), et pour les gènes ayant un $Match renseigné (différent de "-" qui désigne une valeur manquante) d'afficher le nom du gène ($Match) en noir au milieu du rectangle. Les rectangles des gènes sans valeur $Match resteraient alors vides. C'est possible? Question2: Ce serait aussi interessant de pouvoir attribuer une couleur par gene du systeme different (valeur $Match), et pour les genes ayant un $Match renseigne (different de "-" qui designe une valeur manquante) d'afficher le nom du gene ($Match) en noir au milieu du rectangle. Les rectangles des genes sans valeur $Match resteraient alors vides. C'est possible?
Question3: J'ai créé un schéma du système (en svg), serait-il possible de l'inclure en titre de page par exemple (à coté de la 1ère ligne d'en tete par exemple, ou meme d'un titre plus général), et faire correspondre les couleurs de ce schéma avec les couleurs des gènes dans les représenations graphiques des résultats discutées juste au-dessus? Question3: J'ai cree un schema du systeme (en svg), serait-il possible de l'inclure en titre de page par exemple (a cote de la 1ere ligne d'en tete par exemple, ou meme d'un titre plus general), et faire correspondre les couleurs de ce schema avec les couleurs des genes dans les represenations graphiques des resultats discutees juste au-dessus?
Après la représentation graphique du résultat, ce serait bien d'avoir un tableau avec les résultats détaillés, avec d'abord un titre: Apres la representation graphique du resultat, ce serait bien d'avoir un tableau avec les resultats detailles, avec d'abord un titre:
""" """
Summary of T3SS search for the system "$System-code" Summary of T3SS search for the system "$System-code"
......
This diff is collapsed.
This diff is collapsed.
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment