Skip to content
Snippets Groups Projects
Commit 893885de authored by Bertrand  NÉRON's avatar Bertrand NÉRON
Browse files

remove old file

parent 3e399b4b
No related branches found
Tags v1.1.181205ac
No related merge requests found
# Nouveautes:
Les 2 nouvelles colonnes "Gene-name" et "Description" sont à afficher dans le tableau.
J'ai constaté une erreur dans la colonne "Match": la valeur sctD2 n'existe plus, elle est remplacée par une valeur déjà existante. Par ailleurs j'ai changé les noms de gènes dans "Match", désormais ils commencent tous par une majusucule au lieu d'une minuscule. En effet la convention veut que les noms de protéines commencent par une majuscule.
J'ai annoté la ligne avec les noms de colonne, et le gène anormalement long que l'on avait constaté chez RHPP001p02.
# Ancien README_mobyle
Ci-joints deux fichiers de donnees a combiner pour avoir l'information pour chaque page statique.
Ces deux fichiers sont tabules, la tabulation servant de separateur de champs. Un "header" demarre chaque fichier, les champs seront designes par la suite par les noms de colonne correspondant precede d'un "$". Je ne sais pas a ce stade a quel point je dois vous detailler ceci... J'ai file le texte de description avec des questions sur les fonctionnalites que j'aurais souhaite implementer. N'hesitez pas si vous avez des idees/propositions pour ameliorer ca !
La colonne $Replicon des deux fichiers sert a faire le lien entre les systemes detectes (dans "info_syst.dat") et les informations relatives a chaque genome correspondant (dans le fichier "info_replicon.dat").
Une page statique correspondra a un systeme detecte (valeurs differentes de la colonne $System-code de "info_syst.dat").
Description des fichiers:
2) "info_replicon.dat"
Ce fichier comporte les informations necessaires a la creation des en-tetes de chaque page.
Exemple d'en-tete d'une page:
"""
Results of T3SS search in $Strain
Taxonomic ID: $Taxid
Full taxonomy: $Taxonomy
Replicon type: $Replicon_type
Replicon code: $Replicon
"""
Question1: Est-ce que l'on peut envisager de faire des champs "requetables"? Par exemple de faire des recherches sur le nom de la souche ($Strain) ? L'ideal serait que tous les champs precedents le soient, puis que la requete sorte une liste de liens vers les pages correspondantes?
1) "info_syst.dat"
Ce fichier comporte les resultats de la recherche du systeme de secretion de type III (T3SS) dans tous les genomes de notre methode de detection. Les donnees sont classees par nom de $Replicon, puis de gene $Gene-code qui correspond aussi a leur ordre le long des genomes analyses.
L'information relative a un systeme detecte (comme un systeme correspond a plusieurs genes a cote, sauf quelques cas) sera donc trouve dans des lignes consecutives et qui portent le meme $System-code.
On souhaiterait donc la creation d'une page statique par valeur possible de $System-code.
Chaque ligne de ce fichier correspond a un gene (d'identifiant unique $Gene-code, mais on a aussi l'identifiant unique de Refseq $Gene-Id) faisant partie, ou aux bords d'un T3SS. La taille $Protein-length, le sens de transcription $Strand et la position genomique (quand elle est connue) $Begin et $End (de debut et fin) de ce gene sont indiques.
Si ce gene a eu un hit avec un de nos profils HMMer, les colonnes suivantes indiquent quel profil de gene a "matche" $Match, puis des valeurs de score et statistiques de Hmmer sont donnees. Enfin, chaque syteme detecte s'est vu phylogenetiquement attribue une famille de T3SS, c'est la colonne $T3SS-family
Comme nous l'avons discute, nous aimerions que ces donnees soient affichees:
- sous forme graphique (representation graphique des resultats de detection le long du genome)
- sous forme de tableau (presentation detaillee des resultats de Hmmer, des valeurs statistiques obtenues,...)
Je continue ma description d'une page type:
Il faudrait donc faire apparaitre de facon graphique les resultats de la recherche, sous forme de rectangles contigus afin de representer les genes le long du genome (lignes successives d'un meme systeme). Pour certains des genes (en fait pour tous sauf ceux de deux organismes) nous disposons du sens du gene (colonne $Strand). Dans le cas ou cette information serait disponible, serait-il possible de representer le gene par un rectangle-fleche? Pour la valeur "D" (pour direct), cela correspondrait a une fleche allant de gauche a droite, tandis que pour la valeur "C" (complementary), a une fleche allant de droite a gauche.
Attention, pour certains systemes, tous les genes d'un systeme ne sont pas contigus... (ce sont ceux dont le nom de systeme $System-code se termine par "p"). Dans ce cas les numeros (comptes de 10 en 10) contenus dand le champ $Gene-code ou $Gene-Id ne se suivent pas. Pourrait-on faire apparaitre graphiquement cela? Dans ce cas on pourrait soit ajouter un signe (comme "//") pour indiquer la cesure dans les positions genomiques, ou encore imaginer de revenir a la ligne pour chaque "ilot" de genes contigus.
Question2: Ce serait aussi interessant de pouvoir attribuer une couleur par gene du systeme different (valeur $Match), et pour les genes ayant un $Match renseigne (different de "-" qui designe une valeur manquante) d'afficher le nom du gene ($Match) en noir au milieu du rectangle. Les rectangles des genes sans valeur $Match resteraient alors vides. C'est possible?
Question3: J'ai cree un schema du systeme (en svg), serait-il possible de l'inclure en titre de page par exemple (a cote de la 1ere ligne d'en tete par exemple, ou meme d'un titre plus general), et faire correspondre les couleurs de ce schema avec les couleurs des genes dans les represenations graphiques des resultats discutees juste au-dessus?
Apres la representation graphique du resultat, ce serait bien d'avoir un tableau avec les resultats detailles, avec d'abord un titre:
"""
Summary of T3SS search for the system "$System-code"
Phylogenetically predicted to belong to the $T3SS-family T3SS sub-type.
"""
Suivi du tableau (j'ai mis ici l'en-tete, puis les valeurs de champs correspondantes):
"""
Gene-code Gene-Id Protein-length Strand Begin End Match Full-score E-value Best-domain-score Best-domain-evalue C-value Coverage-profile Match-begin Match-end
$Gene-code $Gene-Id $Protein-length $Strand $Begin $End $Match $Full-score $E-value $Best-domain-score $Best-domain-evalue $C-value $Coverage-profile $Match-begin $Match-end
"""
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment