<div><span class="Apple-style-span" style="font-family: arial, sans-serif; font-size: 13px; border-collapse: collapse; ">Below is the summary of declarations of intentions for Ensembl</span></div><div><span class="Apple-style-span" style="font-family: arial, sans-serif; font-size: 13px; border-collapse: collapse; ">release 60. Please note these are intentions and are not guaranteed<br>
to be in the release, which is currently scheduled for the 26th of October.<br><br>Regards,<br><br></span></div><div><span class="Apple-style-span" style="font-family: arial, sans-serif; font-size: 13px; border-collapse: collapse; ">William McLaren</span></div>
<div><br></div><div><br></div><div><span class="Apple-style-span" style="font-family: arial, sans-serif; font-size: 13px; border-collapse: collapse; ">====================================================<br>Summary of declarations of intentions for Ensembl 60<br>
====================================================</span></div><div><br></div><div><div>### Compara</div><div><br></div><div># Families</div><div>- Updated MCL families including all Ensembl transcript isoforms and newest</div>
<div>  Uniprot Metazoa</div><div>- Clustering by MCL</div><div>- Multiple Sequence Alignments with MAFFT</div><div>- Family stable ID mapping</div><div><br></div><div># Gene Homologies</div><div>- GeneTrees with new/updated genebuilds and assemblies</div>
<div>- Updated build of ncRNA trees</div><div>- Clustering using hcluster_sg</div><div>- Multiple Sequence Alignments using consistency-based MCoffee meta-aligner</div><div>  (mafftgins+muscle+kalign+probcons) and exon-skipping aware "skipper" algorithm</div>
<div>- Homology inference including the recent 'possible_ortholog' type and 'putative</div><div>  gene split' and 'contiguous gene split' exceptions</div><div>- Pairwise gene-based dN/dS calculations for high coverage species pairs only</div>
<div>- GeneTree stable ID mapping</div><div><br></div><div># Pairwise Alignments</div><div><br></div><div>-- Lastz-net alignments</div><div>- H.sap-A.mel</div><div>- H.sap-O.cun</div><div>- C.fam-A.mel</div><div><br></div>
<div>-- Blat-alignments</div><div>- H.sap-D.rer</div><div>- M.mus-D.rer</div><div>- R.nor-D.rer</div><div>- G.gal-D.rer</div><div>- T.rub-D.rer</div><div>- D.rer-X.tro</div><div>- C.int-D.rer</div><div>- C.sav-D.rer</div>
<div>- G.acu-D.rer</div><div>- O.lat-D.rer</div><div>- D.rer-T.nig</div><div><br></div><div>-- Non-reference alignments for human vs high coverage blastz-net alignments</div><div>- H.sap-P.tro</div><div>- H.sap-G.gor</div>
<div>- H.sap-P.pyg</div><div>- H.sap-M.mul</div><div>- H.sap-M.mus</div><div>- H.sap-R.nor</div><div>- H.sap-C.fam</div><div>- H.sap-B.tau</div><div>- H.sap-S.scr</div><div>- H.sap-E.cab</div><div>- H.sap-O.ana</div><div>
- H.sap-M.dom</div><div>- H.sap-G.gal</div><div><br></div><div># Multiple alignments</div><div>- 34 way epo low coverage</div><div>- 14 way epo eutherian mammals</div><div>- 5 way epo fish</div><div><br></div><div># Synteny</div>
<div>- H.sap-C.jac</div><div>- H.sap-O.cun</div><div><br></div><div><br></div><div><br></div><div>### Core</div><div><br></div><div># Ontology database</div><div>- A new ontology database ("ensembl_ontology_60") will be built using the latest</div>
<div>  data from GO and SO.</div><div><br></div><div># Gene name and GO term projections</div><div>- Gene names and GO xrefs will be projected from species where there is high</div><div>  coverage to species where there is lower coverage. Panda will be included as a</div>
<div>  target for these projections.</div><div><br></div><div># external database references</div><div>- Update external database references for human, mouse and Xenopus</div><div><br></div><div># GO Xrefs are now Ontology Xrefs</div>
<div>- The go_xref table is renamed to ontology_xref. The Bio::EnsEMBL::GoXref Perl</div><div>  module is renamed to Bio::EnsEMBL::OntologyXref.</div><div><br></div><div><br></div><div><br></div><div>### Funcgen</div><div>
<br></div><div># Array Mapping</div><div>- The array mapping pipeline will be run for those species which have new</div><div>  assemblies, gene build or new array designs. This includes an update to the</div><div>  latest version of the Phalanx OneArray for human.</div>
<div><br></div><div># BindingMatrix</div><div>- A new BindingMatrix class will represent position weight matrices (PWMs)</div><div>  loaded from Jaspar or inferred directly from Chip-Seq data. This will</div><div>  ultimately be able to identify the consequence of a sequence change at a given</div>
<div>  location, with respect to the PWM score. patch_59_60_c.sql contains the</div><div>  relevant changes to update the schema to support this data.</div><div><br></div><div># MotifFeature</div><div>- A new MotifFeature class has been added to represent the genomic mapping of a</div>
<div>  position weight matrix (BindingMatrix). patch_59_60_c.sql contains the</div><div>  relevant schema updates.</div><div><br></div><div># Schema patch: Schema version</div><div>- patch_59_60_a.sql updates the meta table, changing the schema_version</div>
<div>  meta_value to 60.</div><div><br></div><div># Schema patch: associated_feature_type</div><div>- patch_59_60_b.sql updates the associated_feature_type table to support</div><div>  feature_type to feature_type associations. The relevant adaptors have also</div>
<div>  been updated to reflect the new table fields and values.</div><div><br></div><div># RegulatoryBuild update</div><div>- The human RegulatoryBuild has been updated and re-annotated based on the new</div><div>  ChIP-Seq data sets.</div>
<div><br></div><div># Position Weight Matrix (PWM) mapping and visualisation</div><div>- PWM mappings which used to be associated with the RegulatoryFeatures, are now</div><div>  associated with the AnnotatedFeatures representing the specific =</div>
<div>  Transcription Factor Binding Site predictions. This utilises the new</div><div>  MotifFeature and BindingMatrix classes. These new data are available as new</div><div>  tracks in the Regulation panel as well as Region in Detail.</div>
<div><br></div><div># New chip-seq datasets from ENCODE</div><div>- 93 new ENCODE Chip-Seq datasets for existing cell lines will be added.</div><div><br></div><div># probe_feature.cigar_line patch</div><div>- patch_59_60_d.sql The probe_feature table has been patched to change the</div>
<div>  cigar_line field to a varchar from a free text field.</div><div>Species: Anole lizard, Cow, C.elegans, Marmoset, Dog, Guinea Pig, Sloth,</div><div>C.intestinalis, C.savignyi, Zebrafish, Armadillo, Kangaroo rat, Fly, Tenrec,</div>
<div>Horse, Hedgehog, Cat, Chicken, Stickleback, Gorilla, Human, Elephant, Macaque,</div><div>Wallaby, Mouse Lemur, Opossum, Mouse, Microbat, Pika, Platypus, Rabbit, Medaka,</div><div>Bushbaby, Chimp, Orangutan, Rock Hyrax, Megabat, Rat, Yeast, Shrew, Ground</div>
<div>Squirrel, Pig, Zebra Finch, Fugu, Tarsier, Tetraodon, Tree Shrew, Dolphin,</div><div>Alpaca, Xenopus, Panda</div><div><br></div><div><br></div><div><br></div><div>### Genebuild</div><div><br></div><div># Update to human vega annotation</div>
<div>- An update to Vega human annotation</div><div><br></div><div># Gencode gene set update</div><div>- Update to the Ensembl/Havana Gencode gene set using the latest Vega gene set.</div><div><br></div><div># Human cDNA update</div>
<div>- Updated set of cDNA alignments to the human genome.</div><div><br></div><div># Rabbit chromosomes</div><div>- Chromosome mapping added for the rabbit genome Coordinates updated accordingly</div><div><br></div><div>
# Human (GRCh37) assembly patch release 2</div><div>- Addition of the GRCh37 patch release 2 patches. These are toplevel,</div><div>  non-reference regions of the assembly.</div><div><br></div><div># Updated human otherfeatures db: EST alignments</div>
<div>- Human ESTs were realigned. New EST-based genes were produced from these EST</div><div>  alignments.</div><div><br></div><div># Panda genebuild</div><div>- The first genebuild for the panda genome</div><div><br></div>
<div># Update human otherfeatures db: new CCDS import</div><div>- Update to CCDS set for human</div><div><br></div><div># Updated mouse otherfeatures db: New CCDS import</div><div>- Update to CCDS set for mouse</div><div>
<br></div><div># cDNA based gene annotation of human assembly patches</div><div>- Annotate the human assembly patches using Exonerate's cDNA2genome model, which</div><div>  aligns cDNAs to the genome using annotation identifying the coding regions of</div>
<div>  the cDNAs.</div><div><br></div><div># Zebrafish genebuild</div><div>- Full genebuild on the new Zv9 assembly</div><div><br></div><div># Mouse cDNA update</div><div>- Updated set of cDNA alignments to the mouse genome</div>
<div><br></div><div># Flagging Translation attribute where the evidence was removed</div><div>- Add a flag to the translation where a human Ensembl translation used as</div><div>  evidence was removed from the current human database.</div>
<div>Species: Sloth, Armadillo, Kangaroo rat, Tenrec, Hedgehog, Cat, Wallaby, Mouse</div><div>Lemur, Microbat, Pika, Bushbaby, Chimp, Rock Hyrax, Megabat, Shrew, Ground</div><div>Squirrel, Tarsier, Tree Shrew, Dolphin, Alpaca</div>
<div><br></div><div># Flagging Translation attribute where the Uniprot evidence was removed</div><div>- Add a flag to the translation where a supporting evidence from Uniprot was</div><div>  removed from Uniprot database</div>
<div>Species: Anole lizard, Cow, C.elegans, Marmoset, Dog, Guinea Pig, Sloth,</div><div>C.intestinalis, C.savignyi, Zebrafish, Armadillo, Kangaroo rat, Fly, Tenrec,</div><div>Horse, Hedgehog, Cat, Chicken, Stickleback, Gorilla, Human, Elephant, Macaque,</div>
<div>Wallaby, Mouse Lemur, Opossum, Mouse, Microbat, Pika, Platypus, Rabbit, Medaka,</div><div>Bushbaby, Chimp, Orangutan, Rock Hyrax, Megabat, Rat, Yeast, Shrew, Ground</div><div>Squirrel, Pig, Zebra Finch, Fugu, Tarsier, Tetraodon, Tree Shrew, Dolphin,</div>
<div>Alpaca, Xenopus, Panda</div><div><br></div><div># Updating the ENCODE excluded regions</div><div>- Update of the ENCODE excluded regions</div><div><br></div><div># Fix duplicate transcript attributes</div><div>- Duplicate transcript attributes removed</div>
<div>Species: Anole lizard, Armadillo, Chicken, Human, Mouse, Platypus, Zebra Finch</div><div><br></div><div># homo_sapiens rnaseq data</div><div>- Rnaseq data from transcriptome sequencing done by illumina on human tissues</div>
<div>  will be provided in a stand-alone database, ie no mart / compara</div><div>  relationships.</div><div><br></div><div><br></div><div><br></div><div>### Mart</div><div><br></div><div># Ensembl marts for release 60</div>
<div>- Full build of the seven marts: Ensembl Mart, SNP Mart, Functional Genomics</div><div>  Mart, Genomic Features Mart, Ontology Mart, Vega Mart, Sequence Mart</div><div><br></div><div><br></div><div><br></div><div>### Variation</div>
<div><br></div><div># Data</div><div>- update of UniProt identifier links including phenotype information </div><div>- import of new information from NHGRI and EGA Genome Wide Association Studies</div><div>- import of new data sets for structural variants from DGVa</div>
<div>- import of an expanded data set for all short somatic sequence variants from</div><div>  COSMIC </div><div>- GVF (Genome Variation Format) dumps for all variants</div><div>- update of variant consequences for new human gene set </div>
<div>- update of variant consequences for new zebrafish assembly and gene set </div><div>- import new set of 150,000 Zebrafish variants</div><div><br></div><div># API and schema change</div><div>- schema change for ensembl genomes to store the population size for each</div>
<div>  frequency calculation</div></div>