UniProt
H UniProt είναι μια ελεύθερα προσβάσιμη βάση δεδομένων αλληλουχίας πρωτεϊνών και λειτουργικών πληροφοριών γύρω από αυτές. Πολλές πληροφορίες εντός αυτής προέρχονται από έργα αλληλουχίας γονιδιώματος. Επιπλέον, περιέχει μεγάλο όγκο πληροφοριών σχετικά με τη βιολογική λειτουργία των πρωτεϊνών που προέρχονται από την ερευνητική βιβλιογραφία. Συντηρείται από την κοινοπραξία με το όνομα UniProt, η οποία αποτελείται από αρκετούς ευρωπαϊκούς οργανισμούς βιοπληροφορικής και ένα ίδρυμα από την Ουάσιγκτον, DC, Ηνωμένες Πολιτείες.
Περιεχόμενο | |
---|---|
Περιγραφή | Βάση δεδομένων. |
Αντικείμενο | Αλληλουχίες πρωτεϊνών και λειτουργικών πληροφοριών γύρω από αυτές. |
Επαφή | |
Ερευνητικό κέντρο |
|
Πρόσβαση | |
Ιστοσελίδα | https://www.uniprot.org/ |
Εργαλεία | |
Διαδικτυακή εφαρμογή | Advanced search, BLAST, ClustalO, bulk retrieval/download, ID mapping |
Διάφορα | |
Άδεια | Creative Commons,
Attribution-NoDerivs (Ελεύθερη χρήση περιεχομένου χωρίς αλλαγές αυτού. Πρέπει να γίνεται αναφορά στην πηγή προέλευσης πάντα.) |
Συνδέσεις |
Η κοινοπραξία UniProt
ΕπεξεργασίαΗ κοινοπραξία UniProt συμπεριλαμβάνει το Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής (European Bioinformatics Institute-EBI), το Ελβετικό Ινστιτούτο Βιοπληροφορικής (Swiss Institute of Bioinformatics-SIB) και την Protein Information Resource (PIR). Το EBI, που βρίσκεται στο Wellcome Trust Genome Campus στο Hinxton (UK) φιλοξενεί μια μεγάλη πηγή βάσεων δεδομένων και υπηρεσιών βιοπληροφορικής. Η SIB, που βρίσκεται στη Γενεύη της Ελβετίας, διατηρεί τους διακομιστές ExPASy (Expert Protein Analysis System) που αποτελούν κεντρικό πόρο για εργαλεία και βάσεις δεδομένων πρωτεωμικής. Το PIR, που φιλοξενείται από το Εθνικό Ίδρυμα Βιοϊατρικής Έρευνας (National Biomedical Research Foundation -NBRF) στο Ιατρικό Κέντρο του Πανεπιστημίου Georgetown στην Ουάσιγκτον, DC, είναι η συνέχεια της παλαιότερης βάσης δεδομένων αλληλουχιών πρωτεϊνών, του ''Margaret Dayhoff's Atlas of Protein Sequence and Structure'', που δημοσιεύθηκε για πρώτη φορά το 1965.[1]Το 2002, οι EBI, SIB και PIR συνενώθηκαν ως κοινοπραξία UniProt.[2]
Οι πηγές των βάσεων δεδομένων UniProt
ΕπεξεργασίαΚάθε ένα από τα μέλη συμμετέχουν σε μεγάλο βαθμό στη συντήρηση της βάσης δεδομένων των πρωτεϊνών. Μέχρι πρόσφατα, η EBI και η SIB είχαν δημιουργήσει από κοινού τις βάσεις δεδομένων Swiss-Prot και TrEMBL, ενώ το PIR δημιούργησε την Protein Sequence Database(PIR-PSD).[3][4][5]
Η Swiss-Prot δημιουργήθηκε το 1986 από τον Amos Bairoch, κατά τη διάρκεια της διδακτορικής διατριβής του, εξελίχθηκε αρχικά από το Ινστιτούτο Βιοπληροφορικής της Ελβετίας(Swiss Institute of Bioinformatics) και στη συνέχεια από τον Rolf Apweiler στο Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής(European Bioinformatics Institute).[6][7][8]Η Swiss-Prot είχε ως στόχο να παρέχει αξιόπιστες πρωτεϊνικές αλληλουχίες που σχετίζονται με υψηλό επίπεδο σήμανσης (όπως η περιγραφή της λειτουργίας μιας πρωτεΐνης, η δομή της, οι μετα-μεταφραστικές τροποποιήσεις, οι παραλλαγές κ.λπ.). Αναγνωρίζοντας ότι τα δεδομένα αλληλουχιών παράγονταν με ρυθμό που υπερέβαινε τις δυνατότητες της βάσης δεδομένων Swiss-Prot, δημιουργήθηκε η TrEMBL (Translated EMBL Nucleotide Sequence Data Library) για να παρέχει αυτοματοποιημένες σημάνσεις για εκείνες τις πρωτεΐνες που δεν βρισκόταν στην Swiss-Prot. Εν τω μεταξύ, η PIR διατήρησε την PIR-PSD και άλλες σχετικές βάσεις δεδομένων, συμπεριλαμβανομένης της iProClass, μιας βάσης δεδομένων με αλληλουχίες πρωτεϊνών.
Τα μέλη της κοινοπραξίας συγκέντρωσαν τους επικαλυπτόμενες πηγές και την τεχνογνωσία τους και κυκλοφόρησαν την UniProt τον Δεκέμβριο του 2003.[9]
Οργάνωση των βάσεων δεδομένων UniProt
ΕπεξεργασίαΤο UniProt παρέχει τέσσερις κύριες βάσεις δεδομένων: UniProtKB (υποτμήματα Swiss-Prot και TrEMBL), UniParc, UniRef.
UniProtKB
ΕπεξεργασίαΤο UniProt Knowledgebase (UniProtKB) είναι μια βάση δεδομένων πρωτεϊνών που επιμελείται από ειδικούς, η οποία αποτελείται από δύο μέρη: UniProtKB/Swiss-Prot (που περιέχει ελεγμένες καταχωρήσεις) και UniProtKB/TrEMBL (που περιέχει μη ελεγμένες καταχωρήσεις[10]).
UniParc
ΕπεξεργασίαΤο UniProt Archive (UniParc) είναι μια ολοκληρωμένη βάση δεδομένων, η οποία περιέχει όλες τις πρωτεϊνικές αλληλουχίες από τις κύριες, δημόσια διαθέσιμες βάσεις αλληλουχιών πρωτεϊνών.[11] Οι πρωτεΐνες μπορεί να υπάρχουν σε πολλές διαφορετικές βάσεις δεδομένων και σε πολλαπλά αντίγραφα στην ίδια βάση δεδομένων. Το UniParc αποθηκεύει κάθε μοναδική ακολουθία μόνο μία φορά. Οι ίδιες αλληλουχίες συγχωνεύονται, ανεξάρτητα από το αν είναι από το ίδιο ή διαφορετικό είδος. Σε κάθε αλληλουχία δίνεται ένα σταθερό και μοναδικό αναγνωριστικό (UPI), που καθιστά δυνατή την ταυτοποίηση της ίδιας πρωτεΐνης από διαφορετικές πηγές βάσεως δεδομένων. Οι παραπομπές στις βάσεις δεδομένων για τις εγγραφές UniParc επιτρέπουν την ανάκτηση περαιτέρω πληροφοριών σχετικά με την πρωτεΐνη από την αρχική βάση δεδομένων. Όταν αλλάζουν οι ακολουθίες στις βάσεις προέλευσης, αυτές οι αλλαγές συγχρονίζονται στο UniParc και το ιστορικό όλων των αλλαγών αρχειοθετείται.
UniRef
ΕπεξεργασίαΤο UniRef αποτελείται από τρεις βάσεις δεδομένων ταξινομημένων ομάδων πρωτεϊνικών αλληλουχιών από το UniProtKB και επιλεγμένες καταχωρήσεις από το UniParc.[12] Το UniRef είναι διαθέσιμο στην σελίδα UniProt FTP site.
Χρηματοδότηση
ΕπεξεργασίαΗ UniProt χρηματοδοτείται από επιχορηγήσεις του Εθνικού Ινστιτούτου Έρευνας Ανθρώπινου Γονιδιώματος, των Εθνικών Ινστιτούτων Υγείας, της Ευρωπαϊκής Επιτροπής, της Ομοσπονδιακής Κυβέρνησης της Ελβετίας μέσω του Ομοσπονδιακού Γραφείου Εκπαίδευσης και Επιστήμης και του Υπουργείου Άμυνας των ΗΠΑ.[13]
Βιβλιογραφία
Επεξεργασία- ↑ Dayhoff, Margaret O. (1965). Atlas of protein sequence and structure. Silver Spring, Md: National Biomedical Research Foundation.
- ↑ "2002 Release: NHGRI Funds Global Protein Database". National Human Genome Research Institute (NHGRI). Retrieved 14 April 2018.
- ↑ O'Donovan, C. (2002-01-01). «High-quality protein knowledge resource: SWISS-PROT and TrEMBL» (στα αγγλικά). Briefings in Bioinformatics 3 (3): 275–284. doi: . ISSN 1467-5463. https://academic.oup.com/bib/article-lookup/doi/10.1093/bib/3.3.275.
- ↑ Wu, C. H. (2003-01-01). «The Protein Information Resource». Nucleic Acids Research 31 (1): 345–347. doi: . PMID 12520019. PMC PMC165487. https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gkg040.
- ↑ Boeckmann, B. (2003-01-01). «The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003». Nucleic Acids Research 31 (1): 365–370. doi: . PMID 12520024. PMC PMC165542. https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gkg095.
- ↑ Bairoch, A (1996-01-01). «The SWISS-PROT protein sequence data bank and its new supplement TREMBL». Nucleic Acids Research 24 (1): 21–25. doi: . PMID 8594581. PMC PMC145613. https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/24.1.21.
- ↑ Bairoch, A. (2000-01-01). «Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times!» (στα αγγλικά). Bioinformatics 16 (1): 48–64. doi: . ISSN 1367-4803. https://academic.oup.com/bioinformatics/article-lookup/doi/10.1093/bioinformatics/16.1.48.
- ↑ Séverine Altairac, "Naissance d’une banque de données: Interview du prof. Amos Bairoch". Protéines à la Une, August 2006. ISSN 1660-9824.
- ↑ Apweiler, Rolf; Bairoch, Amos; Wu, Cathy H (2004-02). «Protein sequence databases» (στα αγγλικά). Current Opinion in Chemical Biology 8 (1): 76–80. doi:. https://linkinghub.elsevier.com/retrieve/pii/S136759310300173X.
- ↑ The UniProt Consortium (2010-01-01). «The Universal Protein Resource (UniProt) in 2010» (στα αγγλικά). Nucleic Acids Research 38 (suppl_1): D142–D148. doi: . ISSN 0305-1048. PMID 19843607. PMC PMC2808944. https://academic.oup.com/nar/article/38/suppl_1/D142/3112216.
- ↑ Leinonen, R.; Diez, F. G.; Binns, D.; Fleischmann, W.; Lopez, R.; Apweiler, R. (2004-11-22). «UniProt archive» (στα αγγλικά). Bioinformatics 20 (17): 3236–3237. doi: . ISSN 1367-4803. https://academic.oup.com/bioinformatics/article-lookup/doi/10.1093/bioinformatics/bth191.
- ↑ Suzek, B. E.; Huang, H.; McGarvey, P.; Mazumder, R.; Wu, C. H. (2007-05-15). «UniRef: comprehensive and non-redundant UniProt reference clusters» (στα αγγλικά). Bioinformatics 23 (10): 1282–1288. doi: . ISSN 1367-4803. https://academic.oup.com/bioinformatics/article-lookup/doi/10.1093/bioinformatics/btm098.
- ↑ «The Universal Protein Resource (UniProt) in 2010». Nucleic Acids Research 38 (Database issue): D142–D148. 2010-1. doi: . ISSN 0305-1048. PMID 19843607. PMC 2808944. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2808944/.