درباره ی پایگاه داده های مرکز ملی اطلاعات بیوتکنولوژی (NCBI)

National Center for Biotechnology Information) NCBIیک
National Center for Biotechnology Information) NCBIیک

درباره ی پایگاه داده های مرکز ملی اطلاعات بیوتکنولوژی (NCBI)

پایگاه داده های مرکز ملی اطلاعات بیوتکنولوژی NCBI (National Center for Biotechnology Information)  (https://www.ncbi.nlm.nih.gov/) یک مرکز تحقیقاتی وابسته به موسسه ملی بهداشت ایالات متحده (NIH) است که منابع مختلفی برای پژوهش‌های بیوتکنولوژی، زیست‌شناسی مولکولی، ژنتیک و دیگر شاخه‌های زیست‌پزشکی فراهم می‌کند. این منابع شامل پایگاه‌های داده، ابزارهای بیوانفورماتیک و نرم‌افزارهای مختلف است که پژوهشگران می‌توانند از آن‌ها برای تجزیه و تحلیل داده‌های زیستی استفاده کنند.

پایگاه داده مجموعه‌ای سازمان‌یافته از داده‌هاست که به گونه‌ای ذخیره شده‌اند که بتوان به‌راحتی به آن‌ها دسترسی پیدا کرد، آن‌ها را مدیریت کرد، به‌روزرسانی و جست‌وجو کرد. در حوزه‌هایی مثل ژنتیک، زیست‌مولکولی و بیوانفورماتیک، پایگاه داده‌ها شامل اطلاعات مهمی هستند مانند: توالی، عملکرد و ساختار ژن‌ها و پروتئین‌ها، داده‌های بیان ژن‌ها، جهش‌ها و بیماری‌های مرتبط و اطلاعات بالینی و اپی‌ژنتیکی.

 

فهرستی از دیتابیس‌های NCBI عبارتند از:

پایگاه‌های داده ژنومیک و ژنتیکی (Genomic & Genetic Data Repositories)  

Assembly: شامل ساختارهای ژنومی و فراداده‌های مربوطه است. این پایگاه شامل توالی‌های مونتاژ شده‌ی ژنوم است که به صورت کروموزومی یا اسکفولد مرتب شده‌اند. این دیتابیس به پژوهشگران کمک می‌کند تا به طور کامل ساختار ژنوم‌ها را مطالعه کنند و بررسی کنند که چگونه ژن‌ها در کروموزوم‌ها سازمان‌دهی شده‌اند.

GenBank: آرشیو عمومی توالی‌های DNA است. یکی از بزرگ‌ترین منابع باز توالی‌های ژنتیکی که توسط NCBI نگهداری می‌شود. این پایگاه برای محققان در سراسر جهان به عنوان منبعی برای دستیابی به توالی‌های DNA استفاده می‌شود و برای تحقیقات در زمینه‌های ژنتیک، زیست‌شناسی مولکولی و پزشکی کاربرد دارد.

Genome: مجموعه توالی‌های کامل ژنومی از گونه‌های مختلف. این پایگاه شامل توالی‌های کامل ژنوم برای انسان و سایر گونه‌ها است. پژوهشگران می‌توانند از این پایگاه برای مقایسه توالی‌های ژنوم‌های مختلف و تحلیل ویژگی‌های ژنتیکی گونه‌های مختلف استفاده کنند.

(GRC) Genome Reference Consortium: مسئول نگهداری و به‌روزرسانی ژنوم‌های مرجع انسان و موش است و نسخه‌های رسمی ژنوم را منتشر می‌کند. این پایگاه برای تحقیقاتی که به مقایسه و تجزیه‌وتحلیل توالی‌های ژنوم انسانی و موش نیاز دارند، بسیار مفید است.

DbSNP: اطلاعات مربوط به واریانت‌های ژنتیکی کوتاه مانند SNPها (تک‌نوکلئوتید پلی‌مورفیسم) و حذف/درج‌های کوچک را دربر می‌گیرد. این پایگاه برای شناسایی و تحلیل واریانت‌های ژنتیکی که می‌توانند به تفاوت‌های فردی یا بیماری‌ها مرتبط باشند، استفاده می‌شود.

DbVar: اطلاعات مربوط به واریانت‌های ساختاری ژنوم (مانند حذف‌های بزرگ، جابه‌جایی‌ها، وارونگی‌ها) را ارائه می‌دهد. این پایگاه به تحلیل واریانت‌های ساختاری که ممکن است بر ویژگی‌های فیزیکی یا بیماری‌های ژنتیکی تأثیر بگذارند، کمک می‌کند.

(dbGaP) database of Genotypes and Phenotypes: پایگاهی برای ذخیره و تحلیل مطالعات ارتباط ژنوتیپ-فنوتیپ از جمله مطالعات انجمن‌های گسترده ژنومی (GWAS) است. محققان می‌توانند از این پایگاه برای شناسایی ارتباطات میان ژن‌ها و ویژگی‌های فیزیکی یا بیماری‌ها (برای مثال، دیابت یا سرطان) استفاده کنند.

BioProject: نمای کلی از پروژه‌های پژوهشی ژنومیک. پروژه‌ها را با هم گروه‌بندی می‌کند و پیوندهایی به داده‌های مرتبط در پایگاه‌های دیگر می‌دهد. محققان می‌توانند پروژه‌های تحقیقاتی مرتبط با ژنومیک را جستجو کنند و به داده‌های اصلی آن‌ها دسترسی پیدا کنند.

BioSample: فراداده (متادیتا) مربوط به نمونه‌های زیستی مورد استفاده در پروژه‌های ژنومی و بیولوژیکی را نگهداری می‌کند. این پایگاه برای ذخیره اطلاعات مربوط به نمونه‌های زیستی مانند خون، بافت‌ها، یا سلول‌ها است که در پژوهش‌های ژنتیکی استفاده می‌شوند.

PopSet: مجموعه‌هایی از توالی‌های DNA که برای مقایسه بین افراد مختلف یا گونه‌های مختلف استفاده می‌شوند. معمولاً در مطالعات فیلوژنتیکی و ژنتیک جمعیت به کار می‌روند. این پایگاه به پژوهشگران در تحلیل تفاوت‌های ژنتیکی بین جمعیت‌ها و مطالعه تکامل و تنوع ژنتیکی در گونه‌های مختلف کمک می‌کند.

(SRA) Sequence Read Archive: پایگاهی برای ذخیره و به‌اشتراک‌گذاری داده‌های خام حاصل از تکنولوژی‌های توالی‌یابی نسل جدید (NGS). این پایگاه داده، شامل خوانش‌های خام توالی DNA یا RNA است که در مطالعات ژنوم، ترنسکریپتوم، اپی‌ژنوم و دیگر پروژه‌های توالی‌یابی استفاده می‌شود.  SRA به پژوهشگران امکان می‌دهد داده‌های اصلی آزمایش‌های توالی‌یابی را بازیابی و تحلیل کنند.

(ENA) European Nucleotide Archive: پایگاهی اروپایی برای ذخیره داده‌های خام توالی‌یابی، توالی‌های پردازش‌شده و حاشیه‌نویسی ژنومی. این پایگاه داده امکان ثبت، جستجو و بازیابی داده‌های پروژه‌های ژنومی را در سطح بین‌المللی فراهم می‌سازد و با پایگاه‌های NCBI-SRA و DDBJ هماهنگ است.

(DRA) DDBJ Sequence Read Archive: پایگاهی ژاپنی برای ثبت داده‌های خام حاصل از توالی‌یابی ژنوم یا ترنسکریپتوم. این پایگاه بخشی از شبکه جهانی تبادل داده‌های توالی است و با SRA و ENA در اشتراک‌گذاری داده‌ها هماهنگ عمل می‌کند. DRA ابزارهای لازم برای ارسال و جستجوی داده‌های NGS را فراهم می‌کند.

 

پایگاه‌های داده خاص ژن و پروتئین (Gene and Protein-Specific Resources)

Gene: داده‌های مربوط به ژن‌ها شامل عملکرد، موقعیت ژنی و ارتباطات آن‌ها با بیماری‌ها. این پایگاه برای تحقیقاتی که به بررسی ویژگی‌های عملکردی و موقعیت ژن‌ها و همچنین ارتباط آن‌ها با بیماری‌های مختلف نیاز دارند، بسیار مفید است.

(GEO) Gene Expression Omnibus: پایگاهی برای ذخیره و تحلیل داده‌های بیان ژن. این پایگاه داده برای تجزیه‌وتحلیل داده‌های بیان ژن در شرایط مختلف و شناسایی ژن‌های فعال در بیماری‌ها یا فرآیندهای زیستی مختلف کاربرد دارد.

Protein Database: داده‌های مربوط به توالی پروتئین و عملکرد آن‌ها. این پایگاه برای دسترسی به توالی‌های پروتئین و اطلاعات عملکردی آن‌ها به‌ویژه در مطالعات بیوشیمی و زیست‌شناسی مولکولی مفید است.

Protein Clusters: توالی‌های پروتئینی که از نظر عملکردی با یکدیگر مرتبط هستند. این پایگاه به محققان کمک می‌کند تا پروتئین‌های مشابه را بر اساس ویژگی‌های عملکردی و ساختاری گروه‌بندی کنند و مطالعه کنند.

 Identical Protein Groups: توالی پروتئینی که مشابه یکدیگر هستند. این پایگاه برای یکپارچه‌سازی و دسته‌بندی توالی‌های پروتئینی مشابه در گونه‌های مختلف یا نمونه‌های مختلف استفاده می‌شود.

Protein Family Models: گروه‌های همولوگ پروتئینی که به‌طور ساختاری و عملکردی مشابه هستند. این پایگاه برای شناسایی و تحلیل خانواده‌های پروتئینی استفاده می‌شود که در تکامل و عملکرد زیستی مشابه عمل می‌کنند.

(CCDS) Consensus Coding Sequence: توالی‌های کدگذاری با کیفیت بالا برای انسان و موش. این پایگاه برای تهیه توالی‌های کدگذاری ژنوم انسانی و موش، به‌ویژه برای کاربردهای پزشکی و مطالعات ژنتیکی دقیق، بسیار کاربردی است.

(CDD) Conserved Domain Database: الاینمنت‌های دامنه‌های پروتئینی. این پایگاه برای شناسایی و آنالیز دامنه‌های محافظت‌شده در پروتئین‌ها استفاده می‌شود که نقش‌های بیولوژیکی خاصی دارند و در بین گونه‌های مختلف حفظ شده‌اند.

 

پایگاه‌های داده تحقیقات بالینی و ترجمه‌ای (Clinical & Translational Research)

ClinVar: پایگاهی که واریانت‌های ژنتیکی انسان را به فنوتیپ‌ها (ویژگی‌های فیزیکی یا بیماری‌ها) لینک می‌کند. این پایگاه برای مطالعه ارتباط بین واریانت‌های ژنتیکی و بیماری‌ها یا ویژگی‌های فیزیکی استفاده می‌شود و به محققان و پزشکان کمک می‌کند تا ارتباطات میان ژن‌ها و اختلالات بالینی را بهتر درک کنند.

(OMIM) Online Mendelian Inheritance in Man: کاتالوگ جامع از ژن‌های انسان و اختلالات ژنتیکی. این پایگاه منبعی بسیار مفید برای پژوهشگران و پزشکان است تا اطلاعات کاملی در مورد اختلالات ژنتیکی، ژن‌ها، و وراثت بیماری‌های انسانی به دست آورند.

MedGen: مفاهیم ژنتیک پزشکی را به‌صورت تجمیعی ارائه می‌دهد. این پایگاه برای تجزیه‌وتحلیل و درک مفاهیم مختلف ژنتیک پزشکی مانند بیماری‌های ژنتیکی و تأثیرات آن‌ها بر فرد استفاده می‌شود.

 (GTR) Genetic Testing Registry: اطلاعات مربوط به آزمایش‌های ژنتیکی و آزمایشگاه‌هایی که این آزمایش‌ها را انجام می‌دهند. این پایگاه به پزشکان و محققان کمک می‌کند تا اطلاعات کاملی درباره آزمایش‌های ژنتیکی موجود و آزمایشگاه‌هایی که این آزمایش‌ها را انجام می‌دهند پیدا کنند.

ClinicalTrials.gov: ثبت‌نام جهانی از آزمایش‌های بالینی. این پایگاه برای جستجوی اطلاعات در مورد آزمایش‌های بالینی در سطح جهانی استفاده می‌شود. پژوهشگران می‌توانند اطلاعاتی در مورد طراحی و نتایج آزمایش‌های بالینی را از این پایگاه بدست آورند.

GeneReviews: راهنمایی‌های بالینی در زمینه ژنتیک. این پایگاه برای ارائه مشاوره بالینی در خصوص بیماری‌های ژنتیکی و ژن‌های مرتبط با آن‌ها به پزشکان و مشاوران ژنتیکی استفاده می‌شود.

 Genes and Disease: خلاصه‌هایی از بیماری‌ها و ارتباط آن‌ها با ژن‌ها. این پایگاه برای شناسایی و درک ارتباط بین بیماری‌های خاص و ژن‌های مربوط به آن‌ها بسیار مفید است و به پزشکان کمک می‌کند تا روش‌های درمانی مناسب‌تری برای بیماری‌های ژنتیکی پیشنهاد دهند.

 

پایگاه‌های داده متون علمی (Literature Databases)

PubMed: شامل اطلاعات کتابشناسی میلیون‌ها مقاله علمی در زمینه‌های پزشکی، زیستی، ژنتیکی و سایر علوم مرتبط است. این پایگاه شامل عنوان، چکیده، نویسنده‌ها، نام ژورنال، تاریخ انتشار و سایر فراداده‌های مقالات است. پژوهشگران از این دیتابیس برای جستجوی منابع علمی، بررسی پیشینه تحقیق، یافتن مطالعات مشابه و استناددهی استفاده می‌کنند.

 

PubMed Central (PMC): نسخه‌ای تکمیل‌کننده برای PubMed است که متن کامل مقالات علمی را به صورت رایگان در اختیار کاربران قرار می‌دهد. این پایگاه منبعی ارزشمند برای دسترسی آزاد به متون کامل پژوهش‌های علمی منتشرشده در ژورنال‌های معتبر است و امکان تحلیل دقیق‌تر و استفاده مستقیم از داده‌های مقاله را فراهم می‌سازد.

 

Bookshelf: شامل کتاب‌ها و منابع مرجع علمی معتبر در زمینه‌های پزشکی و علوم زیستی است. این پایگاه داده امکان مطالعه فصل‌به‌فصل کتاب‌های علمی و راهنماهای پژوهشی را به صورت رایگان فراهم می‌کند و برای درک مفاهیم پایه‌ای و تئوری‌های گسترده در یک حوزه بسیار مفید است.

 

(MeSH) Medical Subject Headings: پایگاه داده اصطلاحات کنترل‌شده و استانداردشده‌ای است که برای طبقه‌بندی موضوعی مقالات در PubMed استفاده می‌شود. پژوهشگران با کمک MeSH می‌توانند کلیدواژه‌های دقیق‌تر و مرتبط‌تری برای جستجوی مقاله‌ها انتخاب کنند و جستجوی خود را هدفمندتر و تخصصی‌تر کنند.

 

NLM Catalog: این پایگاه شامل اطلاعات کتابشناسی مربوط به ژورنال‌ها و کتاب‌هایی است که در PubMed نمایه شده‌اند. محققان می‌توانند از این منبع برای شناسایی ناشران، اطلاعات ISSN، دامنه موضوعی ژورنال‌ها و ویژگی‌های منابع علمی استفاده کنند.

 

نگارنده: فاطمه السادات حقیقی، دانشجوی دکترای تخصصی پزشکی مولکولی