Một vấn đề lớn trong dự án Giải mã Bộ gen người

Dự án Giải mã Bộ gen người, bắt đầu vào những năm 1990, là nỗ lực to lớn của con người trong việc vẽ bản đồ toàn bộ DNA của loài chúng ta. Dự án đã tạo ra bộ gen tham chiếu của con người, một bộ sưu tập DNA của con người được sắp xếp một cách tinh vi, đóng vai trò rất quan trọng cho các nghiên cứu di truyền và xét nghiệm di truyền trên khắp thế giới. 

(Ảnh: Shutterstock)

Sự toàn vẹn của bộ gen có ý nghĩa rất quan trọng đối với cộng đồng khoa học, nhưng hai nhà nghiên cứu tại Đại học Johns Hopkins đã phát hiện ra rằng bộ gen người tham chiếu đang thiếu một hoặc hai đoạn – chính xác là 296.485.284 cặp bazơ của ADN.

Bộ gen tham chiếu là một bản đồ thiết yếu về vật liệu di truyền của con người được sử dụng làm cơ sở để so sánh. Khi chúng ta sắp xếp chuỗi DNA của chính mình để hiểu rõ hơn về sức khỏe, tiền sử gia đình và nguy cơ mắc bệnh trong tương lai, chúng ta cắt chuỗi thành nhiều phần nhỏ và so sánh các đoạn của nó với bộ gen tham chiếu, tìm kiếm những khu vực khác nhau. Các nhà khoa học đã viết trong một bài báo năm 2018 trên tạp chí Nature Genetics:

Vấn đề cơ bản là bộ gen tham chiếu phần lớn dựa trên một người duy nhất. 

Xét cùng vô số sự khác biệt về gen giữa 7,7 tỷ người  Trái Đất hiện nay, điều này rõ ràng không lý tưởng cho lắm.

Giáo sư, tiến sĩ khoa học máy tính và thống kê sinh học Steven Salzberg, và Rachel Sherman, một nghiên cứu sinh Tiến sĩ, cho rằng bộ gen tham chiếu duy nhất này không nắm bắt được sự đa dạng của di truyền học con người. Thêm nữa, một số quần thể khác biệt quá nhiều so với bộ gen tham chiếu này. Để chứng minh luận điểm của mình, họ tham khảo bộ gen của 910 cá nhân từ hai mươi quốc gia khác nhau, tất cả đều là người gốc Phi.

Trong DNA của những cá nhân này, nhóm nghiên cứu đã tìm thấy 300 triệu đoạn DNA phổ biến không tồn tại trong bộ gen “tham chiếu”. Salzberg nói, nếu chúng ta bỏ qua số lượng lớn những vật liệu di truyền này, chắc chắn chúng ta sẽ bỏ lỡ những hiểu biết quan trọng về sức khỏe và lịch sử của các quần thể dân cư cụ thể. Họ cũng là con người, vì vậy họ không nên được thể hiện trong bộ gen tham chiếu “con người” sao?

“Những vùng [vật liệu di truyền] này về cơ bản là vô hình đối với cộng đồng di truyền học cho đến khi chúng ta có một bộ gen tham chiếu bao gồm những vùng đó” Salzberg nói với trang Inverse.

Vấn đề với bộ gen tham chiếu

Trong những năm qua, chúng ta đã liên tục chỉnh sửa bộ gen tham chiếu. Nhưng phân tích gần đây chỉ ra rằng gần 70% vật liệu di truyền của nó được thu thập từ một cá nhân người Mỹ gốc Phi duy nhất, người được đánh mã số RPCI-11, Salzburg giải thích.

Điều đó có nghĩa là khi các nhà khoa học thực hiện phân tích di truyền để xác định sự khác biệt giữa các quần thể đa dạng từ khắp nơi trên thế giới, trong hầu hết trường hợp, họ chỉ so sánh các bộ gen đó với vật liệu di truyền của một người. Điều này khiến chúng ta thường bỏ qua những vật liệu có thể quá khác với vật liệu tham chiếu này, Sherman cho biết. Cô gọi chúng là “những mảnh ghép còn thiếu”.

“Khi bạn sắp xếp liên tiếp các bộ gen, sẽ có những phần không giống nhau chút nào vì chúng quá khác biệt, không thể khớp với bất kỳ thứ gì từ bộ gen tham chiếu.” Sherman nói. “Sau đó, bạn bỏ qua tất cả những thứ không giống nhau vì chúng không thực sự liên quan hoặc không thực sự đáng quan tâm. Nhưng có thể đây thực sự là những phần cần được quan tâm nhiều nhất vì chúng khác biệt nhất với bộ gen tham chiếu.”

Trong nghiên cứu, Sherman và Salzberg đã lấy một lượng lớn vật liệu di truyền “khác biệt” này (dài khoảng 1.000 cặp bazơ) và cố gắng xác định xem liệu chúng chỉ đại diện cho các chuỗi gen lỗi ngẫu nhiên hay thực sự nắm giữ các thông tin hữu ích về DNA vốn chưa được khám phá của con người.

Nhóm nghiên cứu đã đi đến kết luận rằng DNA “mới” này có chất lượng đủ cao để đảm bảo vượt qua lần kiểm tra thứ hai, mặc dù họ chưa biết tầm quan trọng của nó đối với cơ thể con người.

Hậu quả là gì?

Sherman cho biết, cho đến nay chúng ta không thực sự biết mình bỏ qua điều gì khi bỏ qua các  DNA không được thể hiện trong bộ gen tham chiếu. Nhưng ai biết chúng ta có thể tìm thấy gì ở đó nếu chúng ta xem xét kỹ?

Salzberg gợi ý rằng chúng ta thử tưởng tượng một quần thể giả tưởng có thêm một nhiễm sắc thể – 24 thay vì 23 như bình thường trong mỗi tế bào. Không có gì trong nhiễm sắc thể bổ sung từ quần thể này phù hợp với bộ gen tham chiếu. Có thể, các đột biến ở đâu đó trên nhiễm sắc thể ẩn đó, là lý do tại sao nhóm dân cư hư cấu có xu hướng phát triển một loại bệnh nhất định – và tại sao phần còn lại của thế giới lại không bị. Nhưng vì chúng ta không có vật liệu tham chiếu phù hợp để so sánh, chúng ta sẽ không bao giờ biết nó có ở đó.


“Nếu thỉnh thoảng có những đột biến trong nhiễm sắc thể đó gây ra vấn đề, bạn sẽ không bao giờ có thể nghiên cứu chúng,” Salzberg nói. “Bạn sẽ không bao giờ có thể quan sát chúng nếu chỉ dựa vào bộ gen tham chiếu [đơn lẻ] này”.

Hãy nói rõ: nghiên cứu này không cung cấp bằng chứng về một số nhiễm sắc thể chưa được phát hiện. Nhưng điều đó cho thấy rằng có lẽ chúng ta còn thiếu nhiều thứ khi sử dụng một bộ gen tham chiếu duy nhất từ ​​một người nào đó được đánh số RPCI-11 làm cơ sở cho tất cả các phân tích về ADN của toàn bộ loài chúng ta.

Làm thế nào để khắc phục?

Nhóm nghiên cứu lập luận, thay vì cố gắng cho một bộ gen tham chiếu phổ quát duy nhất, chúng ta nên có một loạt các bộ gen tham chiếu – có lẽ là một bộ gen cho mỗi quần thể dân cư.

Sherman nói: “Điều chúng tôi ủng hộ với phát hiện này là: chúng ta thực sự cần phải xây dựng các bộ gen tham chiếu cho mỗi quần thể. Nếu có nhiều DNA bị thiếu trong bộ gen tham chiếu trong quần thể này, thì mô hình cần phải thay đổi.”

Một số quốc gia đã dựa vào nội lực để cố gắng tạo ra các bộ gen tham chiếu của riêng họ. Ví dụ, vào cuối năm 2018, Đan Mạch đã tổng hợp vật liệu di truyền từ 150 người Đan Mạch trong nỗ lực tạo ra bộ gen tham chiếu “Đan Mạch” thực sự.

Một bài báo năm 2016 trên tạp chí Nature mô tả nỗ lực tạo bộ gen tham chiếu cho các cá nhân Hàn Quốc, mặc dù bài báo đó cũng chỉ mô tả nghiên cứu được thực hiện trên một người. Nhưng các dự án khác, như Dự án quốc tế về 1.000 bộ gen người, cũng đang cố gắng bắt đầu quá trình này. Có rất nhiều việc để tạo ra một vật liệu tham chiếu được sửa lỗi tốt như phiên bản bộ gen hiện tại, được gọi là GRCh38.

Không phải các nhà nghiên cứu không biết rằng chúng ta cần nhiều bộ gen tham chiếu hơn. Salzberg chỉ hy vọng rằng bây giờ sẽ có nhiều bộ gen người hơn nữa và ít nhất chúng sẽ được chấp nhận rộng rãi như là các bộ gen tham chiếu tiêu chuẩn.

Bài báo than thở rằng chưa có nỗ lực nào trong số những nỗ lực này đạt được vị thế và tầm ảnh hưởng như bộ gen tham chiếu GRCh38 – mặc dù đó là mục tiêu dự án Đan Mạch đang hướng tới.

Trong tương lai, Sherman và Salzberg đang tự mình bắt đầu dự án này, bằng cách xây dựng một số bộ gen tham chiếu bổ sung, mà họ hy vọng sẽ phát hành sau một đến hai năm. Họ đang tìm cách bắt đầu tạo một thư viện gồm các bộ gen tham chiếu để giúp mọi người có được cái nhìn sâu sắc nhất về các vật liệu di truyền của bản thân họ, bất kể nó “khác biệt” như thế nào.

“Những gì chúng ta thực sự cần phải có là hàng trăm bộ gen tham chiếu” ông nói thêm. “Điều đó sẽ xảy ra vào một ngày nào đó.”

Nguồn: TT - Theo Emma Betuel/ Inverse.com