de Josh McMenemy

Programarea genomului cu CRISPR

Modul în care oamenii de știință editează genomurile cu ajutorul computerelor

Programarea genomului cu CRISPR

CRISPR (pronunțat „crisper”) face parte dintr-un sistem imunitar bacterian dezvoltat pentru a „aminti” și a elimina ADN-ul viral invadator.

Numele său este prescurtarea de la „Clustered Regular Interspaced Short Palindromic Repeats”. Dar, în ciuda plinei sale de acronim și a originilor biologice complexe, aplicația sa de inginerie este simplă. Pentru a începe, trebuie să înțelegeți o singură proteină – Cas9.

Cas9 caută o secvență de ADN specificată și o taie prin ruperea ambelor fire ale moleculei de ADN. Această proteină este utilă cercetătorilor, deoarece ei o pot „programa” pentru a viza orice secvență de ADN. O moleculă de ARNg sg (ARN „unic ghid”) determină secvența de care se leagă Cas9. ARN-ul este o moleculă biologică similară ADN-ului, care se poate lega de proteine ​​și ADN.

ARNg-urile sunt secvențe scurte cu regiune constantă și regiune variabilă. Regiunea constantă atașează sgRNA la proteina Cas9. Regiunea variabilă determină legarea Cas9 la secvența de ADN care o completează (vezi diagrama de mai jos).

1611449406 875 Programarea genomului cu CRISPR
Proteina Cas9 legată de ADN când secvența PAM se află pe catena înainte (de sus). Secvența aldină este secvența țintă, secvența verde este sgRNA, iar cele trei caractere albastre sunt PAM. Triunghiurile arată unde Cas9 va tăia ADN-ul.

Realizarea SGRNA este ieftină și rapidă. Acest lucru permite cercetătorilor să organizeze rapid un experiment Cas9 care să taie orice secvență de ADN. Ei bine, nu de fapt orice secvenţă. Există o mică constrângere: secvența țintă trebuie să fie flancată de PAM corect (motiv adiacent protospacer) – o scurtă secvență de ADN.

Streptococcus pyogenes este o specie infecțioasă de bacterii. În versiunea Cas9 pe care o produce, motivul PAM este „NGG”, unde N este orice nucleotidă („literele” care alcătuiesc ADN-ul).

Din fericire, motivul „NGG” apare aproximativ o dată la fiecare 42 de perechi de bază din genomul uman. Aceasta înseamnă că cercetătorii pot găsi un site țintă aproape aproape fiecare secvență de interes.

În funcție de configurația experimentală, aceste tăieturi în ADN pot provoca fie o schimbare aleatorie sau a schimbare precisă la secvența ADN (mai multe despre aceasta mai târziu).

Înainte de a intra în scrierea acestui program, vă recomand să studiați diagrama Cas9 de mai jos.

1611449407 86 Programarea genomului cu CRISPR
Proteina Cas9 legată de o secvență ADN atunci când secvența PAM se află pe catena inversă (de jos).

Rețineți că ADN-ul și ARN-ul au o direcționalitate bazată pe structura lor chimică. Un capăt al moleculei este denumit capătul 5 “(” cinci-prim “), iar celălalt este denumit capătul 3” (“trei-prim”). Acest lucru este important, deoarece secvențele 5` – AGG – 3` nu sunt aceleași cu 3` – AGG – 5`.

Prin convenție, se presupune că secvențele de ADN și ARN sunt scrise de la 5 ‘la 3’, cu excepția cazului în care se marchează altfel. Secvențele citite în direcția 5` – 3` sunt numite secvențe „înainte”. Secvențele citite în sens invers (3` – 5`) sunt numite secvențe „inversate”. Aceasta este o convenție arbitrară.

Diagrama de mai sus arată un exemplu de Cas9 legat atunci când PAM este pe firul invers (jos).

Primul dvs. program CRISPR

Scenariul

Un om de știință are o secvență ADN de interes și dorește o listă cu toate țintele CRISPR conținute în secvență. Găsirea manuală a fiecărei ținte este obositoare și predispusă la erori.

Omul de știință dorește un program simplu în care să poată introduce o secvență ADN și să li se returneze toate site-urile țintă Cas9 posibile. Oamenii de știință ar dori, de asemenea, poziția de tăiere și secvența PAM pentru fiecare sit țintă.

EXAMPLE INPUT (from Figure 1): 'CCACGGTTTCTGTAGCCCCATACTTTGGATG'
EXAMPLE OUTPUT: [{    'cut_pos': 6,    'pam_seq': 'TGG',    'target_seq': 'GTATGGGGCTACAGAAACCG',    'strand': 'reverse'  }, {    'cut_pos': 22,    'pam_seq': 'TGG',    'target_seq': 'GTTTCTGTAGCCCCATACTT',    'strand': 'forward'  }]

În primul rând, cum găsim ținte CRISPR în secvență? Amintiți-vă că proteina Cas9 se poate lega oriunde există un motiv „NGG”.

Primul pas este să parcurgeți secvența în căutarea potrivirilor. Când programul găsește o potrivire „NGG”, vrem să scădem trei poziții de la începutul site-ului PAM, deoarece acolo Cas9 taie ADN-ul.

Apoi, vrem să înregistrăm cele douăzeci de perechi de bază înainte de PAM ca secvență țintă. Suna bine?

Ei bine, algoritmul descris mai sus ar lipsi de fapt aproximativ jumătate din toate siturile CRISPR – deoarece ADN-ul este dublu catenar. Aceasta înseamnă că dacă un „CCN” este secvența de pe șuvița înainte, atunci „NGG” este secvența de pe șuvița inversă.

Programul trebuie, de asemenea, să caute „CCN” folosind o logică similară pentru firul invers.

Program de exemplu

Nu toate obiectivele CRISPR sunt egale

Când CRISPR a prins prima oară, cercetătorii adunau adesea o secvență pe computerul lor și alegeau ținte cu mâna. Proiectarea SGRNA optimă a devenit acum mult mai complexă. Mai jos sunt scurte introduceri ale acestei complexități.

În afara țintelor

Cercetătorii și-au dat seama curând că Cas9 se va lega și tăia uneori la loci care nu se potriveau exact cu secvența țintă. Aceste tăieri în afara țintei ar provoca modificări neintenționate în experimentul unui cercetător (sau potențial genomul unui pacient în cazul unei terapii!)

Pentru a proiecta un ghid bun, un program trebuie să analizeze întregul genom (care reprezintă aproximativ 3 miliarde de nucleotide pentru oameni) pentru a calcula un scor în afara țintei. Cercetătorii au făcut, de asemenea, recent a proiectat proteina Cas9 pentru a avea mai puțină activitate în afara obiectivelor.

Făcut praf

Când Cas9 se leagă, se creează o tăietură prin ruperea unei catenă duble la molecula de ADN. De cele mai multe ori, o celulă poate repara această rupere printr-o cale biochimică (numită îmbinare finală neomologă sau NHEJ).

Această cale nu este întotdeauna perfectă și, uneori, atunci când Cas9 taie, procesul de reparare face o mică inserție sau ștergere în secvența ADN. Într-o regiune a ADN-ului care codifică proteinele, aceste mici inserții și deleții provoacă o mutație framehift – care deseori va perturba funcția proteinei.

Cercetătorii vor elimina adesea o genă pentru a afla cum afectează o proteină o anumită funcție celulară sau fenotip. Crearea unei editări knockout adaugă constrângeri suplimentare designului sgRNA, deoarece acum ghidul trebuie să aterizeze în regiunea codificatoare a genei.

Editarea

În loc să bată o genă, de multe ori un om de știință vrea să facă o editare de precizie. Acest lucru este util mai ales atunci când încercăm să corectăm o boală care provoacă o mutație. Cel mai bun mod de a face acest lucru este încă în curs de cercetare. Majoritatea metodelor implică adăugarea o bucată suplimentară de ADN donator.

Scorul la țintă

Unele secvențe sgRNA vor face ca Cas9 să taie mai bine decât altele. Cercetătorii au a comparat eficiența tăierii peste mii de ținte Cas9 pentru a crea modele predictive ale eficienței tăierii unui SGRNA.

Microsoft acceptă chiar și un fișier depozit open source pentru „Modelarea predictivă bazată pe învățarea automată a eficienței ghidului CRISPR / Cas9”.

Alte sisteme CRISPR-Cas

Cercetătorii au a descoperit sistemele CRISPR-Cas în alte bacterii. Aceste alte sisteme au PAM-uri diferite.

Note finale

Sper că ai învățat ceva nou! Dacă doriți să aflați mai multe despre biologia, aplicațiile medicale, aplicațiile comerciale sau implicațiile etice ale ingineriei genomului CRISPR-Cas, atunci vă recomand să citiți O fisură în creație de Jennifer Doudna și Samuel Sternberg. Jennifer Doudna este una dintre descoperirile originale ale bazelor CRISPR.

Despre autor

Am fost anterior cercetător universitar în Gersbach Laborator la Universitatea Duke, iar în prezent sunt inginer software la o Synthego.