다음은 서울대학교 생명과학부 천종식 교수 연구실의 학부생 인턴을 위한 정보입니다.
참고할 온라인 강의
- Prokaryotic Taxonomy and Microbiome
- Machine Learning, Data Science and Deep Learning with Python
- Dan
Knights’s Microbiome Lecture Series - MIT Computational Biology: Genomes, Networks, Evolution, Health – Fall 2018 – 6.047/6.878/HST.507
- Stonehill College Rob Harbert 교수 강의
추천하는 선수 과목
- 미생물학 1, 2
- 미생물 계통분류학 및 실험
- 생물학자를 위한 전산학 개론
- 면역학
- 자료구조 (컴퓨터공학부)
- 알고리즘 (컴퓨터공학부)
- 기초통계학
- 선형대수학(자연대 전공)
- 수리통계 1, 2
Computational skill
- python 3
- python을 처음 배우는 학생은 https://www.udemy.com/ 에서 한글 강좌가 많으니 그걸 듣기바랍니다.
- https://www.codecademy.com/learn/learn-python-3
- https://www.anaconda.com/
- https://jupyter.readthedocs.io/en/latest/install.html
- R package
- MariaDB 등의 SQL database
- Linux
Projects
1. Analyzing microbiome data from different intestinal regions of mice with/without probiotics treatment
Background
생쥐는 인간과 다른 종류의 세균으로 구성된 마이크로바이옴을 가지고 있지만, 기능적으로 유사하므로 마이크로바이옴 모델로 많이 사용된다. 본 과제에서는 Zmora et al. (2018; Cell)의 발표된 데이터 중 일부를 이용한다. 아래에 공유된 자료에 다음의 데이터가 들어있다.
- 같은 조건에서 키운 생쥐 (C57BL/6 male 27 days)이며, 한마리는 probiotics 처리를 하였으며, 한마리는 처리 하지 않았다 (naive). 파일에 각각
- Sequencing data는 EzBioCloud의 표준 pipeline으로 분석되었으며, 사용된 taxonomy database는 2018.05 (=PKSSU4.0)이다. 이 DB는 다음에서 다운로드가 가능
- Taxonomic profile의 결과는 json (XXX_tax.json)으로 저장. Sequencing 한 region에 대한 정보와 alpha-diversity 등의 자세한 정보는 json file에 포함
- PICRUst 알고리즘으로 KEGG Ortholog와 Pathway를 예측한 파일은 각각 XXX_kegg.json으로 저장
Tips
- Taxonomic profile과 이를 이용해 prediction한 KEGG functional profile은 각각 json format으로 되어 있음. json은 text파일이므로 text editor로 열거나, json을 특별히 보여주는 프로그램으로 내용을 볼 수 있음.
- json file은 적절한 라이브러리를 이용하여 parsing 할 수 있음 (python의 예).
- Taxonomic profile은 sequencing 16S region에 맞는 EzBioCloud DB로 만든 것과 모든 region에 맞는 DB로 만든 것이 존재. 앞의 profile은 “profile” 필드에 뒤의 것은 “generalized_profile”에 저장되어 있음. region이 같은 profile은 사용한 DB가 같으므로, “profile”로 서로 비교가 가능. 만약 region이 다르면 “generalized_profile”를 사용해야함. 예, “region” : “V3V4” – 이 경우엔 region이 “V3V4″이며 “region” : “V4” 와는 직접 비교할 수 없기때문에 “generalized_profile”을 사용해야함.
Tasks
- json 파일로 부터 Bacteroidetes phylum의 ratio를 뽑아내는 프로그램을 작성하세요.
- Naive mouse의 feces에 가장 많은 genus를 찾아, 모든 부위에 대한 ratio를 추출해보세요.
- 앞의 2번에 찾는 genus를 장관계의 순서에 따로 naive와 probiotics에 대해서 Matplotlib를 이용해서 plot하세요.
최종 수정 2018년 11월 30일