2. Analiza komórek w cytofluorymetrii
przepływowej przy pomocy narzędzi
Data Mining
serwera SQL 2012
Marcin Szeliga
3. MarcinSzeliga:Bio.ToPP()
• +15 lat doświadczenia
z serwerem SQL
• Trener & konsultant
• Autor książek i artykułów
• SQL Microsoft
Most Valuable Professional
(od 2006)
• Microsoft Specialist
(od 2000)
4. Cele projektu
• Wykazanie przydatności automatycznej analizy danych zebranych w FCM
− FCM jest podstawową techniką identyfikacji subpopulacji komórek w szpiku kostnym i
krwi obwodowej, służącą do ustalenia diagnozy oraz monitorowania leczenia w
różnego typu białaczkach
• Segmentacja danych pod kątem obecności nieprawidłowych
subpopulacji komórek
• Automatyczna klasyfikacja znalezionych subpopulacji i ich opis
statystyczny
• Wyszukiwanie komórek nie pasujących do klastrów komórek
prawidłowych, z ich oceną ilościową i statystyczną
• Monitorowanie leczenia i ocena tzw. choroby resztkowej
• Ocena zmian subpopulacji komórek u tego samego pacjenta w trakcie
leczenia
4
Prezentacja Betacom S.A.
5. Proces eksploracji danych
Zrozumienie Poznanie
problemu danych
Przygotowanie
danych
Dane
Wdrożenie
Utworzenie
modeli
Ocena
wyników
5
6. Problem
• Jak wybrać charakterystyczne komórki?
− Metoda bramkowania jest nieobiektywna
− Bramki wyznaczane są arbitralnie przez osobę przeprowadzającą
analizę
− Bramki ustawiane są sekwencyjnie, co prowadzi do utraty
cennych danych
− Ryzyko przeoczenia istotnych dla diagnozy i monitorowania
leczenia danych
− Bramkowanie nie umożliwia analizy złożonych danych
− Standardem stają się badania jednocześnie 6-9 antygenów
− Interakcje pomiędzy badanymi czynnikami są tak złożone, że
metody analizy przy użyciu dwuwymiarowych wykresów
punktowych zawodzą
• Jak oceniać efekty leczenia?
− Eliminując z analizy 99% danych zmniejszamy
szansę wykrycia choroby resztkowej
6
Prezentacja Betacom S.A.
7. Dane
• Dane źródłowe zebrano przy użyciu 9-kanałowego
cytofluorymetru o 18-bitowej rozdzielczości:
− 17 pacjentów z białaczką (2 266 440 komórek)
− 17 pacjentów w remisji (1 248 712 komórek)
• Oprócz pacjentów w remisji oraz z ostrą białaczką
limfoblastyczną, dane źródłowe pochodziły również od
pacjentów na różnym etapie leczenia
− U kilku z nich procent komórek białaczkowych nie
przekraczał 3%
• Ocena poprawności i reprezentatywności danych
źródłowych
• Wyeliminowanie błędnych danych
7
Prezentacja Betacom S.A.
8. Model wyboru komórek
Dane źródłowe
Eliminacja błędów
FSC-A < 250000 Około 15%
SSC-A < 200000
Pierwsza segmentacja Około 80%
(FSC-A, SSC-A, CD19) Klastry
CD19-
Klastry CD19+ i CD19++
(Leukemia 67% Remission 36%)
Właściwa segmentacja
(Wszystkie zmienne)
8
Prezentacja Betacom S.A.
9. Model oceny komórek
Właściwa segmentacja
(Wszystkie zmienne)
Klastry Klastry
Klastry komórek
typowych komórek
aberrantnych
komórek mieszanych
Ocena porównawcza (wykresy)
Klasyfikacja
Komórki Komórki
typowe aberrantne
9
Prezentacja Betacom S.A.
10. Zastosowanie modeli w diagnostyce
Dane pacjenta
Eliminacja błędów FSC-A < 250000 SSC-A < 200000 30%
Sprawdzenie przynależności do klastrów 65%
CD19+ lub CD19++ Komórki CD19-
1%
Wykrycie nietypowych komórek
Komórki nietypowe
Sprawdzenie przynależności do głównych klastrów
Klastry komórek Klastry komórek
białaczkowych Klastry typowych komórek
mieszanych
Klasyfikacja
Komórki typowe Komórki białaczkowe
10
Prezentacja Betacom S.A.
11. Ocena wyników
• Ogólna dokładność modelu wyniosła ponad 82%
− Docelowo dokładność przekroczy 90%
• Wiarygodność poprawnych klasyfikacji wyniosła 99,7%
• Wiarygodność błędnych klasyfikacji wyniosła 98,7%
− Dla większej i bardziej zróżnicowanej grupy pacjentów może spaść o kilka
procent
• Przydatność:
− Analiza skupień komórek pozwoliła osiągnąć wyniki co najmniej tak samo
dobre jak dotychczas stosowane metody bramkowania
− Możliwość wiarygodnego opisu statystycznego zidentyfikowanych
subpopulacji komórek (w tym ich liczebności)
− Możliwość określenia prawdopodobieństwa przynależności danej komórki
do znalezionych klastrów
− Zastosowana metoda pozwoliła nie tylko wyselekcjonować abberrantne
i białaczkowe komórki, ale również podać powód i stopień ich
nietypowości
11
Prezentacja Betacom S.A.
12. Dziękując Państwu za olbrzymie zainteresowanie polską premierą Microsoft SQL
Server 2012, firma Microsoft wspólnie z wydawnictwem Helion przygotowała dla
Państwa 300 egzemplarzy* darmowego e-booka „SQL Server. Modelowanie i
eksploracja danych”.
Aby pobrać e-booka, należy wejść na stronę http://helion.pl/sqlserver2012.phtml
a następnie:
1.Zalogować się (lub zarejestrować, jeżeli nie macie Państwo konta w
wydawnictwie Helion)
2.Wpisać kod promocyjny Microsoft „NowaGwiazdaSQLServer2012” –
uwzględniając duże litery
3.Pobrać książkę w dogodnym dla Państwa formacie.
*oferta ważna do wyczerpania zapasów
Mamy nadzieję, że lektura e-booka jeszcze bardziej
przybliży Państwu możliwe obszary zastosowania SQL Server
do modelowania i eksploracji danych
W imieniu zespołu Microsoft Server & Tools
dr Sławomir Strzykowski
Application Platform Product Manager
slaweks@microsoft.com
SQLDay 2012