NASI SPONSORZY I PARTNERZY




       DZIĘKUJEMY!
Analiza komórek w cytofluorymetrii
przepływowej przy pomocy narzędzi
            Data Mining
         serwera SQL 2012
         Marcin Szeliga
MarcinSzeliga:Bio.ToPP()

• +15 lat doświadczenia
  z serwerem SQL
• Trener & konsultant
• Autor książek i artykułów
• SQL Microsoft
  Most Valuable Professional
  (od 2006)
• Microsoft Specialist
  (od 2000)
Cele projektu


  • Wykazanie przydatności automatycznej analizy danych zebranych w FCM
        − FCM jest podstawową techniką identyfikacji subpopulacji komórek w szpiku kostnym i
          krwi obwodowej, służącą do ustalenia diagnozy oraz monitorowania leczenia w
          różnego typu białaczkach
  • Segmentacja danych pod kątem obecności nieprawidłowych
    subpopulacji komórek
  • Automatyczna klasyfikacja znalezionych subpopulacji i ich opis
    statystyczny
  • Wyszukiwanie komórek nie pasujących do klastrów komórek
    prawidłowych, z ich oceną ilościową i statystyczną
  • Monitorowanie leczenia i ocena tzw. choroby resztkowej
  • Ocena zmian subpopulacji komórek u tego samego pacjenta w trakcie
    leczenia



                                                                                               4
  Prezentacja Betacom S.A.
Proces eksploracji danych


        Zrozumienie                   Poznanie
         problemu                      danych




                                                 Przygotowanie
                                                    danych
                              Dane

         Wdrożenie

                                                  Utworzenie
                                                    modeli

                             Ocena
                            wyników




5
Problem

 •     Jak wybrać charakterystyczne komórki?
       −      Metoda bramkowania jest nieobiektywna
             −      Bramki wyznaczane są arbitralnie przez osobę przeprowadzającą
                    analizę
       −      Bramki ustawiane są sekwencyjnie, co prowadzi do utraty
              cennych danych
             −      Ryzyko przeoczenia istotnych dla diagnozy i monitorowania
                    leczenia danych
       −      Bramkowanie nie umożliwia analizy złożonych danych
             −      Standardem stają się badania jednocześnie 6-9 antygenów
             −      Interakcje pomiędzy badanymi czynnikami są tak złożone, że
                    metody analizy przy użyciu dwuwymiarowych wykresów
                    punktowych zawodzą
 •     Jak oceniać efekty leczenia?
       −      Eliminując z analizy 99% danych zmniejszamy
               szansę wykrycia choroby resztkowej




                                                                                    6
 Prezentacja Betacom S.A.
Dane

 •     Dane źródłowe zebrano przy użyciu 9-kanałowego
       cytofluorymetru o 18-bitowej rozdzielczości:
       −      17 pacjentów z białaczką (2 266 440 komórek)
       −      17 pacjentów w remisji (1 248 712 komórek)
 •      Oprócz pacjentów w remisji oraz z ostrą białaczką
        limfoblastyczną, dane źródłowe pochodziły również od
        pacjentów na różnym etapie leczenia
       −      U kilku z nich procent komórek białaczkowych nie
              przekraczał 3%

 •     Ocena poprawności i reprezentatywności danych
       źródłowych
 •     Wyeliminowanie błędnych danych




                                                                 7
  Prezentacja Betacom S.A.
Model wyboru komórek



                                    Dane źródłowe




                                  Eliminacja błędów
                                    FSC-A < 250000          Około 15%
                                    SSC-A < 200000



                                 Pierwsza segmentacja       Około 80%
                                  (FSC-A, SSC-A, CD19)       Klastry
                                                              CD19-


                                 Klastry CD19+ i CD19++
                             (Leukemia 67% Remission 36%)




                                Właściwa segmentacja
                                 (Wszystkie zmienne)
                                                                    8
  Prezentacja Betacom S.A.
Model oceny komórek


                                            Właściwa segmentacja
                                             (Wszystkie zmienne)




                               Klastry                                   Klastry
                                               Klastry komórek
                             typowych                                   komórek
                                                aberrantnych
                              komórek                                  mieszanych




                                         Ocena porównawcza (wykresy)




                                                 Klasyfikacja




                              Komórki                                   Komórki
                              typowe                                   aberrantne


                                                                                    9
  Prezentacja Betacom S.A.
Zastosowanie modeli w diagnostyce


                                     Dane pacjenta


                Eliminacja błędów FSC-A < 250000 SSC-A < 200000                             30%


                     Sprawdzenie przynależności do klastrów                                 65%
                               CD19+ lub CD19++                                         Komórki CD19-

                                                                                             1%
                             Wykrycie nietypowych komórek
                                                                                      Komórki nietypowe


                     Sprawdzenie przynależności do głównych klastrów


  Klastry komórek                 Klastry komórek
   białaczkowych                                                 Klastry typowych komórek
                                    mieszanych


                                          Klasyfikacja


                     Komórki typowe                         Komórki białaczkowe
                                                                                                          10
  Prezentacja Betacom S.A.
Ocena wyników


  •     Ogólna dokładność modelu wyniosła ponad 82%
        −      Docelowo dokładność przekroczy 90%
  •     Wiarygodność poprawnych klasyfikacji wyniosła 99,7%
  •     Wiarygodność błędnych klasyfikacji wyniosła 98,7%
        −      Dla większej i bardziej zróżnicowanej grupy pacjentów może spaść o kilka
               procent
  •     Przydatność:
        −      Analiza skupień komórek pozwoliła osiągnąć wyniki co najmniej tak samo
               dobre jak dotychczas stosowane metody bramkowania
        −      Możliwość wiarygodnego opisu statystycznego zidentyfikowanych
               subpopulacji komórek (w tym ich liczebności)
        −      Możliwość określenia prawdopodobieństwa przynależności danej komórki
               do znalezionych klastrów
        −      Zastosowana metoda pozwoliła nie tylko wyselekcjonować abberrantne
               i białaczkowe komórki, ale również podać powód i stopień ich
               nietypowości


                                                                                          11
  Prezentacja Betacom S.A.
Dziękując Państwu za olbrzymie zainteresowanie polską premierą Microsoft SQL
Server 2012, firma Microsoft wspólnie z wydawnictwem Helion przygotowała dla
Państwa 300 egzemplarzy* darmowego e-booka „SQL Server. Modelowanie i
eksploracja danych”.
Aby pobrać e-booka, należy wejść na stronę http://helion.pl/sqlserver2012.phtml
a następnie:
1.Zalogować się (lub zarejestrować, jeżeli nie macie Państwo konta w
wydawnictwie Helion)
2.Wpisać kod promocyjny Microsoft „NowaGwiazdaSQLServer2012” –
uwzględniając duże litery
3.Pobrać książkę w dogodnym dla Państwa formacie.

*oferta ważna do wyczerpania zapasów
Mamy nadzieję, że lektura e-booka jeszcze bardziej
przybliży Państwu możliwe obszary zastosowania SQL Server
do modelowania i eksploracji danych

W imieniu zespołu Microsoft Server & Tools
dr Sławomir Strzykowski
Application Platform Product Manager
slaweks@microsoft.com
                                     SQLDay 2012
NASI SPONSORZY I PARTNERZY




       DZIĘKUJEMY!

More Related Content

PDF
SQLDay2013_Denny Cherry - Table indexing for the .NET Developer
PPTX
Sql day2015 fts
PDF
SQLDay2013_MaciejPilecki_Lock&Latches
PDF
SQLDay2013_ChrisWebb_SSASDesignMistakes
PDF
SQLDay2013_ChrisWebb_DAXMD
PDF
SQLDay2013_GrzegorzStolecki_RealTimeOLAP
PDF
SQLDay2013_Denny Cherry - SQLServer2012inaHighlyAvailableWorld
PDF
SQLDay2013_PawełPotasiński_ParallelDataWareHouse
SQLDay2013_Denny Cherry - Table indexing for the .NET Developer
Sql day2015 fts
SQLDay2013_MaciejPilecki_Lock&Latches
SQLDay2013_ChrisWebb_SSASDesignMistakes
SQLDay2013_ChrisWebb_DAXMD
SQLDay2013_GrzegorzStolecki_RealTimeOLAP
SQLDay2013_Denny Cherry - SQLServer2012inaHighlyAvailableWorld
SQLDay2013_PawełPotasiński_ParallelDataWareHouse

Viewers also liked (17)

DOCX
26th_Meetup_of_PLSSUG_WROCLAW-ColumnStore_Indexes_byBeataZalewa_scripts
PDF
SQLDay2013_GrzegorzStolecki_KonsolidacjaBI
PDF
SQLDay2013_MarcinSzeliga_SQLServer2012FastTrackDWReferenceArchitectures
PDF
SQLDay2013_MarekAdamczuk_Kursory
PDF
SQL DAY 2012 | DEV Track | Session 6 - Master Data Management by W.Bielski 6 ...
PDF
38Spotkanie_PLSSUGweWroclawiu_Keynote
PDF
SQLDay2013_MarcinSzeliga_StoredProcedures
PDF
SQLDay2011_Sesja02_Collation_Marek Adamczuk
PDF
CISSPDAY 2011 - 2 AM A Disaster just Began
PDF
SQLDay2013_PawełPotasiński_GeografiaSQLServer2012
PDF
SQLDay2013_DennyCherry_GettingSQLServiceBrokerUp&Running
PDF
SQLDay2013_ChrisWebb_CubeDesign&PerformanceTuning
PDF
SQL DAY 2012 | DEV Track | Session 8 - Getting Dimension with Data by C.Tecta...
PDF
GoldenLine.pl - Od Startupu do... Startupu :-)
PDF
Maintenance_Plans_Zupełnie_Znienacka
PPT
Kompletny przewodnik po SQL injection dla developerów PHP (i nie tylko)
PPT
Śniadanie Daje Moc
26th_Meetup_of_PLSSUG_WROCLAW-ColumnStore_Indexes_byBeataZalewa_scripts
SQLDay2013_GrzegorzStolecki_KonsolidacjaBI
SQLDay2013_MarcinSzeliga_SQLServer2012FastTrackDWReferenceArchitectures
SQLDay2013_MarekAdamczuk_Kursory
SQL DAY 2012 | DEV Track | Session 6 - Master Data Management by W.Bielski 6 ...
38Spotkanie_PLSSUGweWroclawiu_Keynote
SQLDay2013_MarcinSzeliga_StoredProcedures
SQLDay2011_Sesja02_Collation_Marek Adamczuk
CISSPDAY 2011 - 2 AM A Disaster just Began
SQLDay2013_PawełPotasiński_GeografiaSQLServer2012
SQLDay2013_DennyCherry_GettingSQLServiceBrokerUp&Running
SQLDay2013_ChrisWebb_CubeDesign&PerformanceTuning
SQL DAY 2012 | DEV Track | Session 8 - Getting Dimension with Data by C.Tecta...
GoldenLine.pl - Od Startupu do... Startupu :-)
Maintenance_Plans_Zupełnie_Znienacka
Kompletny przewodnik po SQL injection dla developerów PHP (i nie tylko)
Śniadanie Daje Moc
Ad

More from Polish SQL Server User Group (8)

PDF
SQLDay2013_MarcinSzeliga_DataInDataMining
PDF
26th_Meetup_of_PLSSUG-ColumnStore_Indexes_byBeataZalewa_session
PDF
SQLDay2011_Sesja03_Fakty,MiaryISwiatRealny_GrzegorzStolecki
PDF
SQLDay2011_Sesja01_ModelowanieIZasilanieWymiarówHurtowniDanych_ŁukaszGrala
PDF
SQLDay2011_Sesja05_MicrosoftSQLServerExecutionPlansFromCompilationToCachingTo...
PDF
How to tune a database application without changing a single query - Maciej P...
PDF
Co nowego w SQL Server 11 – Denali CTP1 - Grzegorz Stolecki, Łukasz Grala i K...
PDF
Master Data Services – Po co nam kolejna usługa w Sql Server - Mariusz Koprowski
SQLDay2013_MarcinSzeliga_DataInDataMining
26th_Meetup_of_PLSSUG-ColumnStore_Indexes_byBeataZalewa_session
SQLDay2011_Sesja03_Fakty,MiaryISwiatRealny_GrzegorzStolecki
SQLDay2011_Sesja01_ModelowanieIZasilanieWymiarówHurtowniDanych_ŁukaszGrala
SQLDay2011_Sesja05_MicrosoftSQLServerExecutionPlansFromCompilationToCachingTo...
How to tune a database application without changing a single query - Maciej P...
Co nowego w SQL Server 11 – Denali CTP1 - Grzegorz Stolecki, Łukasz Grala i K...
Master Data Services – Po co nam kolejna usługa w Sql Server - Mariusz Koprowski
Ad

SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

  • 1. NASI SPONSORZY I PARTNERZY DZIĘKUJEMY!
  • 2. Analiza komórek w cytofluorymetrii przepływowej przy pomocy narzędzi Data Mining serwera SQL 2012 Marcin Szeliga
  • 3. MarcinSzeliga:Bio.ToPP() • +15 lat doświadczenia z serwerem SQL • Trener & konsultant • Autor książek i artykułów • SQL Microsoft Most Valuable Professional (od 2006) • Microsoft Specialist (od 2000)
  • 4. Cele projektu • Wykazanie przydatności automatycznej analizy danych zebranych w FCM − FCM jest podstawową techniką identyfikacji subpopulacji komórek w szpiku kostnym i krwi obwodowej, służącą do ustalenia diagnozy oraz monitorowania leczenia w różnego typu białaczkach • Segmentacja danych pod kątem obecności nieprawidłowych subpopulacji komórek • Automatyczna klasyfikacja znalezionych subpopulacji i ich opis statystyczny • Wyszukiwanie komórek nie pasujących do klastrów komórek prawidłowych, z ich oceną ilościową i statystyczną • Monitorowanie leczenia i ocena tzw. choroby resztkowej • Ocena zmian subpopulacji komórek u tego samego pacjenta w trakcie leczenia 4 Prezentacja Betacom S.A.
  • 5. Proces eksploracji danych Zrozumienie Poznanie problemu danych Przygotowanie danych Dane Wdrożenie Utworzenie modeli Ocena wyników 5
  • 6. Problem • Jak wybrać charakterystyczne komórki? − Metoda bramkowania jest nieobiektywna − Bramki wyznaczane są arbitralnie przez osobę przeprowadzającą analizę − Bramki ustawiane są sekwencyjnie, co prowadzi do utraty cennych danych − Ryzyko przeoczenia istotnych dla diagnozy i monitorowania leczenia danych − Bramkowanie nie umożliwia analizy złożonych danych − Standardem stają się badania jednocześnie 6-9 antygenów − Interakcje pomiędzy badanymi czynnikami są tak złożone, że metody analizy przy użyciu dwuwymiarowych wykresów punktowych zawodzą • Jak oceniać efekty leczenia? − Eliminując z analizy 99% danych zmniejszamy szansę wykrycia choroby resztkowej 6 Prezentacja Betacom S.A.
  • 7. Dane • Dane źródłowe zebrano przy użyciu 9-kanałowego cytofluorymetru o 18-bitowej rozdzielczości: − 17 pacjentów z białaczką (2 266 440 komórek) − 17 pacjentów w remisji (1 248 712 komórek) • Oprócz pacjentów w remisji oraz z ostrą białaczką limfoblastyczną, dane źródłowe pochodziły również od pacjentów na różnym etapie leczenia − U kilku z nich procent komórek białaczkowych nie przekraczał 3% • Ocena poprawności i reprezentatywności danych źródłowych • Wyeliminowanie błędnych danych 7 Prezentacja Betacom S.A.
  • 8. Model wyboru komórek Dane źródłowe Eliminacja błędów FSC-A < 250000 Około 15% SSC-A < 200000 Pierwsza segmentacja Około 80% (FSC-A, SSC-A, CD19) Klastry CD19- Klastry CD19+ i CD19++ (Leukemia 67% Remission 36%) Właściwa segmentacja (Wszystkie zmienne) 8 Prezentacja Betacom S.A.
  • 9. Model oceny komórek Właściwa segmentacja (Wszystkie zmienne) Klastry Klastry Klastry komórek typowych komórek aberrantnych komórek mieszanych Ocena porównawcza (wykresy) Klasyfikacja Komórki Komórki typowe aberrantne 9 Prezentacja Betacom S.A.
  • 10. Zastosowanie modeli w diagnostyce Dane pacjenta Eliminacja błędów FSC-A < 250000 SSC-A < 200000 30% Sprawdzenie przynależności do klastrów 65% CD19+ lub CD19++ Komórki CD19- 1% Wykrycie nietypowych komórek Komórki nietypowe Sprawdzenie przynależności do głównych klastrów Klastry komórek Klastry komórek białaczkowych Klastry typowych komórek mieszanych Klasyfikacja Komórki typowe Komórki białaczkowe 10 Prezentacja Betacom S.A.
  • 11. Ocena wyników • Ogólna dokładność modelu wyniosła ponad 82% − Docelowo dokładność przekroczy 90% • Wiarygodność poprawnych klasyfikacji wyniosła 99,7% • Wiarygodność błędnych klasyfikacji wyniosła 98,7% − Dla większej i bardziej zróżnicowanej grupy pacjentów może spaść o kilka procent • Przydatność: − Analiza skupień komórek pozwoliła osiągnąć wyniki co najmniej tak samo dobre jak dotychczas stosowane metody bramkowania − Możliwość wiarygodnego opisu statystycznego zidentyfikowanych subpopulacji komórek (w tym ich liczebności) − Możliwość określenia prawdopodobieństwa przynależności danej komórki do znalezionych klastrów − Zastosowana metoda pozwoliła nie tylko wyselekcjonować abberrantne i białaczkowe komórki, ale również podać powód i stopień ich nietypowości 11 Prezentacja Betacom S.A.
  • 12. Dziękując Państwu za olbrzymie zainteresowanie polską premierą Microsoft SQL Server 2012, firma Microsoft wspólnie z wydawnictwem Helion przygotowała dla Państwa 300 egzemplarzy* darmowego e-booka „SQL Server. Modelowanie i eksploracja danych”. Aby pobrać e-booka, należy wejść na stronę http://helion.pl/sqlserver2012.phtml a następnie: 1.Zalogować się (lub zarejestrować, jeżeli nie macie Państwo konta w wydawnictwie Helion) 2.Wpisać kod promocyjny Microsoft „NowaGwiazdaSQLServer2012” – uwzględniając duże litery 3.Pobrać książkę w dogodnym dla Państwa formacie. *oferta ważna do wyczerpania zapasów Mamy nadzieję, że lektura e-booka jeszcze bardziej przybliży Państwu możliwe obszary zastosowania SQL Server do modelowania i eksploracji danych W imieniu zespołu Microsoft Server & Tools dr Sławomir Strzykowski Application Platform Product Manager slaweks@microsoft.com SQLDay 2012
  • 13. NASI SPONSORZY I PARTNERZY DZIĘKUJEMY!