Moja lekcja

 0    100 fiszek    klaus1
ściągnij mp3 drukuj graj sprawdź się
 
Pytanie Odpowiedź
1. Omów mechanizmy łączenia danych z wielu tabel.
rozpocznij naukę
-LEFT JOIN ON A. KEY=B. KEY(WHERE B. KEY IS NULL), INNER JOIN, RIGHT JOIN ON A. KEY=B. KEY(WHERE A. KEY IS NULL), FULL OUTER JOIN ON A. KEY=B. KEY(WHERE A. KEY IS NULL OR B. KEY IS NULL)
2. Omów klasyfikację funkcji działających na pojedynczych wierszach.
rozpocznij naukę
f-cje działające na jednym wierszu, gdzie wynikiem zawsze będzie również jeden wiersz, SQL: numeryczne (ABS), znakowe (VARCHAR), konwertujące (CONVERT), datowe (NOW)
3. W jakim celu buduje się perspektywy? Omów możliwe klauzule polecenia do tworzenia perspektyw
rozpocznij naukę
inaczej widoki-wirtualne tabele tw. na podst. zapytań, nie przechowują danych, tylko definicja widoku i metadane, zapewniają bezp. danych przez ogr. dostępu do danych zapisanych w tabelach. CREATE VIEW, SELECT, FROM, WHERE
4. Operacje na zbiorach – omów składnię poleceń i znaczenie uzyskanych wyników.
rozpocznij naukę
UNION-usuwa duplikaty, UNION ALL-zostawia, INTERSECT-zostawia tylko wspólne wiersze, EXCEPT- tylko np. wiersze z 1 zbioru
5. Przedstaw podzapytania – typy w których mogą wystąpić operatory.
rozpocznij naukę
Podzapytania dzielą się na: skalarne (z operatorami =, <, >), listowe (IN, NOT IN, ANY, ALL), skorelowane (EXISTS, NOT EXISTS) oraz tabelowe w klauzuli FROM. Różnią się liczbą zwracanych wartości i sposobem użycia operatorów.
6. Omów typowe rozwiązania Big Data w obszarze baz/repozytoriów danych.
rozpocznij naukę
- rozproszone systemy plików (HDFS), hurtownie danych SQL w dużej skali (Hive, BigQuery), bazy NoSQL (MongoDB, Cassandra, DynamoDB), data lake/lakehouse (S3, Delta Lake) oraz systemy streamingowe (Kafka, Flink).
7. Przedstaw specyfikę środowisk analitycznych stosowanych w Big Data.
rozpocznij naukę
-skalowalność pozioma (wiecej węzłów niż większych), -przetw. równoległe, -obsługa danych masowych, -analiza streaming, -elastyczne przechowywanie (data lake) oraz integracja narzędzi ML i SQL dla szybkiego przetw.
8. Omów wybrany algorytm stosowany w analityce Big Data.
rozpocznij naukę
k-średnich-1) wybór k klastrów 2) losowy wybór K punktów jako centra klastrów 3) przypis. kazdego pkt do najbliższego klastra 4) akt. środków klastrów 5) powtarzanie 3-4 az klastry przestana się zmieniać (zbieżność)
9. Na czym polega MapReduce?
rozpocznij naukę
model przetw. Big Data, w którym faza Map dzieli dane i przekształca je w pary klucz–wartość, a faza Reduce agreguje wyniki według kluczy. Umożliwia równoległe, skalowalne i odporne na awarie przetw. dużych zbiorów danych.
10. Co to jest Deep Learning, podaj przykład.
rozpocznij naukę
uczenie maszyn., mózg, oparte na wielowarstwowych sieciach neuronowych, które samodzielnie uczą się złożonych wzorców z dużych zbiorów danych. Przykład: sieć CNN rozpoznająca obiekty na zdjęciach, np. wykrywanie twarzy czy klasyfikacja obrazów.
11. Jakimi cechami charakteryzują się typowe problemy Big Data?
rozpocznij naukę
5V Variety (różnorodność typów danych), Volume (ilośc - nowe i ważne dane), Velocity(prędkość przesyłania danych), Veracity (wiarygodność - potwierdzone źródła)), Value (wartość, odkrywanie wzorców)+skalowalność, bezp., integracja danych, koszty infr.
12. Omów przykładowe techniki stosowane w rozpoznawaniu wzorców.
rozpocznij naukę
-klasyfikacja (SVM, drzewa, sieci neuronowe), klasteryzacja (k-means, DBSCAN), redukcja wymiarów (PCA), ekstrakcja cech (HOG, SIFT) oraz metody głębokiego uczenia, np. CNN do analizy obrazów.
13. Na czym polega przetwarzanie rozproszone?
rozpocznij naukę
Polega na jednoczesnym wykonywaniu zad. obliczen./przetw. danych na wielu nzal. j. obliczen. Kluczowe cechy:-skalowalność, odp. na awarie, -współbieżność,-dzieli zadania,-lokalne dane
14. Omów wybraną metodykę opisującą sposób realizacji procesu wytwórczego modelu analitycznego.
rozpocznij naukę
CRIPSM-DM 1) BU-cele projektu,2) DU-zebranie danych, 3) DP-selekcja i czyszczenie,4) M-modelowanie,5) E-ewaluacja/wer. wyników,6) D-wdrożenie
15. Wymień kluczowe założenia będące warunkami zastosowania modeli predykcyjnych do wspomagania procesów decyzyjnych.
rozpocznij naukę
- dostępne i jakościowe dane,-stabilność związków w czasie,-odpowiednia definicja zmiennej celu,-zrozumiały i interpretowalny model,-ocena jakości predykcji, - zgodny z obecnymi regulacjami i etyką,- możliwość wdrożenia i monitorowania
16. Jak mierzymy jakość modelu prognostycznego?
rozpocznij naukę
na zb. testowym, zależy od rodzaju problemu i celu modelowania: regresyjne - prognozujące wart. liczbowe(MSE, RMSE, MAE, R2), klasyfikacyjne (accuracy, F1-score, precision, recall czułość))
17. Omów w jaki sposób wykorzystanie systemu kontroli wersji wpływa na efektywność procesu wytwórczego rozwiązań analitycznych.
rozpocznij naukę
GIT - współpraca zespołowa, -śledzenie zmian i historii, -bezpieczeństwo danych,-automatyzacja i integracja testów. Zastosowanie: wersjonowanie notatników, kontrola zmian w zapytaniach, śledzenie metryk i wyników
18. Wyjaśnij co to jest reprodukowalność procesu analitycznego i dlaczego jest ona ważna w praktyce gospodarczej.
rozpocznij naukę
zdolność do odtw. wyników analizy na podst. tych samych danych, narzędzi i metod. Dlaczego? zaufanie i przejrzystość, weryfikacja i kontrola jakości, współpraca zespołowa,
19. Omów podstawowe sposoby zapewnienia reprodukowalności procesu analitycznego.
rozpocznij naukę
-wersjonowanie kodu -sys. kontrli wersji (Git), -zapis wyników i metadanych, -ustalony zestaw d. test, -automatyzacja proc. anal- tw. pipeline, -dokumentacja i komentarz, -zarz. śr. anal.(użycie Docker do utrw. zal.)
20. Wyjaśnij co to jest próg odcięcia w modelach klasyfikacyjnych oraz omów od czego zależy jego optymalna wartość w przypadku wykorzystania takiego modelu do wspomagania podejmowania decyzji.
rozpocznij naukę
CUTOFF THRESHOLD- wart. graniczna, powyżej której wykrywane jest oszustwo (fraud), domyślnie 0.5, opt. wart. zależy od: celów biznesowych i kosztów błędów,-charakterystyki danych,-pref. metryki jakości,-analiza krzywej ROC
21. Wyjaśnij do czego wykorzystywana jest regularyzacja w procesie budowy modeli predykcyjnych.
rozpocznij naukę
zapobiega przeuczeniu m. predyk. Dodaje do f-cji błędu kary za zbyt duże wart. param. Dzięki temu model jest prost­szy, b. uogólniony i lepiej działa na nowych danych. W praktyce stabilizuje współcz., ogranicza szum i poprawia zdoln. generalizacji.
22. Wyjaśnij różnicę pomiędzy wnioskowaniem obserwacyjnym i kontrfaktycznym.
rozpocznij naukę
Wnioskowanie obs. opisuje zal. widoczne w danych rzeczywistych. Wnioskowanie kontrfakt. dot. scenariuszy „co by było, gdyby”, analizując alternatywne wersje rzeczywistości. Jedno opisuje fakty, a drugie hipotetyczne sytuacje.
23. Wyjaśnij na czym polega paradoks Simpsona.
rozpocznij naukę
przypadek w statystyce, gdzie trend obecny w kilku oddzielnych grupach znika lub odwraca się w trakcie połączenia ze sobą grup, może prowadzić do błędnych wniosków a uśr. wniosków może ukrywać ważne zależności i czasem warto skupić się na podgrupach
24. Przedstaw korzyści ekonomiczne z przetwarzania danych w chmurze.
rozpocznij naukę
-wszystko w jednym miejscu, -model płatności tylko za wielkość zużycia pay-as-you-go, -elastyczne skalowanie,-niższe koszty utrzymania,-brak inw. kapitał.-automatyczne akt.,-szybsze wdrażanie projektów
25. Omów technologie serveless w gromadzeniu i przetwarzaniu danych na potrzeby procesów analitycznych.
rozpocznij naukę
umożliwia gromadzenie i przetw. danych bez zarz. serwerami. Usługi jak AWS Lambda, Azure czy Google Cloud Functions skalują się automatycznie, reagują na zd., pobierają i transformują dane, wspierając analitykę w sposób elastyczny i kosztowo efektywny.
26. Przedstaw metody przechowywania danych dużych rozmiarów w chmurze.
rozpocznij naukę
- data lake (S3, Azure Data Lake), -rozproszonych systemach plików (HDFS),- hurtowniach danych (BigQuery, Snowflake), -bazach NoSQL (Cassandra, DynamoDB) oraz w formacie lakehouse (Delta Lake, Iceberg).
27. Omów skalowanie dokumentowych baz danych typu noSQL w chmurze na przykładzie DynamoDB.
rozpocznij naukę
Skaluje się automatycznie przez partycjonowanie danych wg klucza oraz dynamiczne zwiększ. przepustowość. Dzięki modelowi key–value, replikacji i trybom on-demand lub provisioned obsługuje duży ruch bez zarz. serwerami przez co szybki i stabilny dostęp.
28. Omów skalowanie procesów analitycznych w chmurze.
rozpocznij naukę
dynamiczne dobieranie mocy obliczeniowej do potrzeb. Usługi jak Spark, BigQuery czy Databricks automatycznie zwiększ. zasoby, równolegle przetw. dane, oddzielają storage od compute i umożliwiają szybkie, elastyczne analizy dużych zb.
29. Omów Function as a service - model przetwarzania oparty o architekturę Lambda.
rozpocznij naukę
model, w którym uruchamiane są krótkie f-cje reagujące na zd., bez zarz. serwerami. W arch. Lambda chmura automatycznie skaluje wykonania i rozlicza tylko czas działania, co umożliwia elastyczne, zdarzeniowe przetw. danych.
30. Omów tworzenie i zarządzanie bezpieczeństwem środowisk analitycznych dla języków Python i R w chmurze.
rozpocznij naukę
-odizolowane środowisko pracy analityka(Docker), kontrolę dostępu (IAM), szyfrowanie danych, zarz. zależnościami, monitoring
31. Omów zarządzanie bezpieczeństwem użytkownicy polityki i grupy
rozpocznij naukę
opiera się na IAM: użytkownicy mają ind. konta, grupy łączą ich o podobnych zad., role nadają tymczasowe uprawnienia usługom lub osobom, a polityki def. szczegółowe zasady dostępu, kontrolując kto i do czego ma dostęp.
32. Przedstaw systemy zarządzania relacyjną bazą danych w chmurze i ich zastosowania w analityce danych.
rozpocznij naukę
1. MySQL(Amazon RDS),2. MSC SQL (Azure SQL) i 3. PostgreSQL(Cloud SQL), oferują automat. skalowanie, kopie zapasowe i dost., łatwą integr. z innymi usługami. Służą do analityki transak., raportowania, integracji z BI oraz jako źródło danych dla hurtowni
33. Przedstaw modele przetwarzania danych w chmurze: IaaS (Infrastructure-as-a-Service) PaaS (Platform-as-a-Service) oraz SaaS (Software-as-a-Service).
rozpocznij naukę
Iaas-udost. podst. infrastrukturę IT(maszyny wirt, sieci), duża elastycznośc i kontrola, PaaS-środowisko do tw. i wdrażania aplikacji, ogr. kontrolę nad infrskt, SaaS-gotowe apl. dostępne przez internet, msc365, ogr. personalizacji
34. Omów kwestie etyczne związane z Big Data.
rozpocznij naukę
-naruszenie prywatności,-brak przejrzystości,-dyskryminacja algorytmiczna,-małe bezpieczeństwo,-możliwość handlu danymi
35. Omów cechy danych istotne w procesie analizy danych.
rozpocznij naukę
-jakość(kompletne, spójne, wiarygodne), -typ danych(ilość/jakość),-struktura(tabele vs. obrazy), -skala i format(liczby vs. tekst), -źródło (zaufane i opisane)
36. Przedstaw na czym polega zmienność danych i jak ją uwzględnić w wizualizacji danych.
rozpocznij naukę
zjawisko polegające na zmianie danych w czasie, przestrzeni lub między grupami, może wynikać z sezonowości, trendów, pozwala zrozumieć dynamikę zjawisk, identyf. nietypowe zachowania, wykres liniowy, pudełkowy, historgram, cieplne, punktowe
37. Przedstaw na czym polega niepewność w analizie danych i jak można wpływać na jej wielkość
rozpocznij naukę
stopień, w jakim wyniki różnią się od rzeczywistości. wynika z różnych źródeł: braków danych, błędów pom, uproszczeń modeli. Jej zrozum. pozwala na oc. wiarygodn. wniosków. W celu zmn. -zw.l. obs., st. dokł. narz., elim. obs. odst.
38. Jakie znaczenie mają metadane w analizie danych.
rozpocznij naukę
dane o danych, dostarczają kontekstu, struktury i znaczenia. Znaczenie: ułatwiają wyszukiwanie i org. danych, zw. jakość i wiarygodność, wsp. integr. danych i umożliwiają automatyzację. pomagają w zgodności z regulaminami
39. Wymień i omów układy współrzędnych stosowane przy wizualizacji danych.
rozpocznij naukę
-układ kartezjański, biegunowy(wykresy kołowe i radarowe), geograficzny(szerokość i długośc geogr)
40. Wymień i omów metody wizualizacji proporcji.
rozpocznij naukę
wykres kołowy, donut chart, słupkowy, skumulowany słupkowy
41. Wymień i omów metody wizualizacji relacji.
rozpocznij naukę
wykres rozrzutu, liniowy, bąbelkowy, macierz korelacji
42. Wymień i omów metody wizualizacji danych geolokalizacyjnych.
rozpocznij naukę
mapa cieplna, przepływu, kartogram
43. Wymień obiekty bazy danych i omów ich przeznaczenie.
rozpocznij naukę
tabele (przechowywanie danych), widoki (wirtualne zestawy danych), indeksy (przyspieszanie wyszukiwania), klucze (integralność), procedury i f-cje (logika), triggery (automat. akcje) oraz schematy (organizacja).
44. Wymień i omów metody wizualizacji szeregów czasowych.
rozpocznij naukę
liniowe wykresy trendu, wykresy sezonowości (np. boxplot wg msc), wykresy autokorelacji ACF/PACF, heatmapy kalendarzowe, dekompozycje trend–sezonowość, rolling plots oraz forecasts vs actuals do oceny prognoz.
45. Przedstaw na czym polega uwzględnienie kontekstu w analizie danych.
rozpocznij naukę
polega na zrozumieniu okoliczności, źródła, celu i warunków w jakie dane zostały zebrane oraz ich właściwej interpretacji, w celu uniknięcia błędnych wniosków, zwiększenia wiarygodności i użyteczności rezultatów
46. Wyjaśnij co to jest system kontroli wersji na przykładzie systemu Git i zaproponuj typowy workflow
rozpocznij naukę
Git to system zapisujący historię zmian i umożliwiający pracę wielu osób. Typowy workflow: tworzenie branch, wpr. zmian i robienie commity, wysłanie gałęzi na repozytorium, tworzenie pull request, po review łączenie z main i akt. lokalną kopię.
47. Omów wybraną technikę redukcji wymiaru danych
rozpocznij naukę
PCA redukuje wymiar danych, przekształcając je do nowych osi (składowych), które max wariancję. Usuwa korelacje między cechami i zachowuje najważniejsze inf., ułatwiając wizualizację, uczenie modeli i przyspieszając obliczenia przy dużej liczbie zm.
48. Omów pojęcie obliczeń równoległych i podstawowe problemy, które pojawiają się w obliczeniach równoległych
rozpocznij naukę
polegają na podziale zadania na części wyk. jedn. na wielu rdzeniach/maszynach. Problemy to modyfik. danych przez kilka procesów jedn., zakleszczenie(czek nawzajem), zagłodzenie(nieuż proc), koszty komunikacji
49. Omów pojęcie estymatora odpornego na wybranym przykładzie.
rozpocznij naukę
nie zmienia wyniku pod wpływem wart. odstających. Przykład: mediana w przeciwieństwie do śr. pozostaje stabilna, gdy w danych pojawią się ekstremalne wart., dlatego lepiej opisuje typowy poziom zm.
50. Omów technikę regularyzacji na wybranym przykładzie np. regresji LASSO
rozpocznij naukę
stosuje regularyzację L1, dodając karę za sumę wart. bezwzgl. współcz. „Ściska” je do zera, dzięki czemu model jest prostszy, mniej podatny na przeuczenie i jednocześnie wykonuje selekcję zm., wybierając tylko najważniejsze cechy.
51. Co oznacza określenie 3V oraz 5V w kontekście problematyki Big Data?
rozpocznij naukę
3V Variety (różnorodność typów danych), Volume (ilośc - nowe i ważne dane), Velocity(prędkość przesyłania danych), Veracity (wiarygodność - potwierdzone źródła)), Value (wartość, odkrywanie wzorców)
52. Wyjaśnij pojęcia danych ustrukturyzowanych i nieustrukturyzowanych.
rozpocznij naukę
mają uporządkowany format (tabele, kolumny), łatwo je analizować SQL. Dane nieustrukt. nie mają sztywnej struktury (tekst, obrazy, audio), wymagają metod NLP lub przetw. multimediów. Różnią się formą i sposobem analizy.
53. Przedstaw architektury: Lambda i Kappa.
rozpocznij naukę
Lambda - elastyczny wzorzec architektoniczny, przetwarzanie danych w sposób skalowalny, niezawodny i w czasie rzeczywistym, Batch+Speed+Serving Layer równocześnie. Kappa - uproszczony wzorzec, Apache Kafka, przetwarzanie strumieniowe, tryb ciągły,
54. Przedstaw kluczowe cechy uczenia i predykcji w trybie wsadowym (offline learning) i przyrostowym (online learning)
rozpocznij naukę
uczenie wsadowe najpierw zbiera się wszystkie dane, i model trenowany jest jednorazowo, po zakończeniu można go używać do predykcji. Uczenie przyrostowe do modelu dodawane są stopniowo kolejne dane i model uczy się na bieżąco i szybko się aktualizuje
55. Podaj przykład i omów w jakich sytuacjach wskazane jest zastosowanie modelu przetwarzania OLTP
rozpocznij naukę
Online Transaction Processing - stos. w sys. wym. szybkich, częstych i małych trans., np. w bankowości. Przykład: system sprzedaży online zapisujący zamówienia w cz rzecz. Zapewnia spójność, niskie opóźnienia i obsługę wielu jedn. użytk.
56. Podaj przykład i omów w jakich sytuacjach wskazane jest zastosowanie modelu przetwarzania OLAP
rozpocznij naukę
Online Analytical Processing - stos się do szybk. i wielowym. analizy dużych zb. danych, np. raportów sprzedaży/trendów fin. Umożliwia szybką agreg. i dane hist. Przykład: hurt. danych wsp. raport. KPI. Służy do strategii, nie do transakcji.
57. Wyjaśnij pojęcie i zastosowania biznesowe hurtowni danych.
rozpocznij naukę
System zoptymalizowany pod kątem danych strukturalnych, które są już oczyszczone i uporządkowane, przykład: Snowflake, Amazon Redshift, działają w chmurze i są wysoko skalowane i elastyczne ale mniej niż Data Lake
58. Omów problem czasu w strumieniowym przetwarzaniu danych czym jest watermark
rozpocznij naukę
wynika z opóźnionych zdarzeń. Watermark to znacznik inf. system, że wszystkie zd. starsze niż okr. czas powinny już nadejść. Pozwala zamykać okna czasowe, agregować dane i ogr. opóźnienia wyników.
59. Przedstaw różnicę pomiędzy wsadowym i strumieniowym sposobem przetwarzania danych
rozpocznij naukę
wsd. działa na dużych zb. danych z opóźnieniem i jest opt dla raportów i ETL. Strumieniowe przetwarza dane na bieżąco, zd. po zd., zapewniając natychmiastowe wyniki idealne do monitoringu, alertów i analityki w cz. rzeczywistym.
60. Opisz dwa biznesowe zastosowania analizy danych w czasie rzeczywistym
rozpocznij naukę
wspiera np. wykrywanie fraudów, gdzie transakcje są natychmiast oceniane pod kątem podejrzanych wzorców Apache Kafka, oraz dynamiczne rekomendacje i ceny w e-commerce, dostosowujące ofertę do zachowań użytk., awaria maszyn
61. Wymień i omów metodyki procesu eksploracji danych.
rozpocznij naukę
CRISP-DM (etapy: biznes, dane, przygotowanie, modelowanie, ewaluacja, wdrożenie), KDD (od selekcji danych do odkrywania wiedzy) oraz SEMMA (Sample, Explore, Modify, Model, Assess). Pomagają uporządkować cały proces analityczny.
62. Omów dwie główne grupy metod eksploracji danych.
rozpocznij naukę
nadzorowane (klasyfikacja, regresja), gdzie model uczy się na danych z etykietami, oraz nienadzorowane (klasteryzacja, redukcja wymiarów), które odkrywają ukryte struktury bez znanych klas. Każda służy innym celom analitycznym.
63. Omów metody selekcji zmiennych i obserwacji do modelowania data mining.
rozpocznij naukę
- oparta na wiedzy eksperckiej, - ocena każdej zmiennej niezależnie od modelu, - w trakcie trenowania modelu,- obserwacji odstających. Jest często implementowana na etapie zapytań ETL w celu opt. przetwarzania dalszych etapów analizy
64. Metody klasyfikacji danych - przedstaw różnice i podobieństwa pomiędzy nimi.
rozpocznij naukę
różnią się złożonością, interpretowalnością i sposobem uczenia: drzewa są czytelne, SVM tworzy granice, sieci neuronowe uczą złożone wzorce, a kNN klasyfikuje po sąsiadach. Wszystkie jednak przypisują dane do klas na podst. wzorców z treningu.
65. Przedstaw model drzewa decyzyjnego.
rozpocznij naukę
model, który dzieli dane na kolejne gałęzie wg pytań o cechy, aż do uzyskania liści reprezentujących decyzje lub klasy. Jest łatwe do interpretacji, obsługuje dane nieliniowe i wybiera podziały max zmn. nieczystość (np. Gini).
66. Omów modele lasów losowych.
rozpocznij naukę
tworzą wiele drzew decyzyjnych trenowanych na losowych podzbiorach danych i cech. Każde drzewo głosuje, a wynik to agregacja decyzji. Model jest stabilny, odporny na przeuczenie, dobrze działa na danych nieliniowych i ocenia ważność zm.
67. Przedstaw modele sztucznych sieci neuronowych.
rozpocznij naukę
modele z warstwami połączonych neuronów, które uczą się z danych, modyfikując wagi połączeń. Potrafią wykrywać złożone, nieliniowe wzorce. Obejmują MLP, CNN do obrazów i RNN/LSTM do sekwencji, osiągając wysoką skuteczność w wielu zad.
68. Omów metody grupowania danych.
rozpocznij naukę
klastr., obejmują k-means, które dzieli dane na k klastrów wg odległości, DBSCAN wykrywające skupiska o różnej gęstości przestrzennej. Wszystkie odkrywają struktury bez etykiet.
69. Omów metody analizy danych transakcyjnych.
rozpocznij naukę
reguły asocjacyjne (Apriori, FP-Growth) wykrywające współwyst. produktów, analizę koszykową do rekomendacji, segmentację klientów oraz detekcję anomalii identyfikującą nietypowe lub podejrzane transakcje.
70. Omów metody konstrukcji tablic trwania życia oraz podaj przykłady ich wykorzystania.
rozpocznij naukę
kohortowe (rzecz. i na przestrzeni) lub przekrojowe(jeden okres), obliczając pr-stwa zgonu i przeżycia w kolejnych okresach. Stosuje się je w demografii, ubezpieczeniach, medycynie i analizie ryzyka do prognozowania dł. życia.
71. Porównaj modele nieparametryczne i modele parametryczne analizy czasu trwania.
rozpocznij naukę
nieparam. (np. Kaplan–Meier) nie zakładają kształtu rozkładu czasu trwania i są elastyczne. Modele param. (Weibull) zakładają konkretny rozkład, co daje większą precyzję i możliwość ekstrapolacji. Różnią się więc założ. i zakresem zastosowań.
72. Scharakteryzuj modele proporcjonalnych hazardów oraz podaj przykłady takich modeli.
rozpocznij naukę
m. prop. hazard. zakładają, że zm. obj. wpływ. na ryzyko przez st. mnożnik, a kształt f-cji hazardu jest skalowalny. Stos. ryzyka m. 2 jedn. niezm. niezal. od momentu zd. Najpop. model Coxa, a param. odpowiedniki to m.in. model Weibulla. ACT
73. Scharakteryzuj modele przyspieszonej porażki oraz podaj przykłady takich modeli.
rozpocznij naukę
M. przyspieszonej porażki (AFT) opisują wpływ zm. jako przyspieszanie lub opóźnianie czasu do zd.-działają więc na osi czasu, nie na hazardzie. Przykłady to modele log-normalne, Weibulla AFT i log-logisticzne, stosowane m.in. w niezawodności i medycynie.
74. Scharakteryzuj modele semiparametryczne analizy czasu trwania.
rozpocznij naukę
m. semiparam łączą część param i nieparam. W analizie czasu trwania głównym przykładem jest model Coxa, gdzie wpływ zm. opisuje część param., a bazowy hazard pozostaje nieokr. Zapewnia elastyczność bez silnych założeń o rozkł.
75. Wymień różnice pomiędzy podejściem klasycznym a bayesowskim w kontekście estymacji parametrów modeli analizy czasu trwania.
rozpocznij naukę
Klasyczne podejście estymuje param. wyłącznie na podst. danych i daje pkt wyniki. Bayesowskie łączy dane z wcześniejszą wiedzą (priory), zwraca rozkł. a nie pkt oraz umożliwia pełne ujęcie niepewności. Różnią się więc interpretacją i sp. estymacji.
76. Omów modele ryzyk konkurencyjnych w analizie czasu trwania.
rozpocznij naukę
M. ryzyk konkurencyjnych opisują sytuacje, gdy kilka typów zd. może zakończyć czas trwania, a wyst. jednego uniemożliwia inne. Stosuje się f-cje hazardów specyficznych dla przyczyn i modele Fine-Gray, aby szacować wpływ zm. na poszczególne ryzyka.
77. Omów ideę metod Monte Carlo bazujących na łańcuchach Markowa (MCMC) w kontekście estymacji parametrów modeli analizy czasu trwania.
rozpocznij naukę
MCMC służy do estymacji parametrów modeli bez określonego rozkładu pr-stwa, losuje wiele kolejnych kroków (akc/odrz) tak że każdy krok zależy tylko od poprzedniego (tworzy łańcuch), z czasem mamy pożądany rozkład
78. Jakość danych w analizach biznesowych. Znaczenie i metody oceny.
rozpocznij naukę
-dec. o wiarygodności analiz. -Ocenia się ją przez kompletność, spójność, dokładność, aktualność i unikalność. Met. obejmują profile danych, reg. walidacji, wykrywanie duplikatów, spr źródeł oraz monitor. błędów, co zapewnia rzetelne decyzje biznesowe.
79. Imputacja danych. Istota i znaczenie.
rozpocznij naukę
uzupełnianie brak. wartości w zb, aby umożliwić poprawną analizę. Zapobiega utracie inf. i zniekształceniu wyników. Może być prosta (średnia, mediana) lub zaawansowana (KNN, MICE). Jej celem jest zwiększ. jakości i wiarygodności modeli.
80. Imputacja wielokrotna: opis metody wybór modelu do imputacji oraz estymacja parametrów
rozpocznij naukę
tworzy kilka wersji danych z różnymi uzupeł. braków, by odzwierciedlić niepewność. Model imputacji dobiera się do typu zm. (np. regresja, logit, drzewa). Param. estymuje się osobno dla każdej wersji, a wyniki łączy reg Rubina.
81. Porównaj modele z efektami stałymi oraz modele z efektami losowymi. Przedstaw podstawowe różnice i zastosowania obu typów modeli.
rozpocznij naukę
m. z ef. stałymi kontrolują wpływ jedn. poprzez stałe param., skupiając się na różnicach w obrębie jedn.Ef. losowe traktują zróżnicowanie jako losowe i uogólniają wyniki na populację. 1 są b. restrykcyjne, 2 elastyczniejsze i wymagają mniej param.
82. Regresja kwantylowa: opis i zastosowania w analityce biznesowej.
rozpocznij naukę
modeluje wybrane kwantyle zm zależnej, np. medianę lub 90. percentyl, zamiast średniej. Umożliwia analizę ef. w całym rozkładzie wyników. W biznesie służy m.in. do oceny ryzyka, prognoz skrajnych wart., wyceny nieruchomości i optym. kosztów.
83. Regresja adaptacyjna: model opis estymacji i zastosowania w analityce biznesowej.
rozpocznij naukę
MARS- buduje model z lokalnych f-cji bazowych, dopasowując się do nieliniowych zal. Estymacja odbywa się w 2 krokach: dodawanie i przycinanie f-cji. W biznesie służy do prognoz, segmentacji i model. złożonych relacji.
84. Metoda k-średnich i jej zastosowanie w ocenie wartości klienta w czasie CLV.
rozpocznij naukę
K-średnich grupuje klientów w klastry o podobnych cechach, min. odległość od centroidów. W analizie CLV pozwala wydzielić segm. o różnej wart. życiowej klienta, identyfikować grupy wysokomarżowe, przewidywać zachowania i wspierać personalizację ofert.
85. Wymień i omów zastosowania biznesowe modeli oceny wartości klienta w czasie CLV.
rozpocznij naukę
wspierają segm. klientów, przewidywanie ich przyszłej wart, opt. budżetu marketingowego, personalizację ofert, identyfikację klientów wysokiego ryzyka odejścia oraz decyzje dotyczące retencji i akwizycji. Pozwalają zwiększać marżę i lojalność.
86. Jakie statystyki opisowe są odporne na wartości nietypowe?
rozpocznij naukę
-mediana, moda, rozstęp międzykwartylowy
87. Jakie statystyki opisowe należy stosować w przypadku prób pobranych z populacji o rozkładzie innym niż rozkład normalny?
rozpocznij naukę
-mediana, moda, rozstęp międzykwartylowy, miary pozycyjne, wskaźniki asymetrii(dodatnia-wydłużony ogon po prawej stronie) i kurtozy(koncentracja danych wokół średniej i obecność wartości skrajnych)
88. Omów trzy elementy bezpieczeństwa informacji: Poufność, Integralność, Dostępność
rozpocznij naukę
Poufność chroni dane przed nieuprawnionym dost., integralność zapewnia ich poprawność i nienaruszalność, a dostępność gwarantuje, że uprawnieni użytk. mogą z nich korzystać wtedy, gdy potrzebują. Razem tworzą podst. bezpiecznego przetwarzania inf.
89. Co to jest Spear Phishing (ukierunkowany atak na osobę lub organizację)?
rozpocznij naukę
atak, w którym cyberprzestępca podszywa się pod zaufaną osobę/inst., używając spersonalizowanych inf. o ofierze. Celem jest wyłudzenie danych, pieniędzy lub dost. do systemów. Ataki są precyzyjne i trudniejsze do wykrycia niż zwykły phishing.
90. Przedstaw podstawowe zasady cyberbezpieczeństwa dla MŚP (Małe i Średnie Przedsiębiorstwa)
rozpocznij naukę
-silne i unikalne hasła, - MFA(uwierzytelnianie wieloskł.), -regularne aktualizacje,-szkolenie pracowników z cyberbezp.,-kopie zapasowe danych,-antywirusy, firewall,-polityka bezpieczeństwa i planu awaryjnego
91. Na czym polega interpretacja języka programowania, podaj przykłady języków interpretowalnych oraz kilka różnych interpretatorów
rozpocznij naukę
polega na wyk. kodu linijka po linijce przez interpreter bez wcześniejszej kompilacji. Przykłady języków: Python, JavaScript, Ruby, PHP. Przykłady interpreterów: CPython, Node. js, Ruby MRI, PHP Engine, Lua Interpreter. Dzięki temu kod działa od razu.
92. Omów sposób instalacji i zarządzania bibliotekami (pakietami) w środowisku języka Python, podaj przykłady popularnych bibliotek
rozpocznij naukę
PIP package, instalowane z poziomu terminala, BIBLIOTEKI:-numpy (obliczenia mat), -pandas(analiza danych),-matplotlib(wizualizacja), -scikit-learn(uczenie maszynowe), -TensorFlow(sieci neuronowe)
93. Omów techniki iterowania na przykładzie wybranego języka programowania, np. R, Python
rozpocznij naukę
- for loop(do przeglądania list),-while loop(operacje aż do spełniania warunków),-enumerate(iterowanie z jednoczesnym dostępem do indeksu),-list comprehension (nowe listy za pomocą składni iteracyjnej),-zip(równoległa iteracja po wielu kolekcjach)
94. Omów koncepcję funkcji oraz zakresu ważności zmiennych na przykładzie wybranego języka programowania, np. R, Python
rozpocznij naukę
f-cja to blok kodu wykonujący zadanie i przyjmujący arg. Zakres zm. obejmuje zm lokalne (widoczne tylko w f-cji) i globalne (dostępne w całym programie). F-cja tworzy własny scope, co zapobiega kolizjom nazw i ułatwia modularność.
95. Co to jest silnik decyzyjny? Wymień reguły procesu akceptacji kredytowej implementowane w silniku decyzyjnym.
rozpocznij naukę
system automatyzujący podejm. decyzji na podst. zestawu reguł. W akceptacji kredytowej stosuje się reguły: scoring, weryfikacja dochodu, historii BIK, zadłużenia, limitów DTI, wieku, zatrudnienia, celu kredytu oraz blacklist/whitelist.
96. Omów pojęcia związane z przygotowaniem danych i zdarzeniem modelowym: punkt obserwacji, okres danych i okres obserwacji, wymień najczęstsze błędy modelowania (np. wzięcie danych z przyszłości) i problemy z doborem długości obu okresów.
rozpocznij naukę
to moment tworz. cech; okr danych to czas, z którego je liczymy, a okr obserwacji to czas na ocenę zd. Błędy: użycie danych z przyszłości, zbyt krótkie okna, niestabilność cech. Problemem jest dobranie okien tak, by oddawały realne zachowania.
97. Omów przykładową kartę scoringową. Jak wyznacza się punkty cząstkowe? Jak interpretuje się kartę scoringową?
rozpocznij naukę
narzędzie na regresji log., pkty w zależności od cech klienta, obl. z wag modelu (WOE). Wynik klienta ozn. pr-stwo spłaty zob. Wyższy score ozn niższe ryzyko. Kartę interpretuje się przez progi akc., odrzuceń i segmenty ryzyka.
98. W jaki sposób obliczana jest opłacalność procesu akceptacji kredytowej? Jaką rolę w tym odgrywa model scoringowy?
rozpocznij naukę
ocenia się poprzez porównanie przychodów (odsetki, prowizje) z kosztami ryzyka i stratami z defaultów. Model scoringowy szacuje pr-stwo niewypłacalności, pozwala ustalić progi akceptacji i optymalnie dobrać klientów, max zysk portfela.
99. Co to jest analiza wpływu wniosków odrzuconych (Reject Inference)?
rozpocznij naukę
tech. szac. ryzyka klientów odrz. w proc. kredyt., aby ogr. bias w modelu spr. pr-stwo czy byłby dobrym/złym klientem nie znając ich później. zach., stosuje się met. imputacji do obec. już modelu, by popr. jakość scoringu i decyzji akcept.
100. Omów wpływ ludzkiego czynnika na proces akceptacji kredytowej, czy można zwiększyć sprzedaż i zmniejszyć ryzyko kredytowe jednocześnie?
rozpocznij naukę
Ludzki czynnik wpływa na błędy, odstęp. od reguł i niekonsekwencję decyzji. Automat. i scoring ogr. te ryzyka. Lepsze modele, segment. i opt. progi akcept. pozwalają zwięk. sprzedaż i zmn. ryzyko, kierując ofertę do właśc. klientów.

Musisz się zalogować, by móc napisać komentarz.