Monday 27 November 2017

T Sql Moving Average


La oss si at du har et bord med ca 5 millioner poster og en nvarchar (maks) kolonne fylt med store tekstdata. Du vil sette denne kolonnen til NULL hvis noen annen kolonne 1 er på raskest mulig måte. Den brute force UPDATE fungerer ikke veldig bra her fordi det vil skape stor implisitt transaksjon og ta for alltid. Å gjøre oppdateringer i små batcher av 50K-poster om gangen, men det tar fortsatt 47 timer å fullføre på beefy 32 core64GB-serveren. Er det noen måte å gjøre denne oppdateringen raskere Er det noen magiske spørsmålstips-tabellalternativer som ofrer noe annet (som samtidighet) i bytte for hastighet MERK: Opprettelse av temportabell eller temp-kolonne er ikke et alternativ fordi denne nvarchar (maks) kolonnen innebærer mye av data og bruker så mye plass PS: Ja, SomeOtherColumn er allerede indeksert. Jeg er enig, vi gjør regelmessig oppdateringer som dette på bord med 50Million eller 500Million-poster, og det skjer i løpet av sekunder. Jeg vil gjette at den valgte søkeplanen ikke er veldig optimal og tar mye tid. Jeg har hatt dette med meg når det er en fremmed nøkkelbegrensning på et annet bord på en unindeksert kolonne. Etter å ha sett på spørreplanen skjønte vi at den måtte skanne den andre tabellen for hver sletning som var skyldige. Det hadde 23 millioner rader, indeksering av den andre tabellen brakte slett ned til under 5 sekunder. ndash Cobusve 7 Jun 10 kl 10:46 Fra alt jeg ser, ser det ikke ut til at problemene dine er relatert til indekser. Nøkkelen synes å være i det faktum at feltet nvarchar (max) inneholder mye data. Tenk på hva SQL må gjøre for å utføre denne oppdateringen. Siden kolonnen du oppdaterer er sannsynligvis mer enn 8000 tegn, lagres den utenfor siden, noe som innebærer ytterligere innsats ved å lese denne kolonnen når den ikke er NULL. Når du kjører en batch på 50000 oppdateringer, må SQL plassere dette i en implisitt transaksjon for å gjøre det mulig å rulle tilbake i tilfelle eventuelle problemer. For å kunne rulle tilbake må den lagre den opprinnelige verdien av kolonnen i transaksjonsloggen. Forutsatt (for enkelhets skyld) at hver kolonne inneholder i gjennomsnitt 10 000 byte data, betyr det at 50 000 rader inneholder rundt 500 MB data, som må lagres midlertidig (i enkel gjenopprettingsmodus) eller permanent (i full gjenopprettingsmodus). Det er ingen måte å deaktivere loggene da det vil kompromittere databasens integritet. Jeg kjørte en rask test på hundenes sakte skrivebord, og løpende batcher på til og med 10 000 blir forbudt sakte, men bringer størrelsen til 1000 rader, noe som innebærer en midlertidig loggstørrelse på rundt 10 MB, fungerte bare pent. Jeg lastet et bord med 350.000 rader og merket 50.000 av dem for oppdatering. Dette ferdigstilt på rundt 4 minutter, og siden det skaleres lineært, bør du kunne oppdatere hele 5Million-rader på min sakte desktop på hunden på rundt 6 timer på min 1-prosessor 2 GB-skrivebord, så jeg forventer noe mye bedre på din bøffe server støttet av SAN eller noe. Det kan hende du vil kjøre oppdateringsoppgaven din som en velg, bare velg primærnøkkelen og den store nvarchar-kolonnen, og sørg for at dette løper så fort du forventer. Selvfølgelig kan flaskehalsen være andre brukere som låser ting eller strid på lagring eller minne på serveren, men siden du ikke nevnte andre brukere, antar jeg at du har DB i enbrukermodus for dette. Som en optimalisering bør du sørge for at transaksjonsloggene er på en annen fysisk diskdiskgruppe enn dataene for å minimere søketider. Dette hjalp meg virkelig. Jeg gikk fra 2 timer til 20 minutter med dette. I min erfaring, som jobber i MSSQL 2005, flyttes hver dag (automatisk) 4 millioner 46-byte-poster (ingen nvarchar (maks)) fra ett bord i en database til en annen tabell i en annen database, tar ca. 20 minutter i en QuadCore 8GB , 2Ghz server og det gjør ikke skade på programytelsen. Ved å flytte mener jeg INSERT INTO SELECT og deretter SLETT. CPU-bruken går aldri over 30, selv når bordet som slettes, har 28M-poster, og det gjør hele tiden rundt 4K innskudd per minutt, men ingen oppdateringer. Vel, det er mitt tilfelle, det kan variere avhengig av serverbelastningen din. Angir at uttalelser (oppdateringene dine) kan lese rader som er endret av andre transaksjoner, men ikke ennå forpliktet. I mitt tilfelle er postene readonly. Jeg vet ikke hva rg-tsql betyr, men her finner du informasjon om transaksjons isolasjonsnivåer i MSSQL. Vær alltid forsiktig og sørg for at du forstår implikasjonene ved å lese ukomne transaksjoner. Ja, prosessen din må ikke vente på åpne transaksjoner for å begå før du sletter elementer, men selvfølgelig hvis transaksjonen ikke er forpliktet, vil alt dette bety at du har slettet raden feil. ndash Cobusve Jun 7 10 kl 10:43 Hvis du kjører et produksjonsmiljø med ikke nok plass til å duplisere alle dine bord, tror jeg at du leter etter problemer før eller senere. Hvis du gir litt informasjon om antall rader med SomeOtherColumn1, kan vi kanskje tenke på en annen måte, men jeg foreslår: 0) Sikkerhetskopier bordet ditt 1) ​​Indeks flaggkolonnen 2) Sett tabellalternativet til ingen loggtranctions. hvis posible 3) skriv en lagret prosedyre for å kjøre oppdateringene besvart 2. juni kl 3:17 BTW. trenger du å kjøre denne prosedyren mer enn en gang i et liv ndash Dr. belisarius Jun 2 10 at 3:24 Hvordan stiller du bordsmulighet til quotno log tranctionsquot ndash user356004 Jun 7 10 kl 9:56 Ditt svar 2017 Stack Exchange , IncMest folk er kjent med uttrykket, vil quotthis drepe to fugler med one stonequot. Hvis du ikke gjør det, refererer fasen til en tilnærming som adresserer to mål i en handling. (Dessverre er uttrykket i seg selv ganske ubehagelig, siden de fleste av oss ikke vil kaste stein på uskyldige dyr) I dag kommer jeg til å dekke noen grunnleggende om to gode funksjoner i SQL Server: Columnstore-indeksen (kun tilgjengelig i SQL Server Enterprise) og SQL Query Store. Microsoft implementerte faktisk Columnstore-indeksen i SQL 2012 Enterprise, selv om de har forbedret den i de to siste utgivelsene av SQL Server. Microsoft introduserte Query Store i SQL Server 2016. Så, hva er disse funksjonene og hvorfor er de viktige Vel, jeg har en demo som vil introdusere begge funksjonene og vise hvordan de kan hjelpe oss. Før jeg går videre, dekker jeg også dette (og andre SQL 2016-funksjoner) i min CODE Magazine-artikkel om nye funksjoner SQL 2016. Som en grunnleggende introduksjon kan Columnstore-indeksen bidra til å øke hastigheten på spørringer som skannegistrerer over store mengder data, og Query Store sporer forespørsler om henrettelser, utførelsesplaner og kjøretidsstatistikk som du vanligvis må samle inn manuelt. Stol på meg når jeg sier at disse er flotte funksjoner. For denne demoen skal jeg bruke demo-databasen til Microsoft Contoso Retail Data Warehouse. Løst snakkes Contoso DW som kvote virkelig stor AdventureWorksquot, med tabeller som inneholder millioner av rader. (Det største AdventureWorks-bordet inneholder omtrent 100 000 rader i det meste). Du kan laste ned Contoso DW-databasen her: microsoften-usdownloaddetails. aspxid18279. Contoso DW fungerer veldig bra når du vil teste ytelsen på spørsmål mot større bord. Contoso DW inneholder et standard datalager Fakta tabellen kalt FactOnLineSales, med 12,6 millioner rader. Det er absolutt ikke det største datalagertabellen i verden, men det er ikke barns spill heller. Anta at jeg vil oppsummere salgsbeløp for 2009, og rangere produktene. Jeg kan spørre faktabordet og bli med i produktdimensjonstabellen og bruke en RANK-funksjon, slik: Her er et delvis sett sett av de 10 øverste radene, av Total Sales. På min bærbare datamaskin (i7, 16 GB RAM) tar spørringen alt fra 3-4 sekunder til å kjøre. Det kan ikke virke som enden av verden, men enkelte brukere kan forvente umiddelbare resultater (slik du kan se umiddelbare resultater når du bruker Excel mot en OLAP-terning). Den eneste indeksen jeg har for øyeblikket på denne tabellen, er en klynget indeks på en salgsnøkkel. Hvis jeg ser på utførelsesplanen, gjør SQL Server et forslag om å legge til en dekselindeks i tabellen: Nå, bare fordi SQL Server antyder en indeks, betyr ikke at du blindt bør opprette indekser på hver kvoterende indexquot-melding. I dette tilfellet oppdager SQL Server imidlertid at vi filtrerer basert på år, og bruker produktnøkkelen og salgsbeløpet. Så foreslår SQL Server en dekselindeks, med DateKey som indeksnøkkelfelt. Årsaken til at vi kaller dette en quotcoveringquot-indeks er fordi SQL Server vil sitere langs den ikke-nøkkelfeltkvoten vi brukte i spørringen, citerer ridequot. På denne måten trenger ikke SQL Server å bruke tabellen eller den klyngede indeksen på alle databasemotorer kan bare bruke dekselindeksen for spørringen. Dekker indekser er populære i visse datalagring og rapportering av databasescenarier, selv om de kommer til en pris av databasemotoren som opprettholder dem. Merk: Omslagsindekser har eksistert lenge, så jeg har ennå ikke dekket Kolumnstore-indeksen og Query Store. Så vil jeg legge til dekselindeksen: Hvis jeg gjenoppretter det samme spørsmålet jeg kjørte for et øyeblikk siden (den som samlet salgsbeløpet for hvert produkt), synes spørringen noen ganger å kjøre om et sekund raskere, og jeg får en en annen utførelsesplan, en som bruker en indekssøk i stedet for en indekssøk (ved hjelp av datotasten på dekselindeksen for å hente salget for 2009). Så, før Columnstore Index, kan dette være en måte å optimalisere denne spørringen i mye eldre versjoner av SQL Server. Den går litt raskere enn den første, og jeg får en utførelsesplan med en indekssøk i stedet for en indekssøk. Imidlertid er det noen problemer: De to eksekveringsoperatørene quotIndex Seekquot og quotHash Match (Aggregate) citerer begge i hovedsak drift quote for rowquot. Tenk deg dette i et bord med hundrevis av millioner av rader. Relatert, tenk på innholdet i en faktabord: i dette tilfellet kan en enkelt nøkkelverdi og en enkelt produktnøkkelverdi gjentas over hundre tusenvis av rader (husk at faktabordet også har nøkler for geografi, markedsføring, salgsmann , etc.) Så når quotIndex Seekquot og quotHash Matchquot jobber rad for rad, gjør de så oververdier som kan gjentas over mange andre rader. Dette er normalt der jeg krysser til SQL Server Columnstore-indeksen, som gir et scenario for å forbedre ytelsen til denne spørringen på utrolige måter. Men før jeg gjør det, la vi gå tilbake i tid. La oss gå tilbake til år 2010, da Microsoft introduserte et tillegg for Excel kjent som PowerPivot. Mange husker sannsynligvis å se demo av PowerPivot for Excel, der en bruker kunne lese millioner av rader fra en ekstern datakilde til Excel. PowerPivot vil komprimere dataene, og gi en motor til å lage pivottabeller og pivotdiagrammer som utføres med fantastiske hastigheter mot komprimerte data. PowerPivot brukte en innebygd teknologi som Microsoft kalte quotVertiPaqquot. Denne minneteknologien i PowerPivot vil i utgangspunktet ta dupliserte nøkkelverdier for virksomhetsnøkkelknapper og komprimere dem ned til en enkelt vektor. In-memory-teknologien vil også scanaggregere disse verdiene parallelt, i blokker på flere hundre ad gangen. Den nederste linjen er at Microsoft bakte en stor mengde ytelsesforbedringer i VertiPaq-minnefunksjonen, slik at vi kan bruke det helt ut av den ordspråklige boksen. Hvorfor tar jeg denne lille spasertur ned minnekort Siden Microsoft i SQL Server 2012 implementerte en av de viktigste funksjonene i historien til databasemotoren: Columnstore-indeksen. Indeksen er egentlig bare en indeks i navn: det er en måte å ta et SQL Server-bord på og lage et komprimert kolonneforlag i minnet som komprimerer dupliserte utenlandske nøkkelverdier ned til enkeltvektverdier. Microsoft opprettet også et nytt bufferbasseng for å lese disse komprimerte vektorverdiene parallelt, noe som skaper potensialet for store ytelsesgevinster. Så, jeg kommer til å lage en kolonneindeks på bordet, og jeg får se hvor mye bedre (og mer effektivt) spørringen går, i motsetning til spørringen som går mot dekselindeksen. Så, jeg vil lage en kopi av FactOnlineSales (I39ll call It FactOnlineSalesDetailNCCS), og jeg vil opprette en kolonnestatistikkindeks på duplikatbordet slik at jeg vil blande opp det opprinnelige bordet og dekselindeksen på noen måte. Deretter lager jeg en kolonneindeks på det nye bordet: Merk flere ting: Jeg har angitt flere utenlandske nøkkel kolonner, samt salgsbeløpet. Husk at en kolonnemarkedsindeks ikke er som en tradisjonell rade-indeks. Det er ingen quotkeyquot. Vi indikerer bare hvilke kolonner SQL Server skal komprimere og plassere i et kolonnekort i minnet. For å bruke analogien til PowerPivot for Excel når vi lager en kolonneforhandlerindeks, forteller vi at SQL Server skal gjøre det samme som PowerPivot gjorde da vi importerte 20 millioner rader til Excel ved hjelp av PowerPivot. Så, I39ll kjører spørringen igjen denne gangen det dupliserte FactOnlineSalesDetailNCCS-tabellen som inneholder kolonneforhandlingsindeksen. Denne spørringen kjører øyeblikkelig på mindre enn et sekund. Og jeg kan også si at selv om bordet hadde hundrevis av millioner av rader, ville det fortsatt kjøre på det ordspråklige sitatet på en øyenvippe. Vi kunne se på utførelsesplanen (og i noen få minutter vil vi), men nå er det på tide å dekke Query Store-funksjonen. Tenk deg et øyeblikk, at vi kjørte begge spørringene over natten: spørringen som brukte det vanlige FactOnlineSales-tabellen (med dekselindeksen) og deretter spørringen som brukte duplikatabellen med Columnstore-indeksen. Når vi logger på neste morgen, ønsker vi å se utførelsesplanen for begge spørringene som de skjedde, samt utførelsesstatistikken. Med andre ord, vi liker å se den samme statistikken som vi kunne se om vi kjørte begge spørsmålene interaktivt i SQL Management Studio, slått på TIME og IO Statistics, og så på utførelsesplanen umiddelbart etter at forespørselen ble utført. Vel, det er det som spørringsbutikken tillater oss å gjøre, vi kan slå på (aktivere) spørringslager for en database, noe som vil utløse SQL Server for å lagre søkekspedisjon og planlegge statistikk slik at vi kan se dem senere. Så, jeg kommer til å aktivere Query Store i Contoso-databasen med følgende kommando (og I39ll fjerner også eventuelt caching): Så kjører jeg de to spørringene (og quotequotot jeg kjørte dem for noen timer siden): La oss nå late som de kjørte timer siden. Ifølge det jeg sa, vil Query Store fange utførelsesstatistikken. Så hvordan ser jeg på dem Heldigvis er det ganske enkelt. Hvis jeg utvider Contoso DW-databasen, ser jeg en mappe med spørringslager. Query Store har enorm funksjonalitet, og jeg vil prøve å dekke mye av det i etterfølgende blogginnlegg. Men for øyeblikket vil jeg se utførelsesstatistikk for de to spørringene, og spesifikt undersøke eksekveringsoperatørene for kolonneforhandlingsindeksen. Så høyreklikker jeg på de beste ressursforbrukerne og kjører det alternativet. Det gir meg et diagram som det nedenfor, hvor jeg kan se eksekveringsvarighetstid (i millisekunder) for alle forespørsler som er utført. I dette tilfellet var spørring 1 spørringen mot det opprinnelige bordet med dekselindeksen, og spørring 2 var mot bordet med kolonneforhandlingsindeksen. Tallene ligger ikke i kolonnestatistikkindeksen bedre enn den opprinnelige bordbelegningsindeksen med en faktor på nesten 7 til 1. Jeg kan endre metriske for å se på minnekonsumt i stedet. Merk i så fall at spørring 2 (kolonneforlagsindekset spørringen) brukte mye mer minne. Dette demonstrerer tydelig hvorfor kolonneforhandlingsindeksen representerer quotin-memoryquot-teknologi. SQL Server laster inn hele kolonneforhandlingsindeksen i minnet, og bruker et helt annet buffertbasseng med forbedrede eksekveringsoperatører for å behandle indeksen. OK, så vi har noen grafer for å se utførelsesstatistikk, kan vi se eksekveringsplanen (og eksekveringsoperatørene) knyttet til hver utførelse Ja, vi kan Hvis du klikker på den vertikale linjen for spørringen som brukte kolonneforhandlingsindeksen, ser du kjøringen planlegg under. Det første vi ser er at SQL Server har utført en kolonnestedsindekssøk, og det representerte nesten 100 av kostnaden for spørringen. Du kan kanskje si, et øyeblikk, det første spørsmålet brukte en dekselindeks og utførte en indeks, så hvordan kan en kolonnekursindeks skje raskere? Det er et legitimt spørsmål, og heldigvis er det et svar. Selv når den første spørringen utførte en indekssøk, utførte den fortsatt kvote etter radikott. Hvis jeg legger musen over kolonnestedsindeks-skannoperatøren, ser jeg et verktøytips (som den nedenfor) med en viktig innstilling: Utførelsesmodusen er BATCH (i motsetning til ROW. Som er det vi hadde med det første spørsmålet ved hjelp av dekker indeksen). Den BATCH-modusen forteller oss at SQL Server behandler de komprimerte vektorene (for eventuelle utenlandske nøkkelverdier som dupliseres, for eksempel produktnøkkelen og dato-nøkkelen) i grupper på nesten 1000, parallelt. Så SQL Server er fortsatt i stand til å behandle kolonnestatistikkindeksen mye mer effektivt. I tillegg, hvis jeg legger musen over Hash Match (Aggregate) - oppgaven, ser jeg også at SQL Server samler inn kolonnemarkedsindeksen ved hjelp av Batch-modus (selv om operatøren selv representerer en så liten prosentandel av kostnaden for spørringen) kan spørre, quotOK, så SQL Server komprimerer verdiene i dataene, behandler verdiene som vektorer, og leser dem i blokker med nesten tusen verdier parallelt, men spørringen min bare ønsket data for 2009. Så er SQL Server-skanning over hele settet med dataquot igjen, et godt spørsmål. Svaret er, quote Ikke virkelig. Heldigvis for oss utfører den nye kolonnestørrelsen indeksbufferbasseng en annen funksjon kalt quotsegment eliminationquot. I utgangspunktet vil SQL Server undersøke vektorverdiene for dato-nøkkelkolonnen i kolonnestatistikkindeksen, og eliminere segmenter som er utenfor omfanget av året 2009. Jeg stopper her. I etterfølgende blogginnlegg dekker jeg39ll både kolonnestedsindeksen og Query Store mer detaljert. I hovedsak er det vi har sett her i dag at Columnstore-indeksen kan øke hastigheten på spørringer som skannerer over store mengder data, og Query Store vil fange spørsmålstiltak og la oss undersøke utførelses - og resultatstatistikk senere. Til slutt vil vi gjerne produsere et resultatsett som viser følgende. Legg merke til tre ting: Kolonnene svinger i det vesentlige alle mulige returårsaker, etter å ha vist salgsbeløpet Resultatsettet inneholder subtotaler ved uken slutter (søndag) dato over alle klienter (der klienten er null) Resultatet sett inneholder en total sum rad (hvor klient og dato er begge null) Først, før jeg kommer inn i SQL-enden, kunne vi bruke den dynamiske pivotmatrix-funksjonen i SSRS. Vi ville bare måtte kombinere de to resultatene med en kolonne, og da kunne vi mate resultatene til SSRS-matrisekontrollen, som vil spre returårsakene over kolonnens akse i rapporten. Men ikke alle bruker SSRS (selv om de fleste burde). Men selv da, må utviklere noen ganger forbruke resultatsett i noe annet enn et rapporteringsverktøy. Så for dette eksempelet, antar vi at vi ønsker å generere resultatsettet for en nettrutenett, og evt. Utvikleren ønsker å quotustrip outquot de subtotale radene (hvor jeg har en ResultatSetNum-verdi på 2 og 3) og plasser dem i et oppsummeringsnett. Så bunnlinjen, vi trenger å generere utgangen over direkte fra en lagret prosedyre. Og som en ekstra vridning neste uke kan det være Return Reason X og Y og Z. Så vi vet ikke hvor mange tilbake grunner det kan være. Vi ønsker enkelt at spørringen skal svinge på de mulige forskjellige verdiene for returårsak. Her er hvor T-SQL PIVOT har en begrensning vi trenger for å gi den mulige verdier. Siden vi vant vet at inntil løpstid, må vi generere spørringsstrengen dynamisk ved hjelp av det dynamiske SQL-mønsteret. Det dynamiske SQL-mønsteret innebærer å generere syntaksen, stykke for hverandre, lagre den i en streng, og deretter utføre strengen på slutten. Dynamisk SQL kan være vanskelig, da vi må legge inn syntaks i en streng. Men i dette tilfellet er det vårt eneste sanne alternativ hvis vi ønsker å håndtere et variert antall returårsaker. Jeg har alltid funnet ut at den beste måten å skape en dynamisk SQL-løsning på, er å finne ut hva quote-quotet genererte spørringen ville være på slutten (i dette tilfellet, gitt Return grunnene vi vet om).og deretter reversere det ved å kutte det sammen en del om gangen. Og så, her er SQL-en som vi trenger hvis vi visste at disse returgrunnene (A through D) var statiske og ikke ville endre seg. Spørringen gjør følgende: Kombinerer dataene fra SalesData med dataene fra ReturnData, der vi quothard-wirequot ordet Salg som en handlingstype danner salgstabellen, og deretter bruker du returårsaken fra returdataene til samme handlingstype-kolonne. Det vil gi oss en ren ActionType-kolonne som kan pivotere. Vi kombinerer de to SELECT-setningene til et felles tabelluttrykk (CTE), som i utgangspunktet er en avledet tabellundersøkelse som vi senere bruker i neste setning (til PIVOT) En PIVOT-setning mot CTE, som summerer dollarene for Action Type å være i en av de mulige Action Type-verdiene. Merk at dette er det siste resultatsettet. Vi legger dette inn i en CTE som leser fra den første CTE. Årsaken til dette er fordi vi vil gjøre flere grupperinger på slutten. Den endelige SELECT-setningen, som leser fra PIVOTCTE, og kombinerer den med en etterfølgende spørring mot samme PIVOTCTE, men hvor vi også implementerer to grupperinger i funksjonen GROUPING SETS i SQL 2008: GROUPING etter ukenes sluttdato (dbo. WeekEndingDate) GRUPPERING for alle rader () Så hvis vi visste med sikkerhet at vi aldri hadde flere returårsaker, så ville det være løsningen. Imidlertid må vi ta hensyn til andre årsakskoder. Så vi må generere hele spørringen ovenfor som en stor streng der vi bygger de mulige returårsakene som en kommaseparert liste. Jeg kommer til å vise hele T-SQL-koden for å generere (og utføre) det ønskede spørsmålet. Og så bryter jeg det ut i deler og forklarer hvert trinn. Så først, her er hele koden for å dynamisk generere det jeg har fått over. Det er i utgangspunktet fem trinn vi må dekke. Trinn 1 . Vi vet at et sted i blandingen må vi generere en streng for dette i spørringen: SalesAmount, Årsak A, Årsak B, Årsak C, Årsak D0160016001600160 Det vi kan gjøre er å bygge et midlertidig felles borduttrykk som kombinerer det hardt kablede quotSales Amountquot kolonne med den unike listen over mulige grunnkoder. Når vi har det i en CTE, kan vi bruke det fine, lette trikset FOR FORMAT PATH (3939) for å kollapse disse radene i en enkelt streng, legg et komma foran hver rad som spørringen leser, og bruk deretter STUFF til å erstatte Første forekomst av et komma med tomt rom. Dette er et triks som du kan finne i hundrevis av SQL-blogger. Så denne første delen bygger en streng kalt ActionString som vi kan bruke lenger ned. Steg 2 . Vi vet også at vi vil SUM de genererte pivoted årsakskolonnene, sammen med standard salgskolonnen. Så vi trenger en separat streng for det, som jeg vil ringe SUMSTRING. I39ll bruker bare den opprinnelige ActionString, og erstatt deretter de ytre parentesene med SUM-syntaks, pluss originale braketter. Trinn 3: Nå begynner det virkelige arbeidet. Ved å bruke det opprinnelige spørsmålet som en modell, ønsker vi å generere det opprinnelige spørsmålet (begynner med UNION av de to tabellene), men erstatter eventuelle referanser til svingte kolonner med strenger vi dynamisk generert ovenfor. Også, mens det ikke er absolutt nødvendig, har jeg også opprettet en variabel til bare noen vognreturneringsmatematkombinasjoner som vi vil legge inn i det genererte spørsmålet (for lesbarhet). Så vi vil konstruere hele spørringen til en variabel som heter SQLPivotQuery. Trinn 4. Vi fortsetter å konstruere spørringen igjen, sammenføyning av syntaksen vi kan quothard-wirequot med ActionSelectString (som vi genererte dynamisk for å holde alle mulige returårsverdier). Trinn 5. Endelig vil vi generere den siste delen av Pivot Query, som leser fra 2: e felles tabelluttrykk (PIVOTCTE, fra modellen ovenfor) og genererer den endelige SELECT å lese fra PIVOTCTE og kombinere den med en andre leser mot PIVOTCTE til implementer gruppesettene. Til slutt kan vi quotexecutequot strengen ved hjelp av SQL-systemet lagret proc spexecuteSQL Så forhåpentligvis kan du se at prosessen for å følge for denne typen innsats, er å avgjøre hva den endelige spørringen ville være, basert på ditt nåværende sett med data og verdier (dvs. bygget en spørringsmodell) Skriv den nødvendige T-SQL-koden for å generere forespørselsmodellen som en streng. Kanskje den viktigste delen er å bestemme det unike settet av verdier som du vil PIVOT, og deretter kollapse dem i en streng ved hjelp av STUFF-funksjonen og FOR XML PATH (3939) triks Så hva skjer i dag Vel, minst 13 elementer To somre siden skrev jeg et utkast til BDR som fokuserte (delvis) på rollen som utdanning og verdien av en god liberal kunstbakgrunn, ikke bare for programvarebransjen, men også for andre næringer. Et av temaene til denne spesielle BDR understreket et sentralt og opplyst synspunkt fra den anerkjente programarkitekten Allen Holub angående liberal kunst. Jeg forklarer sannelig hans budskap: Han utheste parallellene mellom programmering og studere historie ved å minne alle om at historien leser og skriver (og jeg legger til, identifiserer mønstre), og programvareutvikling leser og skriver også (og igjen, identifisere mønstre ). Og så skrev jeg et meningsstykke som fokuserte på dette og andre relaterte emner. Men til i dag har jeg aldri kommet rundt for å enten publisere det. Hvert så ofte Id tenker på å revidere det, og Id setter seg selv ned i noen minutter og gjør noen tilpasninger til det. Men da ville livet generelt komme seg og Id aldri fullføre det. Så hva forandret For noen uker siden skrev kollega CoDe Magazine-kolonne og industrileder Ted Neward et stykke i sin vanlige kolonne, Managed Coder, som fikk oppmerksomheten min. Tittelen på artikkelen er On Liberal Arts. og jeg anbefaler at alle leser det. Ted diskuterer verdien av en liberal arts bakgrunn, den falske dikotomi mellom en liberal arts bakgrunn og suksess i programvareutvikling, og behovet for å skrive godt. Han snakker om noen av sine tidligere møter med HR-personaleledelse om hans pedagogiske bakgrunn. Han understreker også behovet for å godta og tilpasse seg endringer i vår bransje, samt kjennetegnene til en vellykket programvareprofessor (å være pålitelig, planlegge fremover og lære å komme forbi den første konflikten med andre lagmedlemmer). Så det er en god les, og det er Teds andre CoDe-artikler og blogginnlegg. Det fikk meg også tilbake til å tenke på mine synspunkter på dette (og andre emner) også, og til slutt motiverte meg til å fullføre mitt eget redaksjonelt. Så, bedre sent enn aldri, her er mitt nåværende Bakers Dozen of Reflections: Jeg sier: Vann fryser ved 32 grader. Hvis du er i en treningsopplæringsrolle, tror du kanskje du gjør alt i verden for å hjelpe noen når de faktisk føler seg en temperatur på 34 grader, og derfor er det ikke noe som gjør det sterkere for dem. Noen ganger tar det bare litt mer innsats eller en annen ideakemisk katalysator eller et nytt perspektiv, noe som betyr at de med tidligere utdanning kan trekke på forskjellige kilder. Vannet fryser ved 32 grader. Noen mennesker kan opprettholde høye konsentrasjoner selv med et rom fullt av støyende mennesker. Jeg er ikke en av dem noen ganger, jeg trenger litt privatliv for å tenke gjennom et kritisk problem. Noen beskriver dette som du må lære å gå bort fra det. Oppgitt på en annen måte, det er et søk etter den sjeldne luften. Denne uken tilbrakte jeg timer i halvt opplyst, stille rom med whiteboard, til jeg fullt ut forstod et problem. Det var først da jeg kunne snakke med andre utviklere om en løsning. Meldingen her er ikke å forkynne hvordan du skal gå om din virksomhet med å løse problemer, men heller for alle å kjenne deres styrker og hva som fungerer, og bruke dem til din fordel så mye som mulig. Noen setninger er som negler på en tavle for meg. Bruk det som et undervisningsmoment er en. (Hvorfor er det som negler på en tavle? For hvis du er en mentorroll, bør du vanligvis være i undervisningsmodus uansett, men subtilt). Heres en annen jeg kan ikke virkelig forklare det med ord, men jeg forstår det. Dette kan høres litt kaldt, men hvis en person virkelig ikke kan forklare noe i ord, kan de kanskje ikke forstå det. Jo, en person kan ha en fuzzy følelse av hvordan noe fungerer. Jeg kan bløffe meg gjennom å beskrive hvordan et digitalkamera fungerer, men sannheten er at jeg ikke forstår det så bra. Det er et fagområde som kalles epistemologi (studiet av kunnskap). En av de grunnleggende grunnlagene for å forstå om det er et kamera eller et mønster - er evnen til å etablere sammenheng, å identifisere kjeden av relaterte hendelser, egenskapene til noen komponenter underveis, etc. Ja, forståelse er noen ganger veldig hardt arbeid , men å dykke inn i et emne og bryte det fra hverandre er verdt innsatsen. Selv de som unngår sertifisering, vil erkjenne at prosessen med å studere for sertifiseringstester vil bidra til å fylle hull i kunnskap. En databasesjef er mer sannsynlig å ansette en databaseutvikler som kan snakke ekstremt (og uten problemer) om transaksjonsisolasjonsnivåer og utløsere, i motsetning til noen som vet om det, men sliter med å beskrive bruken av dem. Det er en annen konsekvens her. Ted Neward anbefaler at utviklere tar opp offentlige taler, blogger osv. Jeg er enig i 100. Prosessen med taler og blogging vil praktisk tvinge deg til å begynne å tenke på emner og bryte ned definisjoner som du kanskje ellers hadde tatt for gitt. For noen år siden trodde jeg at jeg forsto T-SQL MERGE-setningen ganske bra. Men først etter å ha skrevet om det og snakket om å sette spørsmål fra andre som hadde perspektiver som aldri skjedde for meg at forståelsesnivået mitt økte eksponentielt. Jeg kjenner en historie om en ansatt leder som en gang intervjuet en forfatterutvikler for en kontraktsposisjon. Ansatteforvalteren var forakt av publikasjoner generelt, og barket på søkeren. Så hvis du skal jobbe her, vil du helst skrive bøker eller skrive kode Ja, jeg gir det i noen bransjer vil det være noen rene akademikere. Men det som ansette lederen savnet var mulighetene for å styrke og skarpe ferdighetssett. Mens jeg rydde ut en gammel boks bok, kom jeg over en skatt fra 1980-tallet: Programmerere på jobb. som inneholder intervjuer med en veldig ung Bill Gates, Ray Ozzie, og andre kjente navn. Hvert intervju og hvert innsikt er verdt prisen på boken. Etter min mening var det mest interessante intervjuet med Butler Lampson. som ga noen kraftige råd. Til helvete med datakompetanse. Det er helt latterlig. Studer matematikk. Lær å tenke. Lese. Write. These things are of more enduring value. Learn how to prove theorems: A lot of evidence has accumulated over the centuries that suggests this skill is transferable to many other things. Butler speaks the truth . Ill add to that point learn how to play devils advocate against yourself. The more you can reality-check your own processes and work, the better off youll be. The great computer scientistauthor Allen Holub made the connection between software development and the liberal arts specifically, the subject of history. Here was his point: what is history Reading and writing. What is software development Among other things, reading and writing . I used to give my students T-SQL essay questions as practice tests. One student joked that I acted more like a law professor. Well, just like Coach Donny Haskins said in the movie Glory Road, my way is hard. I firmly believe in a strong intellectual foundation for any profession. Just like applications can benefit from frameworks, individuals and their thought processes can benefit from human frameworks as well. Thats the fundamental basis of scholarship. There is a story that back in the 1970s, IBM expanded their recruiting efforts in the major universities by focusing on the best and brightest of liberal arts graduates. Even then they recognized that the best readers and writers might someday become strong programmersystems analysts. (Feel free to use that story to any HR-type who insists that a candidate must have a computer science degree) And speaking of history: if for no other reason, its important to remember the history of product releases if Im doing work at a client site thats still using SQL Server 2008 or even (gasp) SQL Server 2005, I have to remember what features were implemented in the versions over time. Ever have a favorite doctor whom you liked because heshe explained things in plain English, gave you the straight truth, and earned your trust to operate on you Those are mad skills . and are the result of experience and HARD WORK that take years and even decades to cultivate. There are no guarantees of job success focus on the facts, take a few calculated risks when youre sure you can see your way to the finish line, let the chips fall where they may, and never lose sight of being just like that doctor who earned your trust. Even though some days I fall short, I try to treat my client and their data as a doctor would treat patients. Even though a doctor makes more money There are many clichs I detest but heres one I dont hate: There is no such thing as a bad question. As a former instructor, one thing that drew my ire was hearing someone criticize another person for asking a supposedly, stupid question. A question indicates a person acknowledges they have some gap in knowledge theyre looking to fill. Yes, some questions are better worded than others, and some questions require additional framing before they can be answered. But the journey from forming a question to an answer is likely to generate an active mental process in others. There are all GOOD things. Many good and fruitful discussions originate with a stupid question. I work across the board in SSIS, SSAS, SSRS, MDX, PPS, SharePoint, Power BI, DAX all the tools in the Microsoft BI stack. I still write some code from time to time. But guess what I still spend so much time doing writing T-SQL code to profile data as part of the discovery process. All application developers should have good T-SQL chops. Ted Neward writes (correctly) about the need to adapt to technology changes. Ill add to that the need to adapt to clientemployer changes. Companies change business rules. Companies acquire other companies (or become the target of an acquisition). Companies make mistakes in communicating business requirements and specifications. Yes, we can sometimes play a role in helping to manage those changes and sometimes were the fly, not the windshield. These sometimes cause great pain for everyone, especially the I. T. people. This is why the term fact of life exists we have to deal with it. Just like no developer writes bug-free code every time, no I. T. person deals well with change every single time. One of the biggest struggles Ive had in my 28 years in this industry is showing patience and restraint when changes are flying from many different directions. Here is where my prior suggestion about searching for the rarified air can help. If you can manage to assimilate changes into your thought process, and without feeling overwhelmed, odds are youll be a significant asset. In the last 15 months Ive had to deal with a huge amount of professional change. Its been very difficult at times, but Ive resolved that change will be the norm and Ive tried to tweak my own habits as best I can to cope with frequent (and uncertain) change. Its hard, very hard. But as coach Jimmy Duggan said in the movie A League of Their Own: Of course its hard. If it wasnt hard, everyone would do it. The hard, is what makes it great . A powerful message. Theres been talk in the industry over the last few years about conduct at professional conferences (and conduct in the industry as a whole). Many respected writers have written very good editorials on the topic. Heres my input, for what its worth. Its a message to those individuals who have chosen to behave badly: Dude, it shouldnt be that hard to behave like an adult. A few years ago, CoDe Magazine Chief Editor Rod Paddock made some great points in an editorial about Codes of Conduct at conferences. Its definitely unfortunate to have to remind people of what they should expect out of themselves. But the problems go deeper. A few years ago I sat on a five-person panel (3 women, 2 men) at a community event on Women in Technology. The other male stated that men succeed in this industry because the Y chromosome gives men an advantage in areas of performance. The individual who made these remarks is a highly respected technology expert, and not some bozo making dongle remarks at a conference or sponsoring a programming contest where first prize is a date with a bikini model. Our world is becoming increasingly polarized (just watch the news for five minutes), sadly with emotion often winning over reason. Even in our industry, recently I heard someone in a position of responsibility bash software tool XYZ based on a ridiculous premise and then give false praise to a competing tool. So many opinions, so many arguments, but heres the key: before taking a stand, do your homework and get the facts . Sometimes both sides are partly rightor wrong. Theres only one way to determine: get the facts. As Robert Heinlein wrote, Facts are your single clue get the facts Of course, once you get the facts, the next step is to express them in a meaningful and even compelling way. Theres nothing wrong with using some emotion in an intellectual debate but it IS wrong to replace an intellectual debate with emotion and false agenda. A while back I faced resistance to SQL Server Analysis Services from someone who claimed the tool couldnt do feature XYZ. The specifics of XYZ dont matter here. I spent about two hours that evening working up a demo to cogently demonstrate the original claim was false. In that example, it worked. I cant swear it will always work, but to me thats the only way. Im old enough to remember life at a teen in the 1970s. Back then, when a person lost hisher job, (often) it was because the person just wasnt cutting the mustard. Fast-forward to today: a sad fact of life is that even talented people are now losing their jobs because of the changing economic conditions. Theres never a full-proof method for immunity, but now more than ever its critical to provide a high level of what I call the Three Vs (value, versatility, and velocity) for your employerclients. I might not always like working weekends or very late at night to do the proverbial work of two people but then I remember there are folks out there who would give anything to be working at 1 AM at night to feed their families and pay their bills. Always be yourselfyour BEST self. Some people need inspiration from time to time. Heres mine: the great sports movie, Glory Road. If youve never watched it, and even if youre not a sports fan I can almost guarantee youll be moved like never before. And Ill close with this. If you need some major motivation, Ill refer to a story from 2006. Jason McElwain, a high school student with autism, came off the bench to score twenty points in a high school basketball game in Rochester New York. Heres a great YouTube video. His mother said it all . This is the first moment Jason has ever succeeded and is proud of himself. I look at autism as the Berlin Wall. He cracked it. To anyone who wanted to attend my session at todays SQL Saturday event in DC I apologize that the session had to be cancelled. I hate to make excuses, but a combination of getting back late from Detroit (client trip), a car thats dead (blown head gasket), and some sudden health issues with my wife have made it impossible for me to attend. Back in August, I did the same session (ColumnStore Index) for PASS as a webinar. You can go to this link to access the video (itll be streamed, as all PASS videos are streamed) The link does require that you fill out your name and email address, but thats it. And then you can watch the video. Feel free to contact me if you have questions, at kgoffkevinsgoff November 15, 2013 Getting started with Windows Azure and creating SQL Databases in the cloud can be a bit daunting, especially if youve never tried out any of Microsofts cloud offerings. Fortunately, Ive created a webcast to help people get started. This is an absolute beginners guide to creating SQL Databases under Windows Azure. It assumes zero prior knowledge of Azure. You can go to the BDBI Webcasts of this website and check out my webcast (dated 11102013). Or you can just download the webcast videos right here: here is part 1 and here is part 2. You can also download the slide deck here. November 03, 2013 Topic this week: SQL Server Snapshot Isolation Levels, added in SQL Server 2005. To this day, there are still many SQL developers, many good SQL developers who either arent aware of this feature, or havent had time to look at it. Hopefully this information will help. Companion webcast will be uploaded in the next day look for it in the BDBI Webcasts section of this blog. October 26, 2013 Im going to start a weekly post of T-SQL tips, covering many different versions of SQL Server over the years Heres a challenge many developers face. Ill whittle it down to a very simple example, but one where the pattern applies to many situations. Suppose you have a stored procedure that receives a single vendor ID and updates the freight for all orders with that vendor id. create procedure dbo. UpdateVendorOrders update Purchasing. PurchaseOrderHeader set Freight Freight 1 where VendorID VendorID Now, suppose we need to run this for a set of vendor IDs. Today we might run it for three vendors, tomorrow for five vendors, the next day for 100 vendors. We want to pass in the vendor IDs. If youve worked with SQL Server, you can probably guess where Im going with this. The big question is how do we pass a variable number of Vendor IDs Or, stated more generally, how do we pass an array, or a table of keys, to a procedure Something along the lines of exec dbo. UpdateVendorOrders SomeListOfVendors Over the years, developers have come up with different methods: Going all the way back to SQL Server 2000, developers might create a comma-separated list of vendor keys, and pass the CSV list as a varchar to the procedure. The procedure would shred the CSV varchar variable into a table variable and then join the PurchaseOrderHeader table to that table variable (to update the Freight for just those vendors in the table). I wrote about this in CoDe Magazine back in early 2005 (code-magazinearticleprint. aspxquickid0503071ampprintmodetrue. Tip 3) In SQL Server 2005, you could actually create an XML string of the vendor IDs, pass the XML string to the procedure, and then use XQUERY to shred the XML as a table variable. I also wrote about this in CoDe Magazine back in 2007 (code-magazinearticleprint. aspxquickid0703041ampprintmodetrue. Tip 12)Also, some developers will populate a temp table ahead of time, and then reference the temp table inside the procedure. All of these certainly work, and developers have had to use these techniques before because for years there was NO WAY to directly pass a table to a SQL Server stored procedure. Until SQL Server 2008 when Microsoft implemented the table type. This FINALLY allowed developers to pass an actual table of rows to a stored procedure. Now, it does require a few steps. We cant just pass any old table to a procedure. It has to be a pre-defined type (a template). So lets suppose we always want to pass a set of integer keys to different procedures. One day it might be a list of vendor keys. Next day it might be a list of customer keys. So we can create a generic table type of keys, one that can be instantiated for customer keys, vendor keys, etc. CREATE TYPE IntKeysTT AS TABLE ( IntKey int NOT NULL ) So Ive created a Table Typecalled IntKeysTT . Its defined to have one column an IntKey. Nowsuppose I want to load it with Vendors who have a Credit Rating of 1..and then take that list of Vendor keys and pass it to a procedure: DECLARE VendorList IntKeysTT INSERT INTO VendorList SELECT BusinessEntityID from Purchasing. Vendor WHERE CreditRating 1 So, I now have a table type variable not just any table variable, but a table type variable (that I populated the same way I would populate a normal table variable). Its in server memory (unless it needs to spill to tempDB) and is therefore private to the connectionprocess. OK, can I pass it to the stored procedure now Well, not yet we need to modify the procedure to receive a table type. Heres the code: create procedure dbo. UpdateVendorOrdersFromTT IntKeysTT IntKeysTT READONLY update Purchasing. PurchaseOrderHeader set Freight Freight 1 FROM Purchasing. PurchaseOrderHeader JOIN IntKeysTT TempVendorList ON PurchaseOrderHeader. VendorID Te mpVendorList. IntKey Notice how the procedure receives the IntKeysTT table type as a Table Type (again, not just a regular table, but a table type). It also receives it as a READONLY parameter. You CANNOT modify the contents of this table type inside the procedure. Usually you wont want to you simply want to read from it. Well, now you can reference the table type as a parameter and then utilize it in the JOIN statement, as you would any other table variable. So there you have it. A bit of work to set up the table type, but in my view, definitely worth it. Additionally, if you pass values from , youre in luck. You can pass an ADO data table (with the same tablename property as the name of the Table Type) to the procedure. For developers who have had to pass CSV lists, XML strings, etc. to a procedure in the past, this is a huge benefit. Finally I want to talk about another approach people have used over the years. SQL Server Cursors. At the risk of sounding dogmatic, I strongly advise against Cursors, unless there is just no other way. Cursors are expensive operations in the server, For instance, someone might use a cursor approach and implement the solution this way: DECLARE VendorID int DECLARE dbcursor CURSOR FASTFORWARD FOR SELECT BusinessEntityID from Purchasing. Vendor where CreditRating 1 FETCH NEXT FROM dbcursor INTO VendorID WHILE FETCHSTATUS 0 EXEC dbo. UpdateVendorOrders VendorID FETCH NEXT FROM dbcursor INTO VendorID The best thing Ill say about this is that it works. And yes, getting something to work is a milestone. But getting something to work and getting something to work acceptably are two different things. Even if this process only takes 5-10 seconds to run, in those 5-10 seconds the cursor utilizes SQL Server resources quite heavily. Thats not a good idea in a large production environment. Additionally, the more the of rows in the cursor to fetch and the more the number of executions of the procedure, the slower it will be. When I ran both processes (the cursor approach and then the table type approach) against a small sampling of vendors (5 vendors), the processing times where 260 ms and 60 ms, respectively. So the table type approach was roughly 4 times faster. But then when I ran the 2 scenarios against a much larger of vendors (84 vendors), the different was staggering 6701 ms versus 207 ms, respectively. So the table type approach was roughly 32 times faster. Again, the CURSOR approach is definitely the least attractive approach. Even in SQL Server 2005, it would have been better to create a CSV list or an XML string (providing the number of keys could be stored in a scalar variable). But now that there is a Table Type feature in SQL Server 2008, you can achieve the objective with a feature thats more closely modeled to the way developers are thinking specifically, how do we pass a table to a procedure Now we have an answer Hope you find this feature help. Feel free to post a comment. Importing SQL Server Data Using SSIS - Which Option is Fastest By: Daniel Calbimonte Read Comments (27) Related Tips: More Integration Services Development This article is useful for SSIS developers who do not know which tasks are best to use in an SSIS projects. The main problem is that at the end of development if performance is slow then you will need to rebuild the project and change components. This article shows various ways of importing data and shows which types of components perform best within SSIS. The contest will be between the following components: ODBC Tasks ADO NET Tasks OLEDB Task SQL Server Destination T-SQL Tasks I created different SSIS packages in order to test performance. In this demo I used SSIS 2012 and the database Adventureworks 2012 . In this demo I am going to import the table AdventureWorks2012.Sales. SalesOrderDetail to the test2 database which is on the same instance of SQL Server. SalesOrderDetails is the table with more rows in AdventureWorks2012. In order to create the database test2 and the destination table dbo. OrderDetails, use this T-SQL code: Test 1 - ODBC Tasks The first example will use ODBC Source and ODBC Destination as shown below: When we run the package we notice the average time is 5 minutes 57 seconds to import the rows: Test 2 - ADO NET Tasks As noticed, ODBC is pretty slow. Lets try another approach. We are going to truncate the destination table first: Lets try ADO tasks to import the same data and verify if these components are faster: The average elapsed time in my testing was 11 seconds. This is much better. Test 3 - OLEDB Tasks This time we are going to import the same data using the OLEDB Tasks. Again we will truncate the table in the test2 database first. The average elapsed time is 5 seconds. Note that I am using the fast load option with the Table Lock option in the OLE DB Destination Task: If we do not use the fast load option, the average elapsed time was 2 minutes and 21 seconds: OK. The fast load option really improves performance. I will return to that configuration. What about the OLE DB Source. By default I am using the option Table or view in the OLE DB Source as shown below: Lets use a SQL Command instead as shown below. The average elapsed time is 2.85 seconds . Test 4 - SQL Server Destination Now, lets try to use the SQL Destination as the destination instead of OLE DB Destination: The average elapsed time is 2.5 seconds. At this point it is the best option. Test 5 - Execute T-SQL Task Finally, some people think that the best option is to use the Execute T-SQL Task: I am using a simple insert statement to import data from one source to another: The average elapsed time is 1.8 seconds Finally Ive been told that if the query runs inside a stored procedure it is even faster: Lets create a stored procedure: After creating the stored procedure we are going to call it in the Execute T-SQL Task: The average elapsed time is 2.12 seconds . The stored procedures does not improve performance. Lets review the table with the results: You may think the morale of the story is to use the Execute T-SQL Task instead of other SSIS tasks. In this example we were importing data on the same instance, but this will not always be the case. So the morale of the story is that there are many alternatives when creating a SSIS project and we have to carefully study the alternatives in different scenarios. There are great SSIS tools and we do not always use the best options. With each new version of SSIS new tasks are added and performance may be improved with existing tasks. The main changes in SSIS for SQL 2008 and 2012 are related to performance improvements. Next Steps If you are working in a SSIS project make sure you are using the best tasks and also verify if there are other SSIS tasks that can be used in your project. Also make sure you are following the best practices recommended by the experts: Last Update: 7132012 Great read and analysis, but I have one caveat to add. If you need to move a large amount of data, you need to take care of the transaction log growth. This is not a much of a concern using SSIS. For instance, I needed to move 1.3 billion rows (15 columns) and began using TSQL which quickly filled my logs. However, using OLE DB Source and Destination (Bulk Inserts) with fast load, there was little impact to the log file. Thursday, September 20, 2012 - 9:19:12 AM - vinodhkumar Its very useful. great job. Thanks Monday, August 27, 2012 - 10:54:42 AM - Orlando Colamatteo I agree with some others that the testbed is a bit contrived. If youre looking to move data from one table to another on the same instance then SSIS will rarely be a viable option. Some form of T-SQL will almost certainly outperform an SSIS operation. A more realistic scenario is moving data between two disparate data sources. It is surpising how poorly the ODBC Destination performs, especially in light of what Microsoft has publicly said in that they will be moving away from OLE DB interfaces and standardizing on ODBC in future products: In the ODBC Destination I expected Microsoft to implement the loading of data via the bulk load API as they did with the FastLoad option of the OLE DB Destination. On a separate note regarding loading data into MySQL with SSIS: In the past I did some performance tests with the Cherry City OLE DB driver for MySQL and it is horribly slow as it only inserts one row at a time. This is not to mention the fact that it crashed BIDS regularly when developing with it. Given the lack of a benefit I would stick with the tools built into SSIS and avoid the hassle of installing and configuring a third party driver. If youre using SSIS 2005 I would recommend using a Script Component as a Destination and issuing batch-inserts against a connection made using the MySQL ODBC Driver: msdn. microsoften-uslibraryms135939.aspx If youre using SSIS 2008 I would recommend using an ADO NET Destination with the MySQL ODBC Driver. In my tests it was only able to achieve about 240 rowsminute throughput to MySQL which is quite disappointing: msdn. microsoften-uslibrarybb895291(vsql.105).aspx If youre using SSIS 2012 I would recommend using an ODBC Destination with the MySQL ODBC Driver. In my tests it outperformed the ADO NET Destination over 3 to 1 but still only achieved about 800 rowsminute throughput, which was still quite disappointing: msdn. microsoften-uslibraryhh758691(vsql.110).aspx

No comments:

Post a Comment