신뢰성에 대한 재고: 사고로부터 배울 수 있는 것과 배울 수 없는 것

블로그

홈페이지홈페이지 / 블로그 / 신뢰성에 대한 재고: 사고로부터 배울 수 있는 것과 배울 수 없는 것

Jun 30, 2023

신뢰성에 대한 재고: 사고로부터 배울 수 있는 것과 배울 수 없는 것

InfoQ 홈페이지 프레젠테이션 신뢰성에 대한 재검토: 사고로부터 배울 수 있는 것과 배울 수 없는 것 Courtney Nash가 VOID에서 수집한 연구에 대해 논의하고

InfoQ 홈페이지 프레젠테이션 안정성에 대한 재고: 사고로부터 배울 수 있는 것과 배울 수 없는 것

Courtney Nash는 MMTR 추적 및 RCA 방법론 사용과 같은 사고 대응 및 분석을 위한 표준 업계 관행에 도전하는 VOID에서 수집된 연구에 대해 논의합니다.

Courtney Nash는 복잡한 사회기술적 시스템의 시스템 안전과 실패에 초점을 맞춘 연구원입니다. 그녀는 사람들이 학습하는 방식과 기억이 문제 해결 방식에 영향을 미치는 방식에 항상 매료되어 왔습니다. 지난 20년 동안 그녀는 Holloway, Fastly, O'Reilly Media, Microsoft 및 Amazon에서 다양한 편집, 프로그램 관리, 연구 및 관리 역할을 맡았습니다.

QCon Plus는 세계에서 가장 혁신적인 소프트웨어 조직이 활용하는 트렌드, 모범 사례 및 솔루션을 다루는 수석 소프트웨어 엔지니어 및 설계자를 위한 가상 컨퍼런스입니다.

얼리 어답터 회사의 수석 소프트웨어 개발자가 새로운 트렌드를 어떻게 채택하고 있는지 알아보고 올바른 결정을 내리세요. 지금 등록하세요!

내쉬: 저는 코트니 내쉬입니다. 저는 안정성에 대한 재고, 사고 지표에서 배울 수 있는 것과 배울 수 없는 것에 대해 이야기하려고 왔습니다. 저는 Verica의 Incident 인터넷 사서입니다. 저는 다양한 곳에서 오랜 경력을 갖고 있는 연구원입니다. 나는 뇌를 연구하곤 했어요. 저는 산악자전거가 우리가 발명한 가장 멋진 기술이라고 생각합니다.

저는 제가 만든 VOID에 대해 여러분께 이야기하려고 왔습니다. Verica Open Incident Database는 공개 소프트웨어 관련 사고 보고서가 수집되어 모든 사람이 이용할 수 있는 장소입니다. 우리의 목표는 인터넷을 더욱 탄력적이고 안전한 곳으로 만들기 위해 소프트웨어 기반 오류에 대한 인식을 높이고 이해를 높이는 것입니다. 왜 우리는 그것에 관심이 있습니까? 소프트웨어는 오랫동안 고양이 사진을 온라인에 호스팅하는 것 이상으로 의료 시스템의 교통, 인프라 및 하드웨어 운영, 투표 시스템 및 자율 차량의 장치로 옮겨갔기 때문입니다. 이러한 최신 온라인 시스템은 1년 365일, 하루 24시간 내내 실행될 것으로 예상됩니다. 클라우드에서 실행되는 점점 더 자동화되는 상호 연관된 서비스의 소프트웨어 모델과 결합하여 여러분 모두가 직면하고 있는 이러한 증가된 압력은 이러한 시스템의 복잡성을 가속화했습니다. 이미 알고 계시겠지만, 직접적인 경험을 통해 이러한 복잡한 시스템이 실패하면 예상하지 못한 혼란스러운 방식으로 실패하게 됩니다. 우리 모두에게는 사건이 있습니다. 예, 그것은 용이 화산에 불을 붙이는 쓰레기통 화재입니다. 내 생각에 당신이 직면하는 상황은 아마도 침대 밑에 괴물이 있고 언제 나올지 확신할 수 없는 캘빈과 홉스에 더 가깝다고 생각합니다.

정말 중요한 점은 기술 산업이 서로에게서 배우고 소프트웨어 탄력성과 안전성을 향상시키기 위해 공유할 수 있는 엄청난 양의 상품화된 지식을 보유하고 있다는 것입니다. 당신이 그것에 대해 전혀 회의적이라면 그럴 수도 있다는 것을 이해합니다. 이에 대한 역사적 우선순위가 있습니다. 우리 업종이 아니고 다른 업종입니다. 1990년대 미국 항공 산업은 약간의 위기에 처해 있었고 끔찍한 안전 기록을 갖고 있었습니다. 심각한 결과를 초래하는 사고가 정기적으로 발생했습니다. 업계는 처음부터 함께 모여 이 문제에 대해 뭔가 조치를 취하기로 결정했습니다. 다양한 항공사의 다양한 조종사들이 모여서 사고 데이터를 공유하기 시작했습니다. 그들은 자신들이 본 것에 대한 이야기와 패턴을 공유하기 시작했습니다. 결국 해당 업계의 더 많은 사람들이 참여하게 되었고, 규제 기관, 항공 교통 관제사, 수많은 사람들이 사건을 공유하고 공통점과 패턴을 찾기 위해 참여했습니다. 그 과정과 다른 활동을 통해 항공 산업의 안전 기록이 크게 향상되었습니다. 사실, 최근 몇 년간 Boeing MAX 사건이 발생하기 전까지는 심각한 사건이 발생하지 않았습니다. 규제 담당자가 나타나기도 전에 실무자로서 처음부터 이를 수행하는 것이 가능합니다. 그게 중요해요.