Đánh giá định lượng các công cụ AI tạo sinh trong kiến trúc từ thực tiễn triển khai

Đánh giá định lượng các công cụ AI tạo sinh trong kiến trúc từ thực tiễn triển khai

Giới thiệu nghiên cứu

Trong vài năm trở lại đây, công nghệ trí tuệ nhân tạo (AI) đã xâm nhập mạnh mẽ vào lĩnh vực kiến trúc và quy hoạch. Từ năm 2020, các ứng dụng AI đã bắt đầu được triển khai rộng rãi, mang lại những thay đổi đáng kể trong cách thức thiết kế và quản lý các dự án xây dựng. Việc ứng dụng AI trong ngành kiến trúc hiện nay là một xu hướng thời sự, bởi nó không chỉ giúp tối ưu hóa quy trình thiết kế mà còn nâng cao khả năng sáng tạo và giảm thiểu chi phí. AI có khả năng phân tích dữ liệu lớn, dự đoán xu hướng và tự động hóa nhiều công đoạn trong thiết kế, từ việc thu thập thông tin hiện trạng đến lên ý tưởng kiến trúc và triển khai các nội dung thiết kế kỹ thuật.

Một vài hướng khai thác và khám phá chính trong công nghệ AI có thể gồm:

  • Học máy (Machine learning – ML): Là một nhánh của AI, tập trung vào việc phát triển các thuật toán cho phép máy móc “học” từ dữ liệu mà không cần được lập trình một cách cụ thể với các nhánh như hồi quy (Regression), mạng nơ ron nhân tạo (Neural Networks), phân loại (classification), tối ưu hóa (optimazation), cụm (clustering), thị giác máy tính (computer vision), hệ thống gợi ý (recomender system), dự báo (forecasting), NLP/LLM (Natural Language Processing/Large Language Models);
  • Học sâu (Deep learning): Một nhánh của ML, sử dụng mạng nơ-ron sâu để mô phỏng hoạt động của bộ não con người trong việc xử lý dữ liệu;
  • Nhận thức (Cognitive computing): Mô phỏng các quá trình nhận thức của con người (như suy nghĩ, nhớ và học hỏi) trong máy tính;
  • Robotics: Áp dụng AI trong thiết kế và vận hành rô bốt;
  • Logic mờ (Fuzzy logic): AI hỗ trợ để xử lý sự không chắc chắn, mơ hồ và dữ liệu không chính xác, giúp hệ thống ra quyết định giống con người hơn với một số đặc điểm mô phỏng hành vi ra quyết định của chúng ta;
  • Hệ chuyên gia (Expert systems): Hệ chuyên gia là một hệ thống máy tính mô phỏng khả năng ra quyết định của một người chuyên gia, được thiết kế để giải quyết các vấn đề phức tạp bằng cách lý luận thông qua các khối kiến thức.

Công nghệ AI nói chung và AI tạo sinh nói riêng đã và đang bắt đầu làm thay đổi cách chúng ta thiết kế, và dần dần làm thay đổi các quy trình thiết kế kiến trúc liên quan. Tuy nhiên, với đặc thù ngành nghề có sự giao thoa giữa mỹ thuật, kỹ thuật và nhiều lĩnh vực khoa học chính xác khác, nên hiện nay đa phần các nền tảng AI xuất hiện và hỗ trợ hiệu quả cho việc hình thành ý tưởng kiến trúc đều bắt nguồn từ nhóm AI tạo sinh “Computer vision”, cho phép tạo ra các hình ảnh hỗ trợ cho việc phát triển phương án thiết kế; và các AI chatbot như ChatGPT, Gemini, Claude, Copilot hỗ trợ việc tra cứu, truy xuất và tổng hợp thông tin cho dự án thiết kế. AI tạo sinh (Generative AI) là các mô hình trí tuệ nhân tạo có khả năng tương tác với con người qua máy tính, trong đó, cụm từ “tạo sinh” dùng để nhấn mạnh khả năng tạo ra các nội dung mới và có tính đa dạng thông qua việc huấn luyện mô hình trên bộ dữ liệu huấn luyện ban đầu (hình 1).

Hình 1: Hệ thống AI tạo sinh hỗ trợ hiệu quả cho sáng tạo kiến trúc nội thất hiện nay (Nguồn: Tác giả)

Từ năm 2022, các kiến trúc sư (KTS) đã tỏ ra rất hào hứng với công nghệ AI ứng dụng trong kiến trúc. Theo dõi và phân tích câu lệnh của Midjourney từ đầu năm 2022 đến đầu năm 2023 (6 tháng sau khi xuất hiện công khai công cụ Midjourney) cho thấy rõ thực tế các KTS đang có sự quan tâm lớn trong ứng dụng AI vào thiết kế (hình 2) [1].

Hình 2: Kết quả phân tích 85 triệu câu lệnh của Midjourney (thu thập trong khoảng một năm 2022-2023) cho thấy KTS là đối tượng sử dụng phổ biến của nền tảng Midjourney. Khoảng 6,7% trong số đó có liên quan đến trực tiếp đến kiến trúc. Zaha Hadid là KTS được hỏi nhiều nhất cho đến nay, với phong cách tham số dễ nhận biết của bà, rất phổ biến trong cộng đồng những người thử nghiệm các công cụ AI (Nguồn: Ploennigs và Berger – Người sở hữu đã cho phép sử dụng)

Với ý nghĩa và tầm quan trọng của các mô hình AI tạo sinh đối với công việc của KTS, việc sớm có một cái nhìn rõ nét về các mô hình AI tạo sinh là rất cần thiết với cộng đồng KTS. Điều này sẽ giúp định hướng cách KTS được đào tạo và làm việc trong tương lai gần, được dự báo là phải có những chuyển đổi mạnh mẽ. Do đó, trong bài báo này chúng tôi trình bày các kết quả nghiên cứu chuyên biệt của nhóm về năng lực, tính hiệu quả, khả năng ứng dụng các mô hình AI tạo sinh. Sự tiếp nhận của cộng đồng với các công cụ nghề nghiệp mới mẻ này cũng được chúng tôi xem xét và nhận định qua thực tế triển khai công nghệ tại các trường đại học và doanh nghiệp. AI trong kiến trúc có và sẽ có vô vàn ứng dụng khác nhau. Trong bài viết này, chúng tôi giới hạn nội dung trong phạm vi ứng dụng AI trong các mục đích thiết kế của KTS.

Các nhóm công cụ AI tiềm năng cho KTS

Theo quan sát của nhóm, tính đến thời điểm hiện nay, 4 nhóm mô hình AI có mức độ ảnh hưởng lớn nhất tới quy trình thiết kế ý tưởng kiến trúc và nội thất:

  • Công nghệ Chatbots và Trợ lý ảo với các đại diện tiêu biểu như ChatGPT, Bing, Gemini, ClaudeAI,…dựa trên nền tảng công nghệ chính NLP/LLM (Natural Language Processing/Large Language Models). Những công cụ này giúp giảm tải thời gian xử lý và phân tích dữ liệu cho giai đoạn thu thập thông tin và xử lý dữ liệu ban đầu trong quy trình hình thành ý tưởng thiết kế ở trên. Bên cạnh đó các nền tảng này còn có khả năng thích ứng theo thói quen của người sử dụng, làm tăng mức độ hiệu quả trong công việc theo thời gian.
  • Công nghệ tạo hình ảnh từ ngôn ngữ với các đại diện quen thuộc như Midjourney, Stable Diffusion, Bingimage creator, Flux, LumaAI, Runway,… với khả năng xử lý từ văn bản tạo ra các hình ảnh hay video phù hợp (thuật ngữ hay sử dụng là text2image, text2video). Các công nghệ này đều dựa trên các mô hình học sâu và mạng nơ-ron nhân tạo để xử lý dữ liệu đầu vào, sau đó tạo ra hình ảnh hoặc video mới theo các văn bản đã nhập vào mà con người không cần thao tác gì thêm [2]. Nếu như trước đây phải sử dụng nhiều phần mềm chuyên dụng về 2D và 3D trong thời gian vài ngày mới có thể có phương án thiết kế sơ phác, thì hiện nay thời gian thực hiện đã được rút ngắn đáng kể, đồng thời sự phong phú của phương án tăng lên rất nhiều (hình 3).
Hình 3: Stable Diffusion hỗ trợ phát triển phương án thiết kế kiến trúc: Tạo ra nhiều phong cách thiết kế dựa trên một phác thảo ban đầu trong thời gian rất ngắn (Nguồn: Tác giả)
  • Công nghệ hỗ trợ tối ưu hóa sắp xếp công năng sử dụng cho công trình dựa trên công nghệ chính GANs với một số đại diện tiêu biểu như TestFit, Architechtures AI, Planfinder. Tối ưu hóa sắp xếp công năng trên mặt bằng, giúp rút ngắn thời gian hình thành và hoàn thiện ý tưởng kiến trúc (Hình 4). Trong quy hoạch, ở Trung Quốc hiện nay đã ứng dụng một số công cụ như vậy vào Quy hoạch đô thị bán tự động, ví dụ công nghệ AI Shifang DEEPUD, chạy trực tiếp trên trình duyệt web https://jsj.top/f/MWSHyd.
Hình 4: House-GAN tối ưu hóa sắp xếp công năng sử dụng cho công trình [3] (Nguồn: Nauata và cộng sự, 2020 – Người sở hữu đã cho phép sử dụng)
  • Công nghệ hỗ trợ triển khai hồ sơ thiết kế kỹ thuật với các nền tảng tiêu biểu như Hypar, SwappAI. Các nền tảng này vì đặc thù liên quan nhiều đến các chỉ tiêu kỹ thuật công trình và kĩ thuật vật liệu nên mức độ ứng dụng tại Việt Nam tính đến thời điểm này chưa cao, nhưng tiềm năng phát triển là rất lớn. Trong tương lai, các mô hình AI rất có thể sẽ được tích hợp vào các mô hình BIM để tự động hóa nhiều công việc thiết kế, giải phóng sức lao động của KTS.

Đánh giá mô hình AI tạo sinh trong kiến trúc

Thí nghiệm số

Để đánh giá mô hình Generative AI có thành công hay không, có rất nhiều yếu tố có thể đặt ra, tuy nhiên quan trọng và cơ bản nhất vẫn là 3 yêu cầu sau:

  • Chất lượng: Mô hình cần tạo ra các đầu ra có chất lượng cao, tức là chúng phải có tính thẩm mỹ, logic và hợp lý. Một mô hình tốt sẽ tạo ra các kết quả không thể phân biệt được với những gì thường được tạo ra bởi con người. Mặt khác, kết quả cần phù hợp với yêu cầu ban đầu của người dùng đặt ra. Điều này đòi hỏi mô hình Generative AI phải có khả năng hiểu và tái tạo ngôn ngữ, hình ảnh và âm nhạc một cách chân thực.
  • Đa dạng: Tính đa dạng cần có trong Generative AI là gì? Đó là từ cùng Input mô hình có thể tạo ra nhiều Output khác nhau, kết quả đa dạng về hình thức, nội dung và phong cách. Sản phẩm đầu ra càng đa dạng sẽ càng chứng minh được tính sáng tạo của công cụ AI này.
  • Tốc độ: Mô hình Generative AI tốt cần có tốc độ hiểu nhanh, thời gian dự đoán (Inference time) ngắn và đáp ứng được yêu cầu về thời gian thực tế của người dùng một cách hiệu quả. Điều này đặc biệt quan trọng khi áp dụng mô hình vào các ứng dụng thực tế như sáng tạo nội dung trực tuyến, tạo ra âm nhạc hoặc hình ảnh tự động.

Trong nghiên cứu của nhóm, chúng tôi làm thí nghiệm số để so sánh chất lượng và tính đa dạng của 3 nền tảng AI thông dụng hiện nay trong sáng tạo kiến trúc – nội thất gồm: (1) Stable Diffusion với Checkpoint Flux Dev.1 (gọi tắt là Flux), (2) Midjourney, và (3) Copilot Image Creator (trước đây là Bing Image creator hay Dall-E 3). Mục đích của công việc này là so sánh tính hiệu quả của 3 nền tảng này trong việc nhận diện và tái hiện các phong cách thiết kế và các vật liệu thông dụng trong sáng tạo kiến trúc – nội thất; từ đó cung cấp căn cứ để KTS quyết định nên sử dụng nền tảng nào cho công việc của mình.

Thí nghiệm được thực hiện trên quy tắc như sau:

  • Các hình ảnh được tạo ra trên các nền tảng AI từ cùng một lời nhắc (prompt) viết bằng tiếng Anh. Prompt cũng được sử dụng theo hướng đơn giản nhất, với cấu trúc gồm: “đối tượng + phong cách thiết kế” cho các thí nghiệm về phong cách thiết kế, “đối tượng + vật liệu” cho các thí nghiệm về nhận diện vật liệu;
  • Sản phẩm lấy ra so sánh là các ảnh được AI khởi tạo trong lần đầu tiên trên mỗi nền tảng với số lượng lần lượt là 4 ảnh đối với mỗi lần bấm “Generate” của Flux và Midjourney, 2 ảnh đối với nền tảng Copilot (Trừ thí nghiệm về tái hiện text trong phương án nội thất có lấy hình khởi tạo lần thứ hai của nền tảng Copilot, vì lần thứ nhất của nền tảng này không có hình nào đạt yêu cầu);
  • Chưa đánh giá các tính năng chỉnh sửa ảnh của các nền tảng, cũng như không bao gồm các tính năng upscale (nâng cao độ phân giải) hay enhance (nâng cao độ chi tiết) của các nền tảng;
  • Các nhận xét được quy đổi ra điểm 3-2-1 cho mỗi thí nghiệm, với quy ước là chất lượng tốt nhất sẽ được tính điểm cao nhất.

Danh mục 12 thí nghiệm gồm:

  • Thí nghiệm (TN) 1: Kiểm tra khả năng tái tạo chính xác chữ theo yêu cầu trong quá trình tạo ảnh (hình 5);
Hình 5: Kết quả thí nghiệm 1: Tạo ra không gian nội thất phòng khách có một bức tranh trang trí theo chủ đề nghệ thuật chữ với nội dung “Architech1904”. Thí nghiệm kiểm tra khả năng tái tạo chính xác chữ theo yêu cầu trong quá trình tạo ảnh. Kết quả cho thấy Flux>Midjourney>Copilot. (Nguồn: Tác giả)
  • Thí nghiệm 2, 3, 4, 5: Kiểm tra khả năng tạo ảnh nội thất theo 4 phong cách thiết kế thông dụng (dữ liệu huấn luyện AI có nhiều);
  • Thí nghiệm 6-12: Thí nghiệm tạo phương án nội thất phòng khách với 7 phong cách hiếm (dữ liệu huấn luyện AI còn sơ khai) (hình 6);
Hình 6: Kết quả thí nghiệm 10, 11, 12: tạo phương án nội thất phòng khách với các phong cách lần lượt là: Indochine thuần túy, Indochine hiện đại, và Art Décor hiện đại (Nguồn: Tác giả)
  • Thí nghiệm 13 và 14: Trong thí nghiệm này kiểm tra khả năng nhận diện các từ khóa về vật liệu trong quá trình tạo ra phương án ngoại thất nhà ở.

Trong khuôn khổ giới hạn của bài báo, chúng tôi chỉ có thể giới thiệu ngắn gọn vài kết quả chính và nhận định cốt lõi như sau. Chúng tôi thấy rằng có một sự cân bằng về chất lượng của các mô hình Flux và Midjourney khi cả 2 mô hình này đều được tổng điểm là 36. Trong khi đó, mô hình Copilot tỏ ra hụt hơi so với 2 mô hình còn lại, khi chỉ đạt 21 điểm. Chỉ thí nghiệm số 11 là lần duy nhất Copilot làm tốt hơn cả. Tuy nhiên, đây là một nền tảng có ưu thế rất lớn đó là miễn phí hoàn toàn, và tích hợp luôn vào Copilot của Microsoft, khiến cho người dùng có thể tiếp cận và sử dụng bất kì lúc nào trên các thiết bị cá nhân.

Trong việc sáng tạo Kiến trúc Nội thất, có thể nói Flux dev.1 và Midjourney là hai công cụ hỗ trợ đắc lực cho người thiết kế sáng tạo các phương án từ các thông tin định hướng ban đầu. Trong thời gian tới, các KTS đang kỳ vọng Flux sẽ có hệ thống mở rộng Controlnet đủ mạnh phát triển cùng để có thể phát huy được việc sáng tạo hình ảnh Kiến trúc- nội thất từ các bản phác thảo hình khối của người thiết kế.

Ghi nhận thực trạng và hiệu quả ứng dụng AI của sinh viên và KTS

AI là một hệ thống công cụ rất mới, tạo ra nhiều thay đổi quan trọng trong cách KTS tiến hành công việc của mình. Theo logic thông thường, những người trẻ tuổi có nhiều lợi thế tiếp cận những cái mới hơn so với những người ở độ tuổi lớn hơn. Do đó, giả thiết ban đầu mà nhóm nghiên cứu đặt ra là đối tượng sinh viên với lợi thế về tuổi trẻ và sự sáng tạo sẽ tiếp nhận AI và ứng dụng sớm và thường xuyên hơn nhiều so với người đã đi làm như các KTS và người thiết kế nội thất. Chúng tôi đã tiến hành một số thử nghiệm trong Đồ án sinh viên (hình thức khuyến khích áp dụng AI trong sáng tác) cũng như triển khai ứng dụng công nghệ AI trong các doanh nghiệp thiết kế. Kết quả bước đầu có phần trái ngược với giả thuyết như sau:

  • Khi được giới thiệu cách sử dụng các AI và cách thức có thể áp dụng trong các giai đoạn thiết kế đồ án chuyên ngành, các sinh viên đều tỏ ra khá háo hức. Tuy nhiên, thực tế số sinh viên chọn ứng dụng AI vào đồ án lại ít, phương án tạo ra có chất lượng thấp so với mong đợi. Thậm chí họ có tâm lý nản vì cảm giác AI không hỗ trợ được nhiều trong quá trình hình thành ý tưởng.
  • Đối với các KTS, kỹ sư, nhà thiết kế, nhóm đối tượng này tiếp cận AI khá dè dặt và chậm hơn một chút, tuy nhiên lại là nhóm ứng dụng rất nhiều vào trong thực tế, nhất là đối với những học viên đã từng được chúng tôi hướng dẫn cách dùng AI trực tiếp. Sau khóa học, các học viên đều rất hào hứng, và có những báo cáo về việc dùng AI vào trong các công trình, các dự án thực tế của cá nhân hoặc công ty. Đa phần đều đánh giá cao tốc độ phát triển phương án, sự đa dạng của phương án, và tốc độ tùy biến cũng như khả năng tương tác trực tiếp với dự án thiết kế khi có sự tham gia của AI. Đã có nhiều công trình thực tế của họ được hình thành với sự tham gia của AI (hình 7, 8).
Hình 7: Phương án thiết kế nhà ở riêng lẻ từ phác thảo thô – Công cụ Stable Diffusion (SDXL) (Nguồn: Tác giả)
Hình 8: Dùng AI tạo phương án cải tạo cho một dự án ở Hà Nội – Công cụ Stable Diffusion (Flux dev.1) (Nguồn: Tác giả)

Để lý giải cho kết quả khá ngạc nhiên nói trên, chúng tôi cho rằng sự khác biệt về kinh nghiệm thiết kế và khả năng ra quyết định giữa 2 nhóm đối tượng đã làm ảnh hưởng đến việc ứng dụng công cụ. Các KTS, nhà thiết kế và những người đã đi làm đều có tích lũy vốn kinh nghiệm về thiết kế, về kỹ thuật, về thực tế dày dặn. Từ đó, khi tiếp nhận một phương án do AI tạo ra, họ đủ khả năng và kinh nghiệm nhận ra ngay sản phẩm này có thể thực tế hóa được không, cần phải xử lý thêm gì để tăng tính thực tế. Những tích lũy như vậy thì hầu hết các bạn sinh viên chưa có, nên thiếu tính chủ động trong việc ra quyết định. Hơn nữa, sinh viên thường chọn lối thiết kế sáng tạo “không giới hạn”, ưa chuộng những kiểu tạo hình bắt mắt, lạ lẫm. Khi nhận sản phẩm của AI với những tạo hình bay bổng, với kỹ năng tin học của sinh viên lại khó có thể tái hiện và triển khai các mô hình phức tạp đó. Từ đó sinh ra tâm lý chán nản, thậm chí không dùng nữa.

Kết luận

Các nghiên cứu của chúng tôi thực hiện trong bối cảnh công nghệ AI đang tiến hóa rất nhanh và chúng sẽ có nhiều thay đổi lớn trong một tương lai gần. Do đó, điều quan trọng là bạn phải nắm bắt lấy cơ hội đang đến rất gần, hoặc tụt lại phía sau. Những gì KTS hiểu biết về các công nghệ lõi của AI còn rất khiêm tốn, và việc hiểu biết cũng như phát triển công nghệ này nằm ngoài khả năng của hầu hết KTS. Tuy nhiên, sự hấp dẫn và khả năng của nó khiến nhiều KTS muốn khám phá nó hơn là chỉ thuần túy ứng dụng nó.

Các nghiên cứu ban đầu của chúng tôi cho thấy nền tảng Stable Diffusion và Midjourney chứng tỏ được chất lượng và có khả năng sử dụng rộng rãi cho công việc của KTS ngay từ bây giờ. Công cụ Copilot của Microsoft cần được cải tiến thêm và chuyên biệt hóa tính năng cho lĩnh vực kiến trúc mới có thể sử dụng rộng rãi được. Trong thời gian ngắn sắp tới, những nền tảng AI này sẽ tiếp tục được cải thiện nhanh chóng. Cuối cùng, các nền tảng đơn lẻ sẽ cải tiến quy trình làm việc hoàn chỉnh cho các trường hợp ứng dụng như: Ý tưởng, ảnh ghép, các biến thể xây dựng và phong cách. Tiến bộ đó sẽ cải thiện đáng kể năng suất và khả năng sáng tạo của KTS. Rất có thể những công cụ này sẽ được áp dụng đầu tiên cho các buổi tìm ý với khách hàng và cho các cuộc thi. Các thiết kế được tạo ra bởi các công cụ AI hiện tại có xu hướng hướng đến các hình thức hữu cơ, mặt tiền trang trí và các bố cục phức tạp, phá vỡ lối thiết kế hiện đại tối giản thông thường. Với tiến bộ trong lĩnh vực công nghệ xây dựng và rô bốt, ngày càng có nhiều thiết kế trong số này trở nên khả thi về mặt xây dựng và kinh tế. Điều này có thể tạo thành một điều kiện môi trường hoàn hảo dẫn đến một thế hệ phong cách kiến trúc mới dựa trên các thiết kế do AI tạo ra [1].

ThS. KTS. Trần Xuân Tuấn – Trường Đại học Kiến trúc Đà Nẵng
PGS. TS. KTS. Nguyễn Anh Tuấn – Trường Đại học Bách khoa, Đại học Đà Nẵng
(Bài đăng trên Tạp chí Kiến trúc số 01-2025)


Ghi chú:
Nhóm tác giả trân trọng cảm ơn PGS. TS. Yasutaka Furukawa (ĐH Simon Fraser) và GS. TS. Joern Ploennigs (ĐH Rostock) đã cho phép sử dụng hình ảnh của họ để minh họa trong bài báo này.

Tài liệu tham khảo
[1] Ploennigs, J. and Berger, M., 2023. AI art in architecture. AI in Civil Engineering, 2(1), p.8.
[2] Ngô Minh Vũ, Tác động của trí tuệ nhân tạo (AI) tới đào tạo và hành nghề thiết kế nội thất, Tạp chí Kiến trúc số 1-2024, năm 2024.
[3] Nauata, N., Chang, K.H., Cheng, C.Y., Mori, G. and Furukawa, Y., 2020. House-gan: Relational generative adversarial networks for graph-constrained house layout generation. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part I 16 (pp. 162-177).

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *